8

做了一个 Chrome 插件,自动把访问过的网页全文保存到自己的 WebDAV 上

 1 year ago
source link: https://www.v2ex.com/t/916365
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

V2EX  ›  分享创造

做了一个 Chrome 插件,自动把访问过的网页全文保存到自己的 WebDAV 上

  greensea · greensea · 11 小时 31 分钟前 · 1192 次点击

先丢插件地址:

https://chrome.google.com/webstore/detail/page-auto-archiver/inbfhpapklekaajibkklfjieklbbmmke/related

做这个东西起源于我自己的一个很实际的需求:有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了,所以没办法通过历史记录去搜索,但是我记得网页上的文字内容,如果可以根据网页内容搜索历史记录就好了。

于是就做了这个插件,安装之后,日常浏览的时候会默默地把网页全文保存到自己的 WebDAV 上,等到想搜索的时候,直接去插件里搜索就好了。(当然更极端也更快的方法是去服务器上 grep )

反正做都做了,干脆就完善一下丢出来,万一有和我一样收集癖的人呢。

29 条回复    2023-02-15 23:06:13 +08:00
mhqschen

mhqschen      11 小时 23 分钟前

我的密码里也有"@"……懵逼了~
tool2d

tool2d      11 小时 16 分钟前

我也做了一个插件,只不过是保存所有历史 URL 到本地 indexdb 里。

原因是 chrome 默认会清空三个月前的历史记录!而且无法设置。

这点完全没办法忍,凭什么动我数据啊?
eaststarpen

eaststarpen      11 小时 15 分钟前 via Android

"有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了" 同样的情况遇到很多次了。

实际上几天前的内容在历史记录里翻一翻还是能找到的,只不过效率太低。 几个月甚至半年那种就麻烦了。

不知道 op 数据保留 /清理的策略是什么。如果把几个月所有浏览记录全文保留感觉存储代价太大,查询效率可能也不高。

我的做法是利用简悦的稍候读功能,遇到觉得可能以后会复读的 post 就 dd 保持下来,固定时间整理。

这样做虽然麻烦了点但能让我保持内容敏感度和养成定期回顾的习惯
greensea

greensea      11 小时 12 分钟前

@mhqshen 这是一个笔误,你不说我都还没发现,捂脸……
@eaststarpen 没有清理功能,手动清理,反正会用 WebDAV 的都会……其实我自己是保存到 NAS 上的,纯文本再多还能给我撑爆了不成。话说历史记录……我一天几百个网页的浏览量,想找一天的都难,别说几天了
HeyWeGo

HeyWeGo      11 小时 5 分钟前

整个网页直接离线下来?显示效果如何呢?目前自己 nas 上弄了个 linkding ,当收藏夹用
TrembleBeforeMe

TrembleBeforeMe      11 小时 2 分钟前

保存的是网页而不是纯文本吗
caomu

caomu      11 小时 1 分钟前 via Android   ❤️ 1

类似项目:

WorldBrain's Memex https://sspai.com/post/44088 这个据说现在只能索引书签的正文了

https://www.v2ex.com/t/888303

https://meta.appinn.net/t/topic/36432

还是很期待类似的项目的,个人觉得未来趋势或许就是 ChatGPT 类应用本地化,可以支持语义搜索,那就完全相当于外置大脑了。
caomu

caomu      10 小时 53 分钟前 via Android

另一个讨论 https://meta.appinn.net/t/topic/10011

楼主可以考虑增加建立本地索引的功能?
greensea

greensea      10 小时 26 分钟前

@HeyWeGo 显示就像没有 CSS 的网页,反正只是回溯一下文字内容而已,不是经常看,显示效果完全无视
@TrembleBeforeMe 保存的是存文本,主要是考虑到连图片一起保存的话太大了,而且我自己主要是需要找文字内容而已。
@caomu 浏览器限制太大,本地索引不好做,真要做的话还是在服务端实现比较好,但是服务端实现的话部署就比较困难,不像现在这样随便整个 NAS 就行


我倒是想做一个类似 Rewind 的东西,就直接屏幕截图,然后 OCR 文字,全文索引
timeance

timeance      10 小时 25 分钟前

我是看着觉得不错的就通过插件保存在 zetero 里 有空就手动标注 tag ,当文献来管理...
xujinhui1

xujinhui1      10 小时 17 分钟前

刚安装了插件,报"加载配置文件失败,无法浏览或搜索文件"
greensea

greensea      10 小时 12 分钟前

@xujinhui1 应该是要先设定 WebDAV 链接,然后才能用,这地方的提示应该是没做好
wanguorui123

wanguorui123      10 小时 9 分钟前

如果能自动生成 mht 单文件保存就好了
wanguorui123

wanguorui123      10 小时 7 分钟前

或者截屏保存也行
caomu

caomu      9 小时 59 分钟前 via Android

保存 mht 会不会太大啊
puck260

puck260      9 小时 56 分钟前

maybe 网页长图也是一个方向,只需要文件名是网址
hamsterbase

hamsterbase      9 小时 20 分钟前 via Android   ❤️ 3

如果想自动保存,可以试试看 singlefile

singlefile 支持自动保存浏览过的网站,还可以设置停留多久才保存。

除了保存到本地 ,singlefile 支持保存到 webdav GitHub


顺便提一下,我开发了一个稍后读工具 hamsterbase 。 支持导入 singlece ,mhtml ,webarchive 等常见网页格式。 导入后支持批注,全文搜索,打标签。
hamsterbase 完全离线,有桌面版和 docker 版。 看我之前发的帖子就可以了
Bingchunmoli

Bingchunmoli      9 小时 16 分钟前 via Android

有需求做不出来,见过开源项目通过 chrome ,py pdf 等各种方式留存以方便后续寻找及原站 404 后仍然可用,都有点麻烦
ourongxing

ourongxing      7 小时 14 分钟前

直接用 cubox 吧,可以用快照。
leqoqo

leqoqo      6 小时 39 分钟前

请问一下能支持保存到本地一个目录吗?,最好支持一下点击"加入索引",然后保存该记录.
顺便分享一下我的 iPhone 历史记录方法
https://www.icloud.com/shortcuts/c8320ec70d0b4bfb8b876e5f2509f85e
截屏并 OCR 生成富文本 html 保存到文件
leqoqo

leqoqo      6 小时 36 分钟前

设置成双击手机背面 执行上面捷径
wayne3602

wayne3602      6 小时 29 分钟前 via Android

不错,支持一下,我也有这个困扰,而且除了这个困扰之外我有个癖好,我在输入框输入东西的时候不想被曾经输入过的相似内容打扰,我只能清除浏览数据,但是这样一来我以后想找曾经浏览过的网页就彻底找不到了
zouzhi

zouzhi      6 小时 0 分钟前

挺好,我一般是保存到 notion ,也还不错
31415926535x

31415926535x      5 小时 52 分钟前

把所有浏览过的页面都缓存的话,感觉是不是有些冗余(因为一般只需要备份感兴趣的就行,不过好像也没法预知后续是否重新感兴趣)

如果只是为了 backup 浏览过的链接,以及快速回复标签页对应的窗口的话,可以试试 sessionbuddy 这个插件
zooo

zooo      5 小时 48 分钟前

支持

之前有过这种想法,没想到挺多人都已经做出来工具了
zooo

zooo      5 小时 46 分钟前

@zooo 其实如果支持后续一些功能就能强大了,比如自动分类,自动建立一些帮助人记忆消化的索引,就能好了,相当于第二大脑,人脑用来将建立的索引进行记忆。
wynemo

wynemo      4 小时 38 分钟前

@greensea #10 老哥 插件描述可以更新下吗 应该是这种形式吧 https://username:passwordmimie@foo:bar:5006/archive/
m4d3bug

m4d3bug      4 小时 10 分钟前 via Android

能多一个树状图记录浏览痕迹也是极好的

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK