7

如何模拟 Google Reader 的搜索(或:构建适于自己的个性化搜索)

 3 years ago
source link: https://blog.henix.info/blog/build-personal-search-engine/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

如何模拟 Google Reader 的搜索(或:构建适于自己的个性化搜索)

最后更新日期:2015-09-29

  背景:为什么要使用 Google Reader 的搜索:

  直接引用 http://blog.devep.net/virushuo/2013/03/19/googlereader.html

Blogger 们和研究人员对 Google Reader 的用法是这样的:他们订阅大量相关的内容源,平时并不会全部读完,但是在需要知道某些事情时,会到 Google Reader 中搜索,我就是这样写的这篇 Blog ,这里面列出的数据和链接,多半是通过这种搜索的方式获得。换言之,对于这类用户,Google Reader 不仅是新闻源,还是资料库。

这种使用方法就直接把 Google Reader 变成了个性化搜索引擎,为什么不直接用 Google 搜索?因为内容太多了,多数内容我只要从平时自己积累下来,订阅过的信息源中搜索就足够了,快而且准确。

  其实就是用 Google 同时搜索多个站点,问题是 Google 能同时使用多个“site:”吗?

  回想小众软件的搜索的话,的确是从多个站点搜索的。所以答案就是使用 Google Custom Search 。

  其实这个也不一定要跟订阅的 feeds 完全同步。我可以把我关注的网站分为两类:

  1. 要订阅 RSS 的
  2. 要加入自己的 Custom Search 的

  这两类未必是完全重合。也就是说有些是只订阅但不加 Custom Search(比如我订阅的某些漫画更新),还有些是只加入 Custom Search 但不订阅(比如某些技术博客对我来说太深奥看不懂,但觉得想去学的)。

  于是 Google Custom Search 就成为与 RSS Reader 独立的一个东西。

  这样其实能帮助我们更好的整理我们的信息,因为有些站点我们不需要一出来新东西就关注的,只需要搜索某个东西的时候能找到它那里去就行了。

  最后做出来的效果:

  https://cse.google.com/cse/publicurl?cx=009632366517980193929:mtp6w7kp7jm

  收录站点 150+ ,主要关注函数式编程、安全、并发、算法等。

  不足之处:

  • 不能抓特定某个人的豆瓣日志(url 变化部分不是结尾)
  • 不能抓某个人的新浪博客(url 变化部分不是结尾)
  • 不能抓某个 google group 的全部帖子(# 后面的不被视为 url 的一部分)
评论邮箱 评论帮助

请按照如下格式发邮件:
[email protected]
[复制]
评论 / 回复内容,只支持纯文本


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK