8

这款神器,堪称爬虫界的百宝箱!

 3 years ago
source link: https://www.cxyxiaowu.com/13570.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
这款神器,堪称爬虫界的百宝箱!-吴师兄学编程
当前位置:吴师兄学编程 > GitHub > 这款神器,堪称爬虫界的百宝箱!

大家好,我是小 G。

会写爬虫,已成为广大开发者必备核心技能之一。不过,也有不少人因为不懂这块的法律法规,因技术使用不当吃了牢饭。

因此,在技术圈内,有这么一句话广为流传:

爬虫玩得好,牢饭吃到饱

当然了,玩笑归玩笑,此前有细心的开发者在 GitHub 整理过一份文档,里面汇总记录了国内各类爬虫违法违规的案例,想搞爬虫之前,建议大家先把这个项目看一看:

这款神器,堪称爬虫界的百宝箱!

https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

不过,上面这份文档,不是咱们今天的主题。

当你善于手写代码来实现业务需求的同时,也别忘了,一个趁手的工具,能极大减轻你的工作量,提高生产力。这一论点放到爬虫技术上面,也同样适用。

今天,我想跟大家分享一个集众多数据源于一身的爬虫百宝箱,里面收集了包括 GitHub、QQ 邮箱、网易邮箱、京东、淘宝、支付宝、移动联通电信、知乎、B 站、网易云音乐、QQ 群以及各大技术论坛与社区的爬虫工具。

其覆盖面之广,由下面这张工具箱截图便可见一斑:

这款神器,堪称爬虫界的百宝箱!

除去上面提供的各类工具之外,该项目的代码也全部开源,并提供 GUI 图形界面,小白用户也能分分钟上手。

不过,爬虫只是一种手段,合法合规的拿到并用好数据才是关键。

因此,作者对项目结构进行了更为合理的设计,所有项目的数据源相互独立。这么做的好处是便于开发者后续维护和管理,也使得代码具有更高的可移植性。

在数据存储和展示方面,项目的友好度也颇佳,所有数据均使用 JSON 格式存储,并提供更为直观的数据可视化展示(仅部分工具支持)。

当然了,作者发布这款工具的本意,并不是让大家去爬取他人数据,而是通过合理手段,从各大平台拿回那些本属于自己的数据。

在聊到为什么要做这样一个项目时,作者说道:

个人数据蕴含巨大的价值,未来的世界核心就是数据,这是一个万亿级的市场。众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为生产数据的最终用户,却没能分享属于自己的数据收益。

个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合。很多优秀的创业公司,被极大限制。有算法、有创新,但缺乏合法且高效的途径访问数据。

所以,你知道管理好自己数据的重要性了吧。

关于这个工具箱的使用,作者写了一份很详细的文档,在此便不多做赘述了。

感兴趣的同学,可前往其项目页面查看详情:

GitHub 地址:

https://github.com/kangvcar/InfoSpider

InfoSpider 使用文档:

https://infospider.vercel.app/

这里再安利一波我们的公众号: GitHub开源项目工具精选,目前坚持每天一篇原创文章,主要分享比较实用或有趣的开发工具与开源项目,偶尔也会聊聊技术圈内最近发生的新鲜事,感兴趣的小伙伴可以关注一下哈。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK