12

Python爬虫编程思想(7):实战案例:抓取博客文章列表

 3 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/118639145
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Python爬虫编程思想(7):实战案例:抓取博客文章列表

original.png
蒙娜丽宁 2021-07-10 19:01:24 40

        在上文给出的爬虫案例属于全网爬虫,从理论上说,如果给定的入口点也没包含足够多URL,并且大多数URL都可以导航到其他网站的页面,这个爬虫是可以将整个互联网的页面都抓取下来的。除了这种爬虫外,还有另外一种爬虫,这就是定向爬虫,这种爬虫并不是用来抓取整个互联网的页面的,而是用与抓取特定网站的资源。例如,抓取某个网站的博客列表数据。

        定向爬虫的基本实现原理与全网爬虫类似,都需要分析HTML代码,只是定向爬虫可能并不会对每一个获取的URL对应的页面进行分析,即使分析,可能也不会继续从该页面提取更多的URL,或者会判断域名,例如,只抓取包含特定域名的URL对应的页面。本节给出了一个定向爬虫的案例,以便让读者对定向爬虫有更深入的理解。

        本例抓取博客园(https://www.cnblogs.com)首页的博客标题和URL,并将博客标题和URL输出到Console。

        编写定向爬虫的第一步就是分析相关页面的代码。现在进入博客园页面,在页面上单击鼠标右键,在弹出菜单中单击“检查”菜单项打开开发者工具,然后单击开发者工具左上角黑色箭头,并用鼠标单击博客园首页任意一个博客标题,在开发者工具的Elements面板会立刻定位到该博客标题对应的HTML代码,图1中黑框内就是包含博客园首页所有博客标题以及相关信息的HTML代码。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK