Python爬虫编程思想（7）：实战案例：抓取博客文章列表

蒙娜丽宁 2021-07-10 19:01:24 40

版权

在上文给出的爬虫案例属于全网爬虫，从理论上说，如果给定的入口点也没包含足够多URL，并且大多数URL都可以导航到其他网站的页面，这个爬虫是可以将整个互联网的页面都抓取下来的。除了这种爬虫外，还有另外一种爬虫，这就是定向爬虫，这种爬虫并不是用来抓取整个互联网的页面的，而是用与抓取特定网站的资源。例如，抓取某个网站的博客列表数据。

定向爬虫的基本实现原理与全网爬虫类似，都需要分析HTML代码，只是定向爬虫可能并不会对每一个获取的URL对应的页面进行分析，即使分析，可能也不会继续从该页面提取更多的URL，或者会判断域名，例如，只抓取包含特定域名的URL对应的页面。本节给出了一个定向爬虫的案例，以便让读者对定向爬虫有更深入的理解。

本例抓取博客园（https://www.cnblogs.com)首页的博客标题和URL，并将博客标题和URL输出到Console。

编写定向爬虫的第一步就是分析相关页面的代码。现在进入博客园页面，在页面上单击鼠标右键，在弹出菜单中单击“检查”菜单项打开开发者工具，然后单击开发者工具左上角黑色箭头，并用鼠标单击博客园首页任意一个博客标题，在开发者工具的Elements面板会立刻定位到该博客标题对应的HTML代码，图1中黑框内就是包含博客园首页所有博客标题以及相关信息的HTML代码。

Python爬虫编程思想（7）：实战案例：抓取博客文章列表

Python爬虫编程思想（7）：实战案例：抓取博客文章列表

Recommend

Worst Weddings People Attended

数据表明，比特币电力消耗降至2020年11月水平

百济神州靠上市输血，这是创新药企的真出路吗

Circle CEO 称USDC将走上成功之路，但会是一条长路

Jared Leto UFC Fight Outfit Reactions

从用户角度理解Drivechain

SharkTeam独家分析 | 城门失火，殃及池鱼：跨链项目ChainSwap被攻击事件分析

IntentService源码分析

Android v1、v2、v3签名详解

四大营销细节让你的APP与众不同

About Joyk