【Python】爬虫实战，零基础初试爬虫下载图片（附源码和分析过程）

专栏收录该内容

8 篇文章 3 订阅

订阅专栏

爬虫，全称网络爬虫，就是通过技术手段从网络获取数据的程序或者脚本

人生苦短，我选python。本次就用python来进行实现对一个壁纸网站的图片下载

本篇文章就是直接爬虫实战。通过本文，带你了解requests库的基本使用，并且完成壁纸网站的图片爬取

声明：博主攻城狮白玉的本篇博文只用于对于爬虫技术的学习交流。如果侵犯到相关网站利益，请联系我删除博文。造成不便还请见谅。希望各位同学在学习的时候不要过于频繁的去请求。

一、requests库介绍

Requests库是python一个很好用的http请求库。封装得很好~在我们爬虫的时候常常也会用到。

Requests的官方介绍说到，让HTTP服务人类。有一说一，这是个非常容易使用的库。本次咱们的爬虫也会用到这个库。

关于requests库的介绍，可以看一下官方文档

Requests: 让 HTTP 服务人类 - Requests 2.18.1 文档

使用前记得安装requests库

pip install requests

二、网站分析

进入目标网站

随便点开一张图，查看它的url，http://www.netbian.com/desk/23744.htm

先留意一下这个网址，后面会用到

回到浏览器，打开F12，通过目标元素检查工具，点击刚刚我们点过的图片。通过它的元素我们可以知道a标签里的属性值href的链接就是上面我们访问图片的链接地址

我们在大图的页面，同样用f12点击一下，找到图片的链接地址

访问图片链接发现是咱们要的大图。至此，对于网站的分析完毕。

三、任务分析

综上所述，咱们目标网站是一个壁纸图片网站，编程做到的步骤如下：

定位到每个图片的详情链接
访问详情链接
定位到图片对应的大图链接。下载，保存图片

看起来是不是很容易，开干

四、编程实现

4.1 访问首页

通过requests库发起get请求，请求壁纸网站的首页。并把结果保存在index.html文件里面

打开保存的文件一看，我们把首页给下载下来了。

4.2 定位元素

这里我们通过xpath方式。这里用到的是lxml库。不懂lxml库的话，参考下文

【Python】爬虫解析利器Xpath，由浅入深快速掌握(附源码例子)

PS：谷歌渲染的页面的xpath和requests请求回来的xpath会有不一样。有时需要保存下来进行xpath分析

对于元素进行定位。把a标签的href值全部拿出来，而且也把对应的名称取出来

4.3 访问详情页

4.4 定位图片链接并下载

下载完效果图

4.5 完整源码

妈妈再也不用担心我的学习了。

如果觉得有用的话，麻烦一键三连支持一下攻城狮白玉，并把本文分享给更多的小伙伴。你的简单支持，我的无限创作动力

【Python】爬虫实战，零基础初试爬虫下载图片（附源码和分析过程）

【Python】爬虫实战，零基础初试爬虫下载图片（附源码和分析过程）

一、requests库介绍

二、网站分析

三、任务分析

四、编程实现

4.1 访问首页

4.2 定位元素

4.3 访问详情页

4.4 定位图片链接并下载

4.5 完整源码

Recommend

[系统安全] 三十三.恶意代码检测(3)基于机器学习的恶意代码检测技术

WebSharper 4.7.3 is released with decimal, bigint,

WH–青春十八闖九州(下)

有了这7款浏览器插件，浏览器居然“活了”？！媳妇儿直呼“大开眼界”

《民用建筑室内空气质量分级与评价》编制工作启动

ReSharper 2021.1.5 and Rider 2021.1.5 Released

openSAP – Start your Business Transformation to the Cloud with SAP S/4HANA and R...

二象观察｜云从科技IPO过会后，“AI四小龙”竞争进入新阶段？

NEC与微软扩大战略合作伙伴关系助力客户的业务弹性及增长

NS – NBA Playground 2 挑籃 – NaCl's Blog

About Joyk