Python爬虫编程思想（154）：使用Scrapy处理登录页面

2 years ago

source link: https://blog.csdn.net/nokiaguy/article/details/126334527
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Python爬虫编程思想（154）：使用Scrapy处理登录页面

在抓取Web页面数据时，并不是每一个页面的数据在任何时候都可以抓取到。有一些页面，需要用户登录后才可以在浏览器中显示，如果想通过爬虫抓取这样的页面，同样也需要登录。也就是说，这种页面只有特定的用户才能访问。

对于需要登录才能访问的页面有多种情况，其中比较容易抓取的是不管以任何用户登录，页面都相同，或者只想抓取特定用户登录后的页面，在这种情况下，可以事先在网站上注册一个用户，然后在抓取Web页面之前，先用程序模拟登录，登录成功后，就可以继续利用爬虫下载该Web页面了。

本例通过Flask框架[1]实现了一个简单的Web服务器，用于模拟需要登录才能访问的Web页面，然后使用Scrapy模拟登录，最后再使用Scrapy抓取登陆后页面的内容。

现在先来建立相关的Web页面。

登录页面（login.html）

文章知识点与官方知识档案匹配，可进一步学习相关知识

Recommend

Python爬虫编程思想（154）：使用Scrapy处理登录页面

Python爬虫编程思想（154）：使用Scrapy处理登录页面

Recommend

外部风险频现考验中企全球应对能力

读《小米创业思考》有感

Hire Slow, Fire Fast is Bad Advice

关于患上了“汗斑”这件事

超全整理！设计师必备的3类书法字免费资源（附下载链接）

In praise of the spreadsheet

My ISP moved support overseas, so I'm changing NBN providers - Ausdroid

网络编程-Linux高性能服务器编程

Rough cut /flexible planning s4 Hana

What James Webb Has Learned About The Stunning Cartwheel Galaxy

About Joyk