5

Python爬虫编程思想(154):使用Scrapy处理登录页面

 2 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/126334527
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Python爬虫编程思想(154):使用Scrapy处理登录页面

       在抓取Web页面数据时,并不是每一个页面的数据在任何时候都可以抓取到。有一些页面,需要用户登录后才可以在浏览器中显示,如果想通过爬虫抓取这样的页面,同样也需要登录。也就是说,这种页面只有特定的用户才能访问。

对于需要登录才能访问的页面有多种情况,其中比较容易抓取的是不管以任何用户登录,页面都相同,或者只想抓取特定用户登录后的页面,在这种情况下,可以事先在网站上注册一个用户,然后在抓取Web页面之前,先用程序模拟登录,登录成功后,就可以继续利用爬虫下载该Web页面了。

本例通过Flask框架[1]实现了一个简单的Web服务器,用于模拟需要登录才能访问的Web页面,然后使用Scrapy模拟登录,最后再使用Scrapy抓取登陆后页面的内容。

现在先来建立相关的Web页面。

登录页面(login.html)

文章知识点与官方知识档案匹配,可进一步学习相关知识

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK