我的第一个Scrapy 程序 - 爬取当当网信息-麻婆豆腐-51CTO博客

6 years ago

source link: http://blog.51cto.com/beanxyz/2069239
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

前面已经安装了Scrapy，下面来实现第一个测试程序。概述Scrapy是一个爬虫框架，他的基本流程如下所示（下面截图来自互联网）简单的说，我们需要写一个item文件，定义返回的数据结构；写一个spider文件，具体爬取的数据程序，以及一个管道pipeline文件，作为后续操作，比如保存数据等等。下面以当当网为例，看看怎么实现。这个例子里面我想爬取的内容是前面20页的羽绒服产品，包括产品名字，链接和

Recommend

我的第一个Scrapy 程序 - 爬取当当网信息-麻婆豆腐-51CTO博客

Recommend

（华为）2个DHCP与一个中继搭配PC1与PC2获取不同网段IP地址-qq5a4e2c5cae536的博客-51...

在防火墙上配置nat或pat-TMAC严敏的博客-51CTO博客

中国公民在美销售山寨iPhone获罪涉案110万美元

华为公布2017年分红价格 20级老员工或分红近300万元

在共享单车的坟场里掘金：回收共享单车二次买卖

乐视网将有56.2亿元人民币债务于今年年底前到期

GitHub - louisabraham/algnuth: Algebraic Number Theory package

似乎国内企业更倾向于用 Yii（相比于 Laravel 一类的）？ - V2EX

通过运动/健身改变生活是怎样的体验？ - 知乎

你在小时候玩过哪些「恶心」的游戏？ - 知乎

About Joyk