5

Python爬虫编程思想(39):使用lxml解析HTML与XML

 2 years ago
source link: https://blog.csdn.net/nokiaguy/article/details/120620856
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Python爬虫编程思想(39):使用lxml解析HTML与XML

专栏收录该内容
40 篇文章 2 订阅 ¥29.90 ¥99.00


目录

1. 安装lxml

2. 操作XML

3. 操作HTML



          lxml是Python的一个解析库,用于解析HTML和XML,支持XPath解析方式。由于lxml底层是使用C语言编写的,所以解析效率非常高。本节会介绍lxml在Windows、Linux和Mac OS X下的安装方式,以及lxml的基本使用方法。

1. 安装lxml<

本文会使用urllib3抓取猫眼电影Top100榜单,读者使用下面的URL进入Top100榜单页面。https://maoyan.com/board/4Top100榜单页面如图1所示。从Top100榜单页面可以看出,每一页有10部电影,共10页,一共100部电影。页面下方是导航,用于切换1至10个页面。这个爬虫的目的就是抓取这100部电影的信息(如电影封面图像的URL、电影名称、演员列表、评分、上映时间等),然后将这些数据以JSON格式保存到名为board.txt的文本...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK