7

好强的谷歌"Excel",不用自己写代码就能爬虫,网友立马cue微软:慌不慌? |...

 1 year ago
source link: https://www.qbitai.com/2022/10/38668.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

好强的谷歌“Excel”,不用自己写代码就能爬虫,网友立马cue微软:慌不慌?

head.jpgalex 2022-10-16 14:14:59 来源:量子位

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

家人们,要爬虫——现在用一个电子表格就行了。

f0d431c087544c2cae7150e55219bb61~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=qRxaYd3PV4iM%2BryJmy900q0ykg8%3D

一行代码也别写,第三方软件也甭安。

只需在表格里点几下就ok。

不信,你瞧:

就这么两下,网页上的商品信息都有了。

e397f54d6c4e446ba0903ab767048ef3~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=rdk1oejAwUpLRgAVeFZF0aI8iUs%3D

网友看完都惊呆了,码个不停。

0d2966e3eef346be9982fe61a17f7606~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=l4efj%2Fk6BkByUIJUJIKr3fuoTM0%3D

一看到这是来自谷歌的产品(Google Sheet,谷歌的“Excel”),大家就立马cue起了微软,问它慌不慌。

还有人称这是在“跨界打击”它。 (手动狗头)

7eebaf2d2ba04c0e97697f14663c0e46~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=Hl39Qx6VjMjKYVxble9vLKFq6LE%3D

△ 扫盲:“巨硬”就是微软,网友给的调侃

好不热闹。

来看具体怎么实现。

以爬亚马逊某个手机产品的商品页为例。

我们先打开谷歌Sheet(网友版即可),新建一个文档。

然后copy一下要爬的网址,粘进去。

e3a4900eff984ca99b578a78f133f615~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=N1JT1yN8%2F47Btjoq%2FGwoY9s5ifI%3D

剩下的都在Sheet里完成。

我们先列一下要爬的元素,这里依次为:

商品图片-识别码(asin,亚马逊给每个商品生成的唯一标识)-商品名-价格-评分-图片网址。

f29a785feb304ca6b08ab523e32cd934~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=ZwLaRpGqEZjJtfAlw6wEyiovcSY%3D

然后就可以正式开始爬了。

要诀就是一个叫做ImportFromWeb的函数。

它也是个插件,没有的需要先安装一下(安装地址放文末了),然后通过Google Sheet程序的“扩展程序”菜单导入就行。

fbcd36a04778424aba1d69daba834b40~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=vbyKObgJ4HFXLjJDYxOVDImqJkw%3D

我们只需把ImportFromWeb函数放进asin那一列,然后第一个参数选中刚刚粘过来的网址,第二个参数把要爬的元素单元格拖一遍(除了“图片”)。

稍等个1~2s,价格、商品名等信息就都出来了!

1392c131ec8b4a8b95862165c9a3679d~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=BRHR7wu5M5hR3Skv1qqDI8P%2BREs%3D

还差图片。

简单~基操~

用IMAGE函数把G3格子里得到的图片网址值给过去就行。

42dade51470c41a5aa093b9b4317aaca~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=hsTP0PANBKjw7FoxBYB7WSwElM0%3D

至此,第一个商品页里的东西就爬到了。

唯一麻烦的是,如果还需要爬更多商品的信息,需要把商品网址挨个粘一遍。

然后就没啥了,除了给单元格地址的行标列标加一下绝对引用符“$”。

这里可以不学视频,直接一个f4就行。

拖一下,全部搞定!

6414db6787ee40158c18893affc629b9~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=VW9glLmGJM3DYFAn47Znte3c8Tg%3D

怎么样?是不是非常方便。

65bce109ef5848d18ed1b26d5eec4af3~noop.image?_iz=58558&from=article.pc_detail&x-expires=1666505257&x-signature=KKG%2BS3G3DnRkEB3z3zxbkcWzCrQ%3D

看完整个操作,你也发现了,其实就是谷歌写了个脚本给咱封装好了直接用。

而据官方介绍,这个ImportFromWeb功能还能自动更新爬取到的信息。

而且只要是用JS写的网站都可以爬(基本等于绝大数网站了),每个函数还可支持50个url,以及数千个数据点。

快点起来吧~

参考链接:
[1]https://weibo.com/1402400261/M9ZY84thO?filter=hot&root_comment_id=0&type=comment
[2]https://www.getapp.sg/software/2060417/importfromweb
[3]https://workspace.google.com/marketplace/app/importfromweb_web_scraping_in_google_she/278587576794(安装ImportFromWeb)

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK