Python学习笔记003-爬虫基础:公开数据获取互联网DIY信息姿势

Python实战 2022-04-02 0 8

前言:先得有数据,才能分析,数据要有一定规模,真实数据,并获取做分析.

<!–more–>

1.kaggle:大数据分析的鼻祖,世界范围内规模最大的数据分析比三,网站访问速度较慢,其次是全英语.
Kaggle提供了一个无需设置、可定制的Jupyter笔记本环境。访问免费的GPU和社区发布的数据和代码的巨大存储库。

官方网站:[`https://www.kaggle.com`][1]
2.天池:国内目前影响力最大的比赛,整体平台配置,数据集丰富度都有保障,是阿里推出的. 官方网站: `https://tianchi.aliyun.com`
3.行业数据:
官方网站:`https://www.gsdata.cn` 清博研究院长期致力于网络生态研究、互联网治理、品牌公关、新媒体发展等多个领域,通过对富有挑战性的问题进行严谨客观的数据分析和研判,进而推动社会发展和进步。
4.房价指数:房价相关数据集
官方网站:`https://fdc.fang.com` 房天下产业网,是专门针对企业客户需求而设计的全方位房地产数据信息平台,致力服务于房地产开发商、顾问咨询及代理机构、房地产投资机构、以及政府部门、国内外房地产研究机构
5.移动观象台: 手机app的排名数据
官方网站:`http://mi.talkingdata.com`

> 现有数据集的利弊:

1.数据集都是脱敏感,只能发西安一切数据背后的隐藏关系,适合测试数据挖掘算法,对初级数据分析作用不大.
2.大部分都是提供网页浏览或者PDF,没有EXECL下载,所以很难在此基础上做分析.

> 从互联网中构建数据集

1.互联网分析数据都是真实用户的扽戏结论自然就具备较高的可信度.
2.来自互联网数据大部分都具有一定规模,非常适合来做实验各种数据分析技巧

> 怎么去构建数据集呢?这里要知道什么是爬虫?
爬虫:一类程序的名字,有人成为网络爬虫,就是下载网页并按照一定的规则提取账网页中的信息,而python则是市面上最适合开发爬虫程序的语言.
>
> 爬虫的主要流程:

数据请求(可以像浏览器一样,根据地址去下载对应的网页内容)
网页分析(根据规则,从网页中筛选出感兴趣的内容)
数据保存(抓去到感兴趣的内容并保存 CSV,EXCEL文件中,未后续分析环节做准备.)

> 爬虫注意事项
1.适当降低抓取网页的频率,避免给服务器造成太大压力
2.抓取数据仅做分析使用,切勿商业化.***

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python学习笔记003-爬虫基础:公开数据获取互联网DIY信息姿势

Python学习笔记003-爬虫基础:公开数据获取互联网DIY信息姿势

Recommend

How does your host get DNS? Where is DNS resolved?

机器学习环境配置：WLS2+Ubuntu+CUDA+cuDNN

Apache Camel: An Integration Framework

被“嫌弃”的外卖的一生

翻车测评“劝退”年轻人

Kenya’s TuShop $3 Million Raise Reveals the Growing Need for Retail and Last-Mil...

The IPCC Says We Already Have The Tech Tools To Stop Climate Change

五个常见的云问题及解决方法

如何在 Linux 中按内存和 CPU 使用率查找运行次数最多的进程

The endpoint manager's guide to what's coming in Windows 11

About Joyk