0

统计月读(2021 年 11 月)

 2 years ago
source link: https://cosx.org/2021/12/monthly/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

统计月读(2021 年 11 月)

推荐语:数据科学家常常抱怨训练模型只占工作时间的 5%,而 95% 的时间花在处理产品使用 case,捣鼓数据和部署工作。本书的目标是分享方法和建议去更好地处理这 95% 的内容。这本书覆盖机器学习的全过程,从产生想法到上线部署监控,它特别关注模型训练之外的部分。推荐语摘自《Building Machine Learning Powered Applications: Going from Idea to Product》,值得一看。

推荐人:黄湘云

链接:https://mlpowered.com/book/


推荐语:利用 R 语言实现限价单的操作,可以基于 Binance 测试网进行模拟交易,很有意思。

推荐人:王祎帆

链接:https://datawookie.dev/blog/2021/11/binance-spot-trading-limit-orders/


推荐语:Roger D. Peng 等人新出了书籍 Tidyverse Skills for Data Science 基于 Tidyverse 工具箱介绍数据导入、数据变换、数据展示和数据建模等做数据科学的全栈技能,是一部宏篇巨作。

推荐人:黄湘云

链接:https://leanpub.com/tidyverseskillsdatascience/


推荐语:Apple M1 处理器有多快?Harshvardhan 写了一个小的 R 脚本,执行矩阵的奇异值分解,记录各种处理器进行计算所花费的时间。其中,在 MacBook Air (2020) 上测试,这台机器有 1 TB 的 SSD 存储空间、16 GB 的 RAM 和 Apple M1 处理器,运行整个代码块需要 5.6 分钟;在 Microsoft Surface Pro(第 5 代)上进行测试,这台机器有 512 GB 的 SSD 存储、16 GB 的 RAM 和 1.9 GHz Intel Core i7,运行整个代码块需要 12.4 分钟。

推荐人:任怡萌

链接:https://www.harsh17.in/how-fast-is-m1/


推荐语:很多时候我们想要的不是 “随机” 而是 “均匀”。比如,从球面上的均匀分布中随机采样,如果使用一般的随机数方法,得到的点往往是” 不均匀 “的。解决这个问题只需要用到 R 包 randtoolbox 中的 sobol 函数,可以生成非常漂亮的均匀” 随机“数。值得一提的是,sobol sequence 的生成原理在高维空间里并没有想象那么简单,其最开始也是最广泛的应用是计算图形学领域,而 R 中的 sobol 函数也是从 matlab 移植过来的。

推荐人:梁杰昊

链接:https://mirrors.sjtug.sjtu.edu.cn/cran/web/packages/randtoolbox/index.html


彭博社发表的疫情抗击排名显示,菲律宾是抗疫失败者,但菲律宾的抗疫专家却认为这是不公平的。事实上,这一排名试图将一个国家在 “社会和经济动荡最少” 的情况下应对疫情的能力提炼为一个数字,导致多数西方国家排名非常高。表面上看是客观的,实际上在数据选择、因素选择、权重选择上都存在偏差。根据线性回归重建这一模型,删除某些变量后,也许可以改变菲律宾排在最后的地位。

推荐人:操懿

链接:https://cartesianfaith.com/2021/11/08/lies-damned-lies-and-rankings-the-problem-with-bloombergs-covid-resilience-ranking/


推荐语:很喜欢用树模型,但很不会画,以前网上查到的博客大多画出来不好看,节点一多就是黑压压的一片。发现一本书专讲树模型的可视化,详细介绍了 ggtree, tidytree, treeio 等包和很多其他相关操作,妈妈再也不用担心我不会画树啦!

推荐人:任焱

链接:https://yulab-smu.top/treedata-book/index.html


推荐语:纵观许先生一生,结合历史发展和时代背景,可以说是云谲波诡、世事难料,不免感慨人之渺小。历史的车轮无论是向前滚还是向后退,个人都是渺小的,无论你多有才华,此处不做过多评论。无论是看个人简介、看书、看文章、看访谈都能看到一些自己没有经历过的、甚至也经历不了的故事和人生,从中体会到些许感悟和触动。

推荐人:黄湘云

链接:https://www.math.pku.edu.cn/misc/probstat/doc.pdf


推荐语:如何合理、恰当、规范地引用 R 和 R 包,应当是 R 的使用者应当知道的事情,本文介绍了引用 R 和 R 包的重要性,以及引用时候遵循和一些原则和具体操作。

推荐人:赵昊蛟

链接:https://ropensci.org/blog/2021/11/16/how-to-cite-r-and-r-packages/


推荐语:推荐 MIT 课程《数据科学中的数学》,对数据科学感兴趣、尤其是对科研感兴趣的同学可以参考。

推荐人:向悦

链接:https://ocw.mit.edu/courses/mathematics/18-s096-topics-in-mathematics-of-data-science-fall-2015/lecture-notes/


推荐语:这是一份个人翻译的 ESL 笔记,并且包含部分习题的解答,目前在 Github 有 1.8k 的 star。主要的更新时间是在 2018 和 2019 年(英文版采用 2017 年获取的第二版电子版),作者目前应该还在持续维护中。

推荐人:孔令仁

链接:esl.hohoweiya.xyz;https://github.com/szcf-weiya/ESL-CN/


推荐语:奇怪的 R 语言社群增加了,这个网站提供了关于钓鱼方面统计分析的各种 R 包工具和数据集。

推荐人:孔令仁

链接:http://derekogle.com/fishR/

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

实践体会 | 质量大数据分析的挑战与范式 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK