1

统计月读(2019 年 8 月)

 3 years ago
source link: https://cosx.org/2019/08/monthly/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

统计月读(2019 年 8 月)

推荐语:谷歌浏览器已经不让用户关闭点击追踪了,因为禁用点击追踪已经事实上威胁了他们的核心商业利益,也就是广告投放,虽然这变相损害了用户隐私。然而,从统计角度看只要你进行了足够虚假点击,那么浏览器对你的追踪也不会准确。火狐浏览器对此发布了一个 trackthis 项目,你可以选择时尚达人、大 v、富人或杞人的角色进行扮演,然后你会打开一百多个相关页面,来回切换几次广告商就彻底不知道你是什么物种了,原有的用户画像也会乱七八糟。不过如果用的人足够多,那么广告商也存在反向识别的可能。

推荐人:于淼

链接:https://trackthis.link/


推荐语: Tyler Morgan-Wall 开发 rayshader 包可将 ggplot2 对象转化成 rgl 绘图对象,实现真三维可视化,可以任意拖动、缩小和放大图形,可导出适合 3D 打印的文件格式。

推荐人:黄湘云

链接: https://github.com/tylermorganwall/rayshader


推荐语:Manos Papadakis 和 Michail Tsagris 合作发表的论文 Taking R to its limits: 70+ tips 给出 70 多个 R 语言编程的建议, 附带的 Rfast 包收录了大量常用的数据操作和回归分析的函数,目的是将 R 语言的性能发挥到极致。

推荐人:黄湘云

链接:https://peerj.com/preprints/26605.pdf


推荐语: AI 补代码工具,作者收集分析了 Github 上的代码然后训练了模型来进行补全,相当于一大帮开源程序员帮你写代码。目前支持 VS Code、Sublime Text、Atom、Emacs、Vim 五种代码编辑器与包括 python 在内的 23 种语言(没有 R,估计是因为 base R 跟极乐净土的补全风格差异太大模型不收敛)。看了下演示,感觉以后编程靠 Tab 键就足够了。不过另一个问题则是,如果我们过分依赖 AI 编程,那么几乎不可能形成新的代码风格,未来的编程风格可能被 AI 的流行锁定在 21 世纪初期,毕竟赢者通吃。

推荐人:于淼

链接:https://tabnine.com/blog/deep


推荐语: 今年法国 useR 2019 报告的幻灯片与视频集合,视频来自官方油管频道。

推荐人:于淼

链接:https://github.com/sowla/useR2019-materials


推荐语:个人感觉 base R 跟 tidyverse 的一个明显区别是 base R 的代码比较容易函数化而 tidyverse 的代码更适合清晰的流程化数据分析。对于 tidyverse 风格的包特别是 ggplot2 ,如果不满意默认配置想写个函数自定义下风格偷个懒经常因为变量没有引号而各种报错,然而最近 rlang 包的一个更新减弱了这种差异,现在可以用两个花括号在自定义函数里指定变量名,这样在使用函数时直接输入按 tidyverse 风格输入没有引号的变量名就可以了。

推荐人:于淼

链接:https://www.tidyverse.org/articles/2019/06/rlang-0-4-0/


推荐语:Julia 于 2012 年首次发布,其核心部分由 MIT Julia Lab 成员开发。作为一门年轻的编程语言,Julia 以其简单高效的特点正在统计学和 AI 领域飞速发展。特别是在科学计算中,对矩阵操作的速度明显优于 R 和 Python。近期,来自昆士兰大学的两名研究员发布了《Statistics with Julia》一书的草稿版,该书介绍了统计学中基本问题的原理并用 Julia 实现,方便 Julia 爱好者学习使用。

推荐人:边蓓蕾

链接:https://people.smp.uq.edu.au/YoniNazarathy/julia-stats/StatisticsWithJulia.pdf https://github.com/h-Klok/StatsWithJuliaBook


推荐语:LaTeX 的世界从来不缺画图的宏包,比如 Asymptote、PGF/TikZ、PSTricks 等,现在 Github 上有人专门收集了画贝叶斯网络、图模型和技术架构图的代码,有相关需求的应该能省下不少功夫!

推荐人:黄湘云

链接:https://github.com/xinychen/awesome-latex-drawing


推荐语:Tidyverse 或者说 “极乐净土” ,正成为 R 语言用户的新范式,这本电子书可以帮助你系统了解 “极乐净土” 的数据处理逻辑。

推荐人:于淼

链接:https://b-rodrigues.github.io/modern_R/


推荐语:glue 包可用来产生自动化语句模版,例如批量输出一组数据的描述性语句,也就是把数据按格式转成人话。而这个 unglue 包则是通过识别人话中的模版来转成数据框。

推荐人:于淼

链接:https://github.com/moodymudskipper/unglue


请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计 / 数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计 / 数据科学相关。


注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 翻译:常见统计检验的本质都是线性模型(或:如何教统计学) 什么是政府统计 →

发表 / 查看评论


Recommend

  • 6

    统计月读(2020 年 3-4 月) 推荐语:机器学习算法常常带有 “黑箱” 的特性,因此一些学者开始致力于可解释性机器学习的研究。Christoph Molnar 的新书 Interpretable Machine Learning 对此领域有较为全面的介绍...

  • 3

    统计月读(2019 年 10 月) 推荐语:使用网页互动可视化方式介绍统计的基础概念。其中统计推断两章尤为惊艳。中文、英文、西班牙文皆有。 推荐人:黄俊文 链接:

  • 6

    统计月读(2019 年 11-12 月) 推荐语:一本开源的使用 R 的计量经济学书籍《Introduction to Econometrics with R》。涵盖了基础的计量经济学知识(无偏估计、假设检验、因果推断、时间序列等)。书中还给出了详...

  • 6

    统计月读(2020 年 1-2 月) 推荐语: Larry Wasserman 在圣诞节时挂了篇文章 “Universal Inference Using the Split Likelihood Ratio Test”,看到 Universal 我就想起了神经网络的 Universal approximation the...

  • 0

    统计月读(2019 年 3 月) 推荐语:传感技术是数据收集的底层支撑,当开放数据不能满足需求时,使用开源硬件搭建传感平台收集展示数据就成了天然需求。开源硬件平台目前比较流行的是全功能的树莓派 / Rock64 系列...

  • 4

    统计月读(2019 年 2 月) 推荐语: FlowingData 是一个关注数据可视化的博客,这是其 2018 年的总结及文章推荐,这个博客很多可视化直接用的开放数据,同一数据通过不同可视化方式就会表现出不同主题,形式或技...

  • 1

    统计月读(2019 年 4 月) 推荐语:PAC 学习理论是统计机器学习中最最重要的基础理论之一,它解答了机器学习机制、可学习性等一系列问题,衍生出了计算学习理论这一机器学习的子领域。这篇文章对 PAC 理论中的概...

  • 1

    统计月读(2019 年 1 月) 推荐语:用 markdown 同时进行统计分析、画图、制表、写作学术论文并输出符合期刊格式的手稿已经不新鲜了,但更大胆的想法则是跳过...

  • 6

    统计月读(2019 年 5 月) 推荐语:2019 年,第十二届中国 R 会议 (北京) 将于 5 月 24-26 日在中国人民大学举办。2019 年,是中国 R 会议值得纪念的第 12 个年头,12 年象征一个轮回,这一个轮回中,变化的是不...

  • 4

    统计月读(2019 年 6 月) 推荐语:这个仓给出了常见算法的 python 实现,其实对其他语言也做了汇总,不过 python 的这个算是最完整的。R 的话 caret 包的文档可能对机器学习的包总结比较全些,至于排序、寻址、...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK