4

离散化:毁灭信息的有效手段

 3 years ago
source link: https://yihui.org/cn/2009/03/discretize-data-to-lose-information/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

离散化:毁灭信息的有效手段

谢益辉 / 2009-03-05


如果你想掩盖数据,那么就把它们离散化吧!

不知道为什么这么多人钟爱于将连续数据离散化,例如明明有年龄数据,在分析的时候非要分成老幼青壮这样的分类变量;明明有原始的计数数据,非要搞成 “0-5、6-10、……” 这样的频数表。大概是数据得来不花钱吧,这样毁灭信息一点都不心疼。

某年我在某医学统计会议上专门强调了这个愚蠢的问题,结果后面还有某小师妹没理解我的意思,把我批驳了一番,依然支持离散化,我无语,只能摇摇头叹口气。去年 useR! 2008 会议上,Frank Harrell 也提到了这个问题,他也想不通,为什么人们喜欢离散化。

如果你问一位 lady:请问姑娘芳龄多少哇?姑娘回答:臣妾属于 0~100 岁这一组的。我想,此时这些人该能理解离散化的毛病所在了吧。

哇哈哈哈!金融危机与 Copula LyX 和 Sweave

Disqus Utterances Preferences

© Yihui Xie 2005 - 2020

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK