2

COS 数据分析沙龙第八期(上海,@联合创业办公社)

 3 years ago
source link: https://cosx.org/2013/01/shanghair-salon-jan-2013/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

COS 数据分析沙龙第八期(上海,@联合创业办公社)

关键词:COS 沙龙

冬日的阴霾还没有完全散去,而温度却也在悄然的回升。周末的下午,相聚在极富小资情调的沙龙,也不失为一种打磨时光的优雅方式嘛。(感谢联合创业办公社

兴致所至,偶得意的笑~

兴致所至,偶得意的笑~

沙龙例行的,大家会简单的介绍一下自己。出乎组织者意料,陆陆续续的居然来了三十多位朋友,瞬间小小的会议室显得高朋满座,讨论气息愈加浓烈。据我们的不完全统计,参加者来自金融,制药,市场咨询,IT,电商,学术研究等领域,可谓跨界一锅端,热闹的紧。

相互熟悉之后,李舰开始为大家展示新鲜出炉的两个中文文本分析工具:RwordsegRweibo。前者是最新的中文分词工具,不仅仅利用了流行的隐形马尔可夫链中文分析算法,而且加入了对于优秀的搜狗细胞词库的支持、自定义词库等等。据现场探子汇报,李舰透露了他正在开发一套完整的中文分词方案的计划,可能纳入条件随机场这样高富帅的分词方法,以及针对中文编码的全套解决方案。Rweibo 则是可以直接调用新浪微博的 API 接口抓取最新的数据,然后再调用 Rwordseg 进行分词之后,就可以很方便的画出中文的词云之类。当然进一步的,也可以进行更细致的分析,暂时按住不表。

高朋满座,咦怎么有些面熟呢?

高朋满座,咦怎么有些面熟呢?

紧接着自然少不了对中文分词的应用。当然严肃的学术文章有很多,严肃的业界应用也有很多,不过既然是沙龙我们就要找最最好玩的!于是就看到了陈丽云带来的关于金庸小说的文本分析介绍。其实这里的思路很简单,就是把金庸的 “飞雪连天射白鹿, 笑书神侠倚碧鸳” 十四本小说的文本文件下载下来,然后做一下中文分词(其中用到搜狗的金庸和武侠词库),最后把人名和武器留下来就可以了。分完词之后,就可以进一步的定义 “链接”、然后做标准的网络分析了。据说这篇文章是给统计之都预留的,可惜到现在大家都还没有看到… 呃,现场观众近水楼台先得月,拍一张纪念一下再说!(@ghosTM55) 除了武器排名之外,还展示了金庸小说的聚类分析(一枝花有木有?)和人物关系分析,各种漂亮的网络图跃然投影幕布之上… 在场观众纷纷表示,除了各种“毁童年” 之外,强烈要求同义词词典,你难道不知道杨过叫小龙女是 “姑姑” 么?怎么能这样无情的忽略之?

金庸武器受欢迎程度排名

金庸武器受欢迎程度排名

可视化浪潮泛滥,然后周扬萌主就响应大家的号召,展示他最近基于 D3 框架开发的 R 与 HTML5 动态图。呃,怎么这个图看起来这么眼熟?什么?这个图还会动的?错过现场展示的大家不要着急,这里有在线的 demo,快去猛戳吧:http://yzhou.org/demo/html5Vis.html。据萌主本人证实,“corrplot 作为第一个实现的交互图发布,下个是 googleVis MotionChart,让大家都能动起来!”,有没有很期待呢?

R+HTML5,炫到极致 R+HTML5,炫到极致(@吃粉的怪物)

各种展示完毕,大家开始了群情激昂的讨论。从地理信息系统到实时可视化展现,从医疗制药数据到茶叶配方优化,各种惊讶各种欢乐。然后,来自 1 号店的洪建飞直接拿出来刻着 “草稿” 的幻灯片,瞬间大家都惊掉了!太有诚意了有木有?大家在一片欢声笑语中,依依不舍的结束了周日的沙龙。事后群众纷纷表示,要求进一步发展沙龙的深度和广度,联系更多领域,加强学术探讨。组织者在开心的同时,瞬间表示鸭梨山大…

照例,饭局还是必不可少的,提供了很好的 “认亲” 的机会,什么 “直系学长” 啦,老乡啦… 喝点小酒啦,笑谈风月啦…(来认领照片吧)。

酒足饭饱嗯!

酒足饭饱嗯!

目前在 Facebook 从事数据分析。亦常以” 落园园主 “自居。陈丽云

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 正态分布的前世今生 (上) LDA-math-MCMC 和 Gibbs Sampling →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK