3

每月分享 202005 Newsletter

 3 years ago
source link: https://xiang578.com/post/monthly-issue-202005.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

每月分享 202005 Newsletter

发表于

2020-06-07 更新于 2021-04-12 分类于 Never-Reading

阅读次数: 198
本文字数: 2.9k

Newsletter

从去年开始给我一种 RSS 复兴的感觉,这个月尝试使用 Newsletter。对于创作者来说,RSS 不仅无法统计数据,也很难开展会员模式。Newsletter 通过邮箱订阅的的手段,完美解决这两个问题,国外开始有一站式的解决方案,可能几个月之后也会在国内火起来。推荐自己订阅的一些邮件组给大家。

  • How to take smart notes,方法及工具 - 少数派:Zettelkasten 这种做笔记方法慢慢开始要在国内流行起来,自己已经关注差不多超过半年的时间,接下来也在计划写一篇相关的博客文章。
  • Human Programming Interface 简单看来一下,利用 py 包和 Emacs 管理所有相关的个人数据,挺疯狂的。
  • 上古论坛差不多十年前的帖子, 我的千书阅读计划 - 意欲蔓延 - Hi!PDA Hi!PDA fatdragoncat 通过阅读成为一名自由职业者。帖子中介绍大量篇幅介绍如何高效阅读、锻炼、自我管理等等。在印象笔记中找到几年前自己写的笔记,现在重新整理一下相关的内容,并分享给大家。
  • AndyMatuschak - Making sense of Design Unbound vs. prior theories of collaborative design work - Twitch [[Evergreen notes]]的创始人公开展示写作的过程。通过这个视频可以发现他使用的笔记软件是 [[Bear]],看起来 Reference 和 Backlink 都是手动输入的,不过这样也符合 [[Zettelkasten]] 的原则。只是 [[Roam Research]] 这样的软件让我们变懒。
  • 莫言获得诺贝尔文学奖发表的演讲中有一个故事:到了荒滩上,我把牛羊放开,让它们自己吃草。蓝天如海,草地一望无际,周围看不到一个人影,没有人的声音,只有鸟儿在天上鸣叫。我感到很孤独,很寂寞,心里空空荡荡。有时候,我躺在草地上,望着天上懒洋洋地飘动着的白云,脑海里便浮现出许多莫名其妙的幻象。我们那地方流传着许多狐狸变成美女的故事,我幻想着能有一个狐狸变成美女与我来作伴放牛,但她始终没有出现。但有一次,一只火红色的狐狸从我面前的草丛中跳出来时,我被吓得一屁股蹲在地上。狐狸跑没了踪影,我还在那里颤抖。有时候我会蹲在牛的身旁,看着湛蓝的牛眼和牛眼中的我的倒影。有时候我会模仿着鸟儿的叫声试图与天上的鸟儿对话,有时候我会对一棵树诉说心声。但鸟儿不理我,树也不理我。许多年后,当我成为一个小说家,当年的许多幻想,都被我写进了小说。很多人夸我想象力丰富,有一些文学爱好者,希望我能告诉他们培养想象力的秘诀,对此,我只能报以苦笑。
  • 谈谈推荐系统中的用户行为序列建模 - 知乎 一篇关于用户行为序列建模的文章,基本上常用的方法都介绍了。
    • 和上一次 "从谷歌到阿里,谈谈工业界推荐系统多目标预估的两种范式 - 知乎[[机器学习实践]][[MTL]]" 属于同一个作者
    • 目前主流推荐系统框架 [[Deep Neural Networks for YouTube Recommendations]] 中的 Matching 和 Ranking。另外可能还有规则模块。
    • pooling-based architecture 范式,用户行为是无序集合,使用 sum/max pooling 或各种 attention
      • [[Deep Neural Networks for YouTube Recommendations]] 中将用户观看过的视频序列取到 embedding 后,做一个 mean pooling 作为用户历史兴趣的表达
      • Ranking 阶段:[[DIN]] target item 和行为序列的 item 做一个 attention,得到一个 weight,然后加权求和。
      • 结合 [[Transformer]] 做 self-attention 并行的建模长序列依赖,除去用户行为序列中的噪声:[[Behavior Sequence Transformer for E-commerce Recommendation in Alibaba]]
    • sequential-modeling architecture 范式,用户行为当成一个具有时间属性的序列,使用 RNN、LSTM、GRU 等
    • 上面两种方法都是将用户行为经过 pooling/attention/rnn 的处理,聚合成用户行为序列的 embedding,再和其他的特征 concat 在一起,经过 mlp 后接 sigmod/softmax
    • 抽取聚类出用户多峰兴趣,Capsule
      • 阿里 [[MIND]] 胶囊网络
    • 辅助损失函数
      • [[DIEN]] 兴趣提取和兴趣演化,以最后一个 hidden state 做为用户兴趣的表达。兴趣提取模块,使用隐状态和下一件商品预测做二分类。不加入辅助loss,GRU 的隐变量完全受限于最终点击的 label,加入后能约束 GRU 每个隐状态表示其本身的兴趣。
    • 提升用户序列长度,可以带来可观的 auc 提升。[[MIMN]]
  • Applying Deep Learning To Airbnb Search:一篇关于从 GBDT 模型迁移到深度模型的工业实践记录 paper。对于我这种没有经历过这种技术迭代的人来说,工业级的深度模型上线比想象中的要困难。作者们针对自己遇到的比如 listing embedding 训练不充分、如何判断 feature 的重要性等问题设计实验去验证以及给出解释。严谨的精神值得吾辈学习。

出于对 Roam Research 开发者的不放心,已将全部文档迁移到 Obsidian。目前还在探索新的工作流,5 月分享不可避免产生拖延。另外还在寻找一种建立 Digital Garden 的方法。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK