7

新类识别/领域自适应-聚类

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ%3D%3D&%3Bmid=2650428872&%3Bidx=5&%3Bsn=b9577858e376532a39e0d103a846fad2
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

新类识别/领域自适应-聚类

AINLP 2022-01-25 14:10

The following article is from 算法让生活更美好 Author BPSk

640?wx_fmt=jpeg

       这块应用在实际业务中非常常见,比如新意图识别等等,不管具体任务场景是什么,本质上就是在做一个事:给没有任何先验标签的样本分类。

说人话640?wx_fmt=png:假设现在有一堆样本,需要把他们聚类。

       一般来说就是通过聚类来完成,使用的feature多种多样,比如现在大火的预训练模型,关于这块的研究其实也有不少,也有很多trick,但是网上很少有这块的总结,这里就列举一些该领域的一些近期paper,供提供思路。

同时这里也会把领域自适应加进来一起看。是因为这两块在实际业务中混合使用或者借鉴的重合度较高。

CDAC+

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/6353

代码链接: 

https://github.com/thuiar/CDAC-plus

https://mp.weixin.qq.com/s/wHKWvP_qzyOyXPHXCHEmBQ

这里没有使用kmeans聚类,主要创新点就是构建相似矩阵。

DeepAligned

论文链接:

https://arxiv.org/pdf/2012.08987.pdf

代码链接: 

https://github.com/thuiar/DeepAligned-Clustering

https://www.sohu.com/a/449312493_629135

该篇文章和上篇出自一个实验室,效果相比于上篇更好,主要创新点就是聚类和伪标签多轮学习。

这里多说一句,根据笔者实践,多轮是可能带来一些收益的,但是预训练更关键,即第一阶段的预训练非常关键,应该尽可能挖掘一些样本对来预训练模型,这对第一次聚类至关重要,如果第一轮都聚不好,那后面就不会好到哪里!关于怎么挖掘,怎么设计loss, 这里不展开讲了,感兴趣的可以提问,一起探讨。

sccl:

论文链接:

https://arxiv.org/abs/2103.12953

代码链接: 

https://github.com/amazon-research/sccl

https://mp.weixin.qq.com/s/tY_ZJyvEAXpEdnd5VlBO7g

主要创新思路就是将近期的对比学习应用到聚类,这里聚类也没有kmeans,而是使用的深度学习,是联合训练的。

论文链接:

https://arxiv.org/abs/2108.08536

https://ncd-uno.github.io

代码链接: 

https://github.com/DonkeyShot21/UNO

https://mp.weixin.qq.com/s/sEhXntgjonNJuxMWKQ__mA

这篇虽然是解决图片的,但是做nlp时可以借鉴,主要创新点就是采用了 concat 方法以及多头聚类和过度聚类等等。这里聚类也没有kmeans,而是使用的深度学习的,是联合训练的。

Adaptive-Decision-Boundary

论文链接: 

https://arxiv.org/pdf/2012.10209.pdf

代码链接:

https://github.com/thuiar/Adaptive-Decision-Boundary

https://link.csdn.net/?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FN5ITCjpFhmd3xBN7S8hvaw

主要创新点就是:自适应边界的定义

https://arxiv.org/abs/2108.01614

https://github.com/Albert0147/G-SFDA

https://mp.weixin.qq.com/s/lPwCUlcGASZTLoVQT1oC4w

主要就是创新点就是无需源数据就可以领域自适应

当前结合深度模型来进行联合学习越来越有效果,但是该领域一直有一个难题没有被很好的解决,那就是未知类别数的确定,大部分模型都恰恰需要预设一个簇个数,上面大部分都没有提及这一点,即使提及了也没有很好的解决,虽然像kmeans的手肘法等等可以解决一下,但是没有很好的解决,期待这一块可以有很好的突破!!!

0?wx_fmt=png
AINLP
一个有趣有AI的自然语言处理公众号:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
342篇原创内容
Official Account
进技术交流群请添加AINLP小助手微信(id: ainlper)
请备注具体方向+所用到的相关技术点
640?wx_fmt=jpeg

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

640?wx_fmt=jpeg

阅读至此了,分享、点赞、在看三选一吧🙏


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK