新类识别/领域自适应-聚类

AINLP 2022-01-25 14:10

The following article is from 算法让生活更美好 Author BPSk

这块应用在实际业务中非常常见，比如新意图识别等等，不管具体任务场景是什么，本质上就是在做一个事：给没有任何先验标签的样本分类。

说人话 640?wx_fmt=png ：假设现在有一堆样本，需要把他们聚类。

一般来说就是通过聚类来完成，使用的feature多种多样，比如现在大火的预训练模型，关于这块的研究其实也有不少，也有很多trick，但是网上很少有这块的总结，这里就列举一些该领域的一些近期paper，供提供思路。

同时这里也会把领域自适应加进来一起看。是因为这两块在实际业务中混合使用或者借鉴的重合度较高。

CDAC+

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/6353

代码链接:

https://github.com/thuiar/CDAC-plus

https://mp.weixin.qq.com/s/wHKWvP_qzyOyXPHXCHEmBQ

这里没有使用kmeans聚类，主要创新点就是构建相似矩阵。

DeepAligned

论文链接:

https://arxiv.org/pdf/2012.08987.pdf

代码链接:

https://github.com/thuiar/DeepAligned-Clustering

https://www.sohu.com/a/449312493_629135

该篇文章和上篇出自一个实验室，效果相比于上篇更好，主要创新点就是聚类和伪标签多轮学习。

这里多说一句，根据笔者实践，多轮是可能带来一些收益的，但是预训练更关键，即第一阶段的预训练非常关键，应该尽可能挖掘一些样本对来预训练模型，这对第一次聚类至关重要，如果第一轮都聚不好，那后面就不会好到哪里！关于怎么挖掘，怎么设计loss, 这里不展开讲了，感兴趣的可以提问，一起探讨。

sccl:

论文链接:

https://arxiv.org/abs/2103.12953

代码链接:

https://github.com/amazon-research/sccl

https://mp.weixin.qq.com/s/tY_ZJyvEAXpEdnd5VlBO7g

主要创新思路就是将近期的对比学习应用到聚类，这里聚类也没有kmeans，而是使用的深度学习，是联合训练的。

论文链接:

https://arxiv.org/abs/2108.08536

https://ncd-uno.github.io

代码链接:

https://github.com/DonkeyShot21/UNO

https://mp.weixin.qq.com/s/sEhXntgjonNJuxMWKQ__mA

这篇虽然是解决图片的，但是做nlp时可以借鉴，主要创新点就是采用了 concat 方法以及多头聚类和过度聚类等等。这里聚类也没有kmeans，而是使用的深度学习的，是联合训练的。

Adaptive-Decision-Boundary

论文链接:

https://arxiv.org/pdf/2012.10209.pdf

代码链接:

https://github.com/thuiar/Adaptive-Decision-Boundary

https://link.csdn.net/?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FN5ITCjpFhmd3xBN7S8hvaw

主要创新点就是：自适应边界的定义

https://arxiv.org/abs/2108.01614

https://github.com/Albert0147/G-SFDA

https://mp.weixin.qq.com/s/lPwCUlcGASZTLoVQT1oC4w

主要就是创新点就是无需源数据就可以领域自适应

当前结合深度模型来进行联合学习越来越有效果，但是该领域一直有一个难题没有被很好的解决，那就是未知类别数的确定，大部分模型都恰恰需要预设一个簇个数，上面大部分都没有提及这一点，即使提及了也没有很好的解决，虽然像kmeans的手肘法等等可以解决一下，但是没有很好的解决，期待这一块可以有很好的突破！！！

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。

342篇原创内容

Official Account

进技术交流群请添加AINLP小助手微信（id: ainlper)
请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

阅读至此了，分享、点赞、在看三选一吧🙏

新类识别/领域自适应-聚类

新类识别/领域自适应-聚类

Recommend

The impact of sharing sessions in an engineering team

流量增加60％，小红书品牌蹭流量4个策略（思路篇）

Server Driven UI - Served from behind the bar

外部Intent调用Tasker

从滴滴下架顺风车说开去

Following Social Media’s Powerful Yet Illusory Ukraine War Feed

2202知识图谱推荐系统，终终终于于于于于于于于于更新了

笔记迁移之路

腾讯云免费升级： 2H4g8M 套餐的可以免费升到 4H4g8m 的套餐

【文末赠书】Python量化交易之用逻辑回归预测茅台股票涨跌

About Joyk