2

AI最近到底有哪些进展?

 1 year ago
source link: https://grapeot.me/recent-AI-advancement.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI最近到底有哪些进展?

Mon 17 April 2023 , by grapeot | Comments AI Machine Learning GPT

近期,在AI领域发生了许多变革,让业内人士和普通人都感到不安。我们每天都会看到各种关于AI的知识和新闻,虽然标题常常让人心惊肉跳,但我们却无法完全理解它们对我们的影响。因此,我对这个问题进行了一些思考和总结。我认为,在自然语言处理(NLP)和计算机视觉(CV)领域,最近的变化有着许多相似之处,主要表现在以下三个方面:

  1. 通用基础模型的诞生:像GPT和ChatGPT这样的基础模型改变了建模方法。在这之前,NLP领域有许多任务,如判断评论正负面,或从句子中找出地名。每个任务都需要不同的数据集和模型架构。然而,通用基础模型的出现打破了这种局面,它们不再针对某个任务而设计,而是可以在无需调整的情况下完成所有任务。
  2. 生成式模型的突破:GPT的出现让机器能生成流畅、富有逻辑的文本,使得区分机器生成的内容和人类说的话变得困难。这意味着我们不再受限于特定类别的输出,如大众点评是正面还是负面,也不仅限于简短回答,而是可以让机器自由输出大段文本,不影响用户体验。这为我们设计用户界面提供了更大的灵活性。
  3. 会话式UI大幅降低应用门槛:ChatGPT表明,通过聊天或会话来利用NLP基础模型是一种非常好的方式。过去,利用机器学习模型需要高级专业知识和编程能力。而现在,有了会话式UI,即使是小学生,只要能说话,就可以利用这些模型的能力。这得益于两个方面的进步:一是输入方面,模型能更准确地理解用户意图;二是输出方面,机器可以自然地输出长篇有逻辑的话。这让我们可以用自然的方式与模型交流。

计算机视觉领域的趋势也非常相似:

  1. 近期流行的模型,如ClipSeg、GroundingDino和SegmentAnything,可以被视为半通用基础模型,因为它们输出通用的像素级信息,可应用于物体识别、检测和分割等任务。
  2. 这些模型与NLP基础模型类似,可以接受用户自定义的文本作为输入。也就是说,在这些模型出现之前,我们需要预先确定感兴趣的对象(如松鼠)并收集相应数据。如果在训练完成后,我们想检测其他对象(如兔子),那么在不改动模型的情况下无法实现。但这些新模型在接收图像输入的同时,还可以接受任意文本作为输入。因此,在不改动模型的情况下,我们可以让模型检测松鼠或兔子,只需修改输入文本即可。这是一个巨大的变化,与NLP领域的会话式UI有类似之处。
  3. 第三个变化是生成式模型。与NLP一样,我们终于可以让一个模型生成非常逼真的图像。这对于UI来说非常重要。例如,我们一直希望有一种技术,通过核磁共振等方法扫描人脑,就能反推出他看到或梦到的场景。在过去十年中,这项技术的大部分进展并非来自神经科学,而是因为我们生成的图像越来越逼真,这极大地提升了输出的观感。

综上所述,我们可以看到,近期NLP和CV领域的突破和发展是高度相近的。两者都在从针对特定任务的专用模型转向解决所有任务的通用模型。同时,它们都取得了让生成内容更接近人类的突破。这些进展使得我们能够设计出更低门槛的应用模型方法。

Comments


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK