1

大模型下优质中文语料匮乏问题

 1 year ago
source link: https://www.v2ex.com/t/947622
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

V2EX  ›  程序员

大模型下优质中文语料匮乏问题

  libinglong9 · 7 小时 54 分钟前 · 685 次点击

随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

22 条回复    2023-06-11 02:52:25 +08:00
Track13

Track13      7 小时 42 分钟前 via Android   ❤️ 1

这不是钱的问题。
seres

seres      7 小时 41 分钟前

UGC 网站面临最大的问题是合规审查
一但有用户作妖碰到红线,网站就没了。。。
libinglong9

libinglong9      7 小时 39 分钟前

@seres 所以这个网站,从一开始我的想法就是架设在国外
huijiewei

huijiewei      7 小时 39 分钟前

问题是你敢弄就有人给你搞赵弹袭击。。
huijiewei

huijiewei      7 小时 39 分钟前

@libinglong9 然后被墙了,也没啥人气
yyws2012

yyws2012      7 小时 35 分钟前 via Android

如果真的不想盈利甚至回本、并且能持续用爱发电的话,可以不用国内服务器,把各种反 GFW 的思路换上,还是能做的。
但是前面两个条件很难实现。
libinglong9

libinglong9      7 小时 35 分钟前 via iPhone

@huijiewei 其实这种网站,即使在国外,我也不希望他谈政治,谈政治对这种网站没什么意义
malusama

malusama      7 小时 28 分钟前

别的不过..现在国内的模型都还在对标 chatgpt.
chatgpt 也是用 Common Crawl
WebText2
Books
Wikipedia
这些语料训练出来的啊, 这些也都是公开的. 有什么缺乏的问题.
等到啥时候目标是赶超才需要提优质语料吧?
libinglong9

libinglong9      7 小时 19 分钟前 via iPhone

@malusama 优质语料是一个更需要日积月累的东西,硬件和软件差距肯定会越来越小,或者即使有很大差距,但是够用就好了
wdlth

wdlth      7 小时 19 分钟前

我觉得如果只有所谓的高质量语料可能效果更难以满足,本身每个人的表达方式就不一样,有的人可能会突出重点,有的人会发散一下思维,做个比喻什么的,如果只以所谓的高质量语料去训练,那又如何去满足质量低的输入呢?
像 Common Crawl 数据集就是低质量,但可以从中提取到各种各样表达方式。
Trello

Trello      7 小时 18 分钟前

国内思否还行,就是没什么人气。
haha512

haha512      7 小时 18 分钟前   ❤️ 2

并非是谈不谈政治的问题,国内太多敏感点,挂满全身,还没有违规标准。
比如那 8 个字不能随便说,一不小心就辱军了、某种炒饭在某些场合下也涉及侮辱烈士、提到 HK/TW 时,少说个中国可能就被指辱华、一不小心夸奖个美日就是崇洋媚外 50 万... 太多太多了。
Ericcccccccc

Ericcccccccc      7 小时 15 分钟前

样本投毒这种事最早百度给 google 做过了.
libinglong9

libinglong9      7 小时 11 分钟前 via iPhone

@wdlth 你说的有道理,只是低质量的语料太容易获取了。
huijiewei

huijiewei      7 小时 0 分钟前

@libinglong9 国外谈政治你可以删帖(反正慢慢删除就好了),国内你删慢点自己就没了
JinBin

JinBin      6 小时 48 分钟前   ❤️ 2

政治在现代文明国家就是吃饭呼吸一样寻常的事,不谈才奇怪。主动阉割是掩耳盗铃,治标不治本。只有简中言论自由,没有变态的 censorship 了,才有可能谈高质量的内容。
greatbody

greatbody      6 小时 43 分钟前   ❤️ 1

StackOverflow 上面大量的英文内容不是英文为母语的国家的人贡献的。例如我就贡献过很多的被采纳的优质回答。为什么用英语贡献?很简单,在编程的世界中,很多术语是英语的,而且使用英语能让更多的人看懂。

语料匮乏中国人也不必纠结。大语言模型核心的是训练出来的网络权重,而我理解这个就类似人学习到的经验,是非语言的。当你使用中文提问的时候,英文的知识也会被用上,只不过在输出的时候多了一个翻译的步骤。

最后,不论中文,英文都是人类的共同财富。不应该因为中文的语料少而自卑。
ltltfuture

ltltfuture      6 小时 27 分钟前

说实话,不如学好英语
hsir

hsir      6 小时 19 分钟前   ❤️ 1

其实不是语言语料的问题,因为大模型不是用语言思考的,翻译只是人类传递信息所需要的,就像 E=mc^2 这个公式一样,AI 理解的是公式本身,而和表达或者输入的语言无关。

美国是互联网的发源地和创新地,拥有最大最全的互联网基础设施,所以 AI 自然是最发达的;国内的 AI 主要问题其实就类似一众手机国产厂商定制系统和 Android 系统的关系一样,美国人制定了标准,中国只能 follow ,吃别人的,用别人的,从别人那里来,有问题等别人先解决,别人解决了自己直接拿来用,至于自己的创新、甚至造轮子的想法,则是不会有,不敢有,不能有。
libinglong9

libinglong9      6 小时 10 分钟前 via iPhone

@JinBin 不谈政治的意思是,网站本身不是要做那种任意的问答,就如同 Stack Overflow 一样,只做 code 相关的问答
realpg

realpg      4 小时 47 分钟前

@libinglong9 #7
大型中文社区,境外的,你没有 50%用户有管理权限可以 ban 人,基本就会变为政治和垃圾 spam 集中营
Lightbright

Lightbright      4 小时 31 分钟前 via Android

你是否在找:v2ex
Sting1226

Sting1226      4 小时 13 分钟前

知乎早期还是邀请注册的时候,回答的质量都很高,干货很多。
后来开放注册以后,越来越的品牌也加入进来,软文越来越多。
不谈 zz ,只单说回复的内容,感受就是这样的。
之前看过一个调查报告,中国网民的学历及年龄,不成熟的人很多。
这中间认知的偏差,就很容易各种撕 B 。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK