MOSS是什么?其进展如何?

匿名2023-03-01 08:46:46
专稿回答

MOSS是什么其进展如何.jpg


  最近,我国第一个对话式大型语言模型MOSS由复旦大学教授邱锡鹏的研究团队发布至公开平台,一经发布便引起高度关注。MOSS的由来是:Microsoft Office Sharepoint Server,是一款为用户而设计的工具,属于类ChatGPT模型;它可以执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。


  MOSS开发的基本步骤与ChatGPT一样,包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。在对话能力训练阶段,OpenAI收集了至少几十万条人类指令,让各行各业的专业标注员写出指令回复,再将它们输入模型基座,以帮助ChatGPT逐步理解各种指令。复旦团队则采用不同的技术路线,通过让MOSS和人类以及其他对话模型都进行交互,显著提升了学习效率和研发效率,短时间内就高效完成了对话能力训练,以尽快赋能国内的人工智能产业。


  为了探索ChatGPT的技术路线,并获得大语言模型研究的一手经验,复旦团队加快了MOSS开发。如今,MOSS成为国内首个公开亮相的类ChatGPT语言模型,“端到端”走通了大语言模型的开发全程。据悉,这款人工智能助手已进入内测阶段,内测将在用户许可的情况下获取数据,还将收集用户的反馈意见,期待借此大幅增强MOSS的对话能力。MOSS的回答语言流畅、逻辑清晰且观点正确。但研究人员也坦诚指出,当前版本的MOSS表现不够稳定,有些回答存在事实差错或逻辑不顺。


  据团队负责人邱锡鹏日前透露,“MOSS大模型计划在一个月之内,和人类不断交互,进行优化,顺利的话将于3月底开源。”在他看来,开源是人工智能发展如此快速的原因之一;“从早期可能以10年为单位发展,到最近几年可以看到,以大型预训练模型、大型模型推动AI发展,它的突破性模型发展时间大概已经缩短到以年为单位,人工智能已经成为计算机学科里发展最快的领域之一。背后的原因是什么呢?离不开两个字,就是开源。”这背后的逻辑在于,开源让整个科研过程形成良性闭环。


  在对话方面,MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。可见,MOSS的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。研究人员相信,这将有效提升模型的中文对话能力。


  文/张树仁(作者单位:西安交通大学人工智能学院)


本文属原作者授权投稿专栏,须取得本网站的书面授权,未经授权严禁转载或用于其它商业用途
顶部
【稿件授权平台:学识网】