看轻量化NLP模型实现“四两拨千斤”的AI应用之路 | 科技瞭望塔第四期
2022 10/27

如今,AI正在变得越来越智慧:从能说会看的感知智能,迈向能思考、问答、总结、翻译、创作的认知智能。在这一过程中,预训练成为认知智能的核心技术。

预训练大模型虽然在众多领域都表现出了良好的应用效果,但这些效果所产生的商业价值,却很难与大模型的训练成本、基础设施投入成本画上等号。

2021年,成立不到一年的澜舟科技凭借“孟子”模型,登榜中文语言理解权威评测基准CLUE榜单首位,一时间成为行业焦点。

一个轻量化模型,首战即登顶,四两拨千斤,凭什么?

基于轻量级、高效训练的“孟子”模型,以十亿级别的小模型,比肩甚至超越千亿级别的大模型,在包含文本分类、阅读理解等各类任务上表现出色,可充分发挥出企业已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。

“孟子”背后的澜舟科技,正是由创新工场孵化、联想创投领投的一家认知智能公司。其创始人周明,便是公认的世界级AI科学家,自然语言处理领域的代表性人物。

本期《科技瞭望塔》邀请到澜舟科技创始人兼CEO周明分享“AI自然语言处理技术最新进展”。同时本期节目还邀请到联想研究院自然语言处理组研究专家孟遥、联想创投战略投资总监张骋作为特别嘉宾,与周明总一起讨论自然语言处理技术的发展与落地。以下为周明总演讲实录,enjoy~

【点击视频号了解“AI自然语言处理技术最新进展”】

元宇宙虚拟主持人连星羽博士与澜舟科技创始人兼CEO周明展开对话

01
AI,正由感知智能
向认知智能迈进

人工智能从上世纪五十年代发展到今天,已经风风雨雨70年。经历了第一代的基于专家知识的建立在符号系统架构上的系统,和第二代基于数据的而且建立在神经网络架构上的系统。现在的人工智能在图像识别、语音识别、人脸识别、自然语言处理、知识图谱、搜索和推荐等方面都取得了长足的进步。特别是在自动驾驶、安防安保、自动翻译、医疗诊断、个人助理、AI制药、元宇宙等领域都取得了诸多实际落地。可以说人工智能深深地改变了人类的工作方式和生活方式。

近十年来,人工智能在感知智能方面迅速发展,特别是在2017年深度学习在NLP(自然语言处理)广泛应用之后,谷歌提出了架构Transformer,随之预训练模型BERT被提出。从2019年之后,人工智能阅读理解能力便超过人类水准,NLP能力在各项任务上得到大幅度提升。

我们今天看到的一个明显趋势是AI正由感知智能向认知智能迈进。AI正在从能说会看的感知智能,发展到能思考、问答、总结、翻译、创作,甚至创作音乐、对联、诗歌、散文,写报告等等,具备决策和推理能力的认知智能水平。例如接近人类水准的机器翻译,聊天机器人几乎可以通过图灵测试,搜索引擎得益于阅读理解以及预训练模型,搜索相关度大幅度提升,自动客服系统已经普及,知识图谱在金融等领域得到快速应用,这些都在推动产业的发展。可以说NLP和认知智能代表了人工智能的未来发展。

在认知智能崛起的过程中,我们注意到预训练成为认知智能的核心技术。刚才说到2017年推出的Transformer技术,催生了BERT、GPT、T5等预训练模型。这些模型基于自监督学习(也就是不需要人工做标注),利用大规模的文本,像互联网上浩瀚的数据,学习一个语言的模型。利用语言模型对输入句子的每一个词在当前上下文中的句法、语义和搭配有一定程度的理解。在此基础上,针对每一个NLP任务,用有限的标注数据进行微调。这种迁移学习技术推动了NLP的发展,各项任务都上了一个大的台阶。

更为重要的是,所产生的预训练+微调技术,可以解决不同语言的NLP、不同的NLP任务,有效地提升了开发的效率。原先NLP不同任务要用不同的模型,需要不同的技能,而且语言之间技术也不能通用。现在用一套预训练加微调,可以应对所有语言的所有任务,这标志着NLP进入到工业化可实施的阶段。

02
“孟子”模型
预训练小模型的“大智慧”

首先要做模型训练,就要积累各类数据,包括互联网数据、双语数据、行业数据,通过实体、关系和时间的抽取来建立知识图谱。与此同时,还要建立大规模的预训练模型来支持语言甚至多模态的任务,支持搜索、文本理解、生成、翻译、语音、图像和视频等各方面的应用。

第二,要做到模型的快速适配,针对行业的特点快速准备所需要的语料,鉴于大模型在落地的时候部署代价大,需要考虑模型压缩和轻量化。为了解决NLP开发碎片化问题,建立一套基于预训练和微调机制的技术平台支撑所有语言、所有领域和任务的研发和维护就变得十分重要。

第三,柔性AI智能云服务。需要开发柔性AI智能云技术,用户可以以傻瓜型的方式,拖拉拽,所见即所得地实现自己的功能,并且提供随着用户调用量灵活调度云资源的分配。

第四,希望可以通过开源方式提供普惠服务,并建立一定的品牌。可以通过SaaS提供付费的服务,也可通过深度定制对重要客户提供服务。

在相同的网络架构和训练方法下,模型层次增加、模型参数增加,能力就一定会增强。由于训练一个大模型的代价比较大,譬如说GPT-3训练需要460万美金。加之大模型部署代价也非常大。虽然硬件价格逐年下降,运算能力也不断提升,但是硬件能力的提升赶不上模型规模的增长。因此在实际应用中要考虑部署的成本,模型的轻量化是一定要考虑的。

轻量化有两个途径,一个是大模型经过蒸馏压缩成小模型,一个方向是直接研究轻量化模型。澜舟科技在轻量化模型方面做了不少的努力,也取得了一定成果。

澜舟科技的孟子预训练模型。它支持多种模型架构,像BERT、GPT、T5等。这种轻量化模型,采用了知识图谱、语言学知识来增强,并且充分利用了领域数据、任务数据和多语言的数据来增强。此外也优化了一些微调的效果。

孟子模型以十亿级的规模,荣获了中文NLP比赛CLUE榜的第一名,超过了许多大公司的大模型甚至巨模型。它具备如下几个方面的特色:

1.小:00M 至 1B 参数量多级别的模型针对不同的需求。实现了低硬件的需求,而且可以实现低研发成本。

2.精:模型结构上引入更多知识,同样模型size下可以有更好的表现。

3.快:8 张 3090 约 3 天完成一个领域迁移(base 级),可以实现领域的快速适应。8 张 3090 半天完成一个任务适应 。

4.专:可对每个领域每个任务定制预训练模型,由于是专用模型,水平可超过通用的大模型。

基于孟子预训练技术,澜舟开发了新一代的机器翻译技术。在中-英翻译中,做了22个垂直的领域,其中有15个领域现在是第一名,谷歌是7个领域第一名。在中英垂直领域澜舟可以很自豪的说超过了谷歌的水平。

澜舟也开发了以中文为中心的15种主要语言的机器翻译。采用先进的多语言联合学习,多种语言共享同一套神经网络的模型参数,相比每一种语言都去建立一个模型,翻译模型训练代价大幅降低。而且相关语言之间,高资源的语言可帮助低资源语言的学习,有效改进了低资源语言对的翻译性能。采用先进的模型,建立了以中文为中心的15种语言到中文的翻译。这15种语言目前都超过国内最好的公司,还有11种语言超过谷歌,1种语言可以比肩谷歌,总体来讲以中文为中心的翻译系统,在目前在世界上处于领先地位。

通过NLP技术可以构建知识图谱和产业链图谱。首先通过结构化数据像数据库,还有半结构化数据(网页)、非结构化数据(自然语言文档),经过信息抽取技术获得实体和实体之间关系和实体的属性。然后通过知识的融合,把不同的知识图谱合在一起,再经过知识的加工,最后经过人工校验等各种手段建立起行业或者企业的知识图谱。类似地,我们也可以利用自然语言技术,获得一个企业所在行业上下游的企业,形成了一个产业链的知识图谱。也可以建立事理的图谱。所谓事理图谱体现一个事件之间的关系,包括因果关系、时序、共现、共指关系等等。这些都是事件之间的关联关系,有了这些关联关系我们就可以预测某一事件比如事件A出现之后,事件B出现的可能性有多大。从而提出决策上的建议。

有了产业链和事件链,我们就可以进入一定程度的推理阶段,目前澜舟正在建立一个新型的搜索引擎,来体现更好的搜索体验。可以根据用户搜索的关键词,找到新闻,研报,公告等等,来发现其中的事件。然后找出事件主体的产业链,也可以找到相关事件,根据产业链和相关事件通过上下滑动可以看到对上下游的影响,也可以了解事件之间的关联。

利用预训练模型,在提升创作方面也有很大的潜力。用预训练模型做营销文案产品,根据用户输入关键词,生成一篇营销文案的文章。

企业可持续发展报告(即 ESG 报告)目前越来越重要,ESG报告格式相对固定,一般会有一个大纲,涉及到对多项内容的整理分析,人工编制较为繁琐,而澜舟开发的ESG报告的生成算法可以根据公司的资料,做适当的信息抽取然后整合,可以自动生成一个ESG报告的初稿,交由人工进行审核,可以大大加快撰写的速度。

利用预训模型来进行小说创作更加激动人心。目前虽然长篇小说创作还做不太好,但是可以帮助作者来进行助写。比如作者写一段系统生成下一段来提示更多的思路。可以写现代文也可以写文言文,同时可以做渲染,比如要描写一个书生,要细致化他的描写,来供作者参考。目前澜舟正跟一家著名的网络文学平台在合作。

03
探索AI的星辰大海
用数据智能驱动各行业转型升级

预训练模型确实取得了不错的进展,非常令人期待,但还是有很多的问题,比如说可解释性问题,预训练给你个结论,但并不能给你一个可信的解释。

如何把两代人工智能的优点巧妙结合起来?人脑实际上有两个系统,“System 1”是利用习惯对事情直接做出判断,不需要很强的解释,“System 2”是在遇到一些新事物的时候要经过理性推理,甚至应用常识来进行解决。“System 1”有点像现在神经网络的方法,“System 2”的思路类似基于规则符号计算的方法,这些恰好这对应了人工智能的两个阶段。

我们如果有一种方式把“System 1”的优点跟”System 2”的优点结合起来,恰好可以解释新一代人工智能的一些主要问题,比如说可解释问题,小样本学习问题,常识问题,推理问题等等。如何进一步实施它们?这里提出了一个Foundation Model和微调的机制,Foundation Model中文叫做“基础模型”,就是对人类的每一个思考的细节建立一个模型,它的背后可以是基于数据驱动的,比如说是某个神经网络的模块,也可以是基于规则的,这样可以把常识融入进去。那在解决一个大的问题的时候,把这些小的模块拼接在一起,然后仅用小的样本就可以快速的来学习来进行微调,当然这里有很多未解决的问题,比如说模块之间的信息传递以及可微的问题,这些都是未来需要深入探讨的问题。

最后想说一下NLP带来人工智能发展的新10年。 

第一、预训练模型带来了NLP和认知智能的崛起,用大模型预训练模型+微调新范式提高各种NLP能力,大大促进产业智能化。人工智能进入了认知智能新时代。

第二、研究柔性AI解决最后一公里需求,通过开源、SaaS、定制、垂直APP等深入用户场景,来提升业务效率。

第三、各大公司包括国内外的大公司都在研究大规模的预训练模型,从语言到多模态,从大模型、巨模型到轻量化,日新月异。未来,期待AI具备小样本学习、可解释机制和常识推理等能力。

第四、澜舟提出融合神经网络和符号系统并且提出基础能力+微调的设想,目前正在推进相关的试验。

澜舟志在 AI 的星辰大海,努力成为世界 NLP 产品的领导者,用数据智能驱动各类业务的升级。

© 2016-2022 Lenovo Capital & Incubator Group All rights reserved. 京ICP备11035381 | 京公网安备110108007970号