Lenovo Capital

看轻量化NLP模型实现“四两拨千斤”的AI应用之路 | 科技瞭望塔第四期

2022 10/27

如今，AI正在变得越来越智慧：从能说会看的感知智能，迈向能思考、问答、总结、翻译、创作的认知智能。在这一过程中，预训练成为认知智能的核心技术。

预训练大模型虽然在众多领域都表现出了良好的应用效果，但这些效果所产生的商业价值，却很难与大模型的训练成本、基础设施投入成本画上等号。

2021年，成立不到一年的澜舟科技凭借“孟子”模型，登榜中文语言理解权威评测基准CLUE榜单首位，一时间成为行业焦点。

一个轻量化模型，首战即登顶，四两拨千斤，凭什么？

基于轻量级、高效训练的“孟子”模型，以十亿级别的小模型，比肩甚至超越千亿级别的大模型，在包含文本分类、阅读理解等各类任务上表现出色，可充分发挥出企业已有参数下的模型潜力，有利于快速、低成本地落地现实业务场景。

“孟子”背后的澜舟科技，正是由创新工场孵化、联想创投领投的一家认知智能公司。其创始人周明，便是公认的世界级AI科学家，自然语言处理领域的代表性人物。

本期《科技瞭望塔》邀请到澜舟科技创始人兼CEO周明分享“AI自然语言处理技术最新进展”。同时本期节目还邀请到联想研究院自然语言处理组研究专家孟遥、联想创投战略投资总监张骋作为特别嘉宾，与周明总一起讨论自然语言处理技术的发展与落地。以下为周明总演讲实录，enjoy~

【点击视频号了解“AI自然语言处理技术最新进展”】

元宇宙虚拟主持人连星羽博士与澜舟科技创始人兼CEO周明展开对话

01
AI，正由感知智能
向认知智能迈进

人工智能从上世纪五十年代发展到今天，已经风风雨雨70年。经历了第一代的基于专家知识的建立在符号系统架构上的系统，和第二代基于数据的而且建立在神经网络架构上的系统。现在的人工智能在图像识别、语音识别、人脸识别、自然语言处理、知识图谱、搜索和推荐等方面都取得了长足的进步。特别是在自动驾驶、安防安保、自动翻译、医疗诊断、个人助理、AI制药、元宇宙等领域都取得了诸多实际落地。可以说人工智能深深地改变了人类的工作方式和生活方式。

近十年来，人工智能在感知智能方面迅速发展，特别是在2017年深度学习在NLP（自然语言处理）广泛应用之后，谷歌提出了架构Transformer，随之预训练模型BERT被提出。从2019年之后，人工智能阅读理解能力便超过人类水准，NLP能力在各项任务上得到大幅度提升。

我们今天看到的一个明显趋势是AI正由感知智能向认知智能迈进。AI正在从能说会看的感知智能，发展到能思考、问答、总结、翻译、创作，甚至创作音乐、对联、诗歌、散文，写报告等等，具备决策和推理能力的认知智能水平。例如接近人类水准的机器翻译，聊天机器人几乎可以通过图灵测试，搜索引擎得益于阅读理解以及预训练模型，搜索相关度大幅度提升，自动客服系统已经普及，知识图谱在金融等领域得到快速应用，这些都在推动产业的发展。可以说NLP和认知智能代表了人工智能的未来发展。

在认知智能崛起的过程中，我们注意到预训练成为认知智能的核心技术。刚才说到2017年推出的Transformer技术，催生了BERT、GPT、T5等预训练模型。这些模型基于自监督学习（也就是不需要人工做标注），利用大规模的文本，像互联网上浩瀚的数据，学习一个语言的模型。利用语言模型对输入句子的每一个词在当前上下文中的句法、语义和搭配有一定程度的理解。在此基础上，针对每一个NLP任务，用有限的标注数据进行微调。这种迁移学习技术推动了NLP的发展，各项任务都上了一个大的台阶。

更为重要的是，所产生的预训练+微调技术，可以解决不同语言的NLP、不同的NLP任务，有效地提升了开发的效率。原先NLP不同任务要用不同的模型，需要不同的技能，而且语言之间技术也不能通用。现在用一套预训练加微调，可以应对所有语言的所有任务，这标志着NLP进入到工业化可实施的阶段。

02
“孟子”模型
预训练小模型的“大智慧”

首先要做模型训练，就要积累各类数据，包括互联网数据、双语数据、行业数据，通过实体、关系和时间的抽取来建立知识图谱。与此同时，还要建立大规模的预训练模型来支持语言甚至多模态的任务，支持搜索、文本理解、生成、翻译、语音、图像和视频等各方面的应用。

第二，要做到模型的快速适配，针对行业的特点快速准备所需要的语料，鉴于大模型在落地的时候部署代价大，需要考虑模型压缩和轻量化。为了解决NLP开发碎片化问题，建立一套基于预训练和微调机制的技术平台支撑所有语言、所有领域和任务的研发和维护就变得十分重要。

第三，柔性AI智能云服务。需要开发柔性AI智能云技术，用户可以以傻瓜型的方式，拖拉拽，所见即所得地实现自己的功能,并且提供随着用户调用量灵活调度云资源的分配。

第四，希望可以通过开源方式提供普惠服务，并建立一定的品牌。可以通过SaaS提供付费的服务，也可通过深度定制对重要客户提供服务。

在相同的网络架构和训练方法下，模型层次增加、模型参数增加，能力就一定会增强。由于训练一个大模型的代价比较大，譬如说GPT-3训练需要460万美金。加之大模型部署代价也非常大。虽然硬件价格逐年下降，运算能力也不断提升，但是硬件能力的提升赶不上模型规模的增长。因此在实际应用中要考虑部署的成本，模型的轻量化是一定要考虑的。

轻量化有两个途径，一个是大模型经过蒸馏压缩成小模型，一个方向是直接研究轻量化模型。澜舟科技在轻量化模型方面做了不少的努力，也取得了一定成果。

澜舟科技的孟子预训练模型。它支持多种模型架构，像BERT、GPT、T5等。这种轻量化模型，采用了知识图谱、语言学知识来增强，并且充分利用了领域数据、任务数据和多语言的数据来增强。此外也优化了一些微调的效果。

孟子模型以十亿级的规模，荣获了中文NLP比赛CLUE榜的第一名，超过了许多大公司的大模型甚至巨模型。它具备如下几个方面的特色：

1.小：00M 至 1B 参数量多级别的模型针对不同的需求。实现了低硬件的需求，而且可以实现低研发成本。

2.精：模型结构上引入更多知识，同样模型size下可以有更好的表现。

3.快：8 张 3090 约 3 天完成一个领域迁移（base 级），可以实现领域的快速适应。8 张 3090 半天完成一个任务适应。

4.专：可对每个领域每个任务定制预训练模型，由于是专用模型，水平可超过通用的大模型。

基于孟子预训练技术，澜舟开发了新一代的机器翻译技术。在中-英翻译中，做了22个垂直的领域，其中有15个领域现在是第一名，谷歌是7个领域第一名。在中英垂直领域澜舟可以很自豪的说超过了谷歌的水平。

澜舟也开发了以中文为中心的15种主要语言的机器翻译。采用先进的多语言联合学习，多种语言共享同一套神经网络的模型参数，相比每一种语言都去建立一个模型，翻译模型训练代价大幅降低。而且相关语言之间，高资源的语言可帮助低资源语言的学习，有效改进了低资源语言对的翻译性能。采用先进的模型，建立了以中文为中心的15种语言到中文的翻译。这15种语言目前都超过国内最好的公司，还有11种语言超过谷歌，1种语言可以比肩谷歌，总体来讲以中文为中心的翻译系统，在目前在世界上处于领先地位。

通过NLP技术可以构建知识图谱和产业链图谱。首先通过结构化数据像数据库，还有半结构化数据（网页）、非结构化数据（自然语言文档），经过信息抽取技术获得实体和实体之间关系和实体的属性。然后通过知识的融合，把不同的知识图谱合在一起，再经过知识的加工，最后经过人工校验等各种手段建立起行业或者企业的知识图谱。类似地，我们也可以利用自然语言技术，获得一个企业所在行业上下游的企业，形成了一个产业链的知识图谱。也可以建立事理的图谱。所谓事理图谱体现一个事件之间的关系，包括因果关系、时序、共现、共指关系等等。这些都是事件之间的关联关系，有了这些关联关系我们就可以预测某一事件比如事件A出现之后，事件B出现的可能性有多大。从而提出决策上的建议。

有了产业链和事件链，我们就可以进入一定程度的推理阶段，目前澜舟正在建立一个新型的搜索引擎，来体现更好的搜索体验。可以根据用户搜索的关键词，找到新闻，研报，公告等等，来发现其中的事件。然后找出事件主体的产业链，也可以找到相关事件，根据产业链和相关事件通过上下滑动可以看到对上下游的影响，也可以了解事件之间的关联。

利用预训练模型，在提升创作方面也有很大的潜力。用预训练模型做营销文案产品，根据用户输入关键词，生成一篇营销文案的文章。

企业可持续发展报告（即 ESG 报告)目前越来越重要，ESG报告格式相对固定，一般会有一个大纲，涉及到对多项内容的整理分析，人工编制较为繁琐，而澜舟开发的ESG报告的生成算法可以根据公司的资料，做适当的信息抽取然后整合，可以自动生成一个ESG报告的初稿，交由人工进行审核，可以大大加快撰写的速度。

利用预训模型来进行小说创作更加激动人心。目前虽然长篇小说创作还做不太好，但是可以帮助作者来进行助写。比如作者写一段系统生成下一段来提示更多的思路。可以写现代文也可以写文言文，同时可以做渲染，比如要描写一个书生，要细致化他的描写，来供作者参考。目前澜舟正跟一家著名的网络文学平台在合作。

03
探索AI的星辰大海
用数据智能驱动各行业转型升级

预训练模型确实取得了不错的进展，非常令人期待，但还是有很多的问题，比如说可解释性问题，预训练给你个结论，但并不能给你一个可信的解释。

如何把两代人工智能的优点巧妙结合起来？人脑实际上有两个系统，“System 1”是利用习惯对事情直接做出判断，不需要很强的解释，“System 2”是在遇到一些新事物的时候要经过理性推理，甚至应用常识来进行解决。“System 1”有点像现在神经网络的方法，“System 2”的思路类似基于规则符号计算的方法，这些恰好这对应了人工智能的两个阶段。

我们如果有一种方式把“System 1”的优点跟”System 2”的优点结合起来，恰好可以解释新一代人工智能的一些主要问题，比如说可解释问题，小样本学习问题，常识问题，推理问题等等。如何进一步实施它们？这里提出了一个Foundation Model和微调的机制，Foundation Model中文叫做“基础模型”，就是对人类的每一个思考的细节建立一个模型，它的背后可以是基于数据驱动的，比如说是某个神经网络的模块，也可以是基于规则的，这样可以把常识融入进去。那在解决一个大的问题的时候，把这些小的模块拼接在一起，然后仅用小的样本就可以快速的来学习来进行微调，当然这里有很多未解决的问题，比如说模块之间的信息传递以及可微的问题，这些都是未来需要深入探讨的问题。

最后想说一下NLP带来人工智能发展的新10年。

第一、预训练模型带来了NLP和认知智能的崛起，用大模型预训练模型+微调新范式提高各种NLP能力，大大促进产业智能化。人工智能进入了认知智能新时代。

第二、研究柔性AI解决最后一公里需求，通过开源、SaaS、定制、垂直APP等深入用户场景，来提升业务效率。

第三、各大公司包括国内外的大公司都在研究大规模的预训练模型，从语言到多模态，从大模型、巨模型到轻量化，日新月异。未来，期待AI具备小样本学习、可解释机制和常识推理等能力。

第四、澜舟提出融合神经网络和符号系统并且提出基础能力+微调的设想，目前正在推进相关的试验。

澜舟志在 AI 的星辰大海，努力成为世界 NLP 产品的领导者，用数据智能驱动各类业务的升级。