“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型

4月25日,华为云联合循环智能、鹏城实验室发布了全球最大规模的中文语言预训练模型——盘古NLP大模型。盘古NLP大模型是业界首个千亿参数中文语言预训练模型,由华为云、循环智能和鹏城实验室联合开发,预训练阶段学习了40TB中文文本数据,并通过行业数据的样本调优提升模型在不同场景中的应用性能。

“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型

盘古NLP大模型具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准CLUE榜单中,总成绩及分类、阅读理解单项均排名第一,刷新三项榜单历史纪录;总排行榜得分83.046,多项子任务评分业界领先。

“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型
盘古NLP大模型在CLUE榜单三项第一
“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型
盘古NLP大模型在CLUE分类任务排名第一
“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型
盘古NLP大模型在CLUE阅读理解任务排名

盘古NLP大模型的中文理解和生成能力“现场考”

CLUE是中文社区权威的预训练语言模型评测的Benchmark,三项榜单第一的成绩无疑显示了盘古NLP大模型的超强性能。那么,盘古NLP在具体场景中的中文理解和生成能力如何?华为开发者大会(Cloud)现场,华为云人工智能首席科学家、IEEE Fellow田奇现场问了它几个问题:

Q:Hi盘古,什么样的车没有油也可以跑?

盘古新能源车和自行车没有油都可以跑,当然,还有玩具车。

点评:这个问答体现了盘古的常识推理能力。

Q:Hi盘古,什么是碳中和?碳排放主要来自于哪些行业?

盘古碳中和就是把人为排放的二氧化碳,通过植树造林、节能减排等形式抵消掉,从而使得释放到大气中的总碳量净值为零。

盘古:目前发电和供热行业、制造和建筑业是主要的碳排放行业,请见下图:

“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型

点评:这段对话背后,盘古模型阅读和理解了大量相关文章,通过小样本学习对意图进行识别,转化为知识库和数据库查询,并根据返回的结果生成最终的回答。这种方式与GPT-3等仅基于端到端生成的方式不同,可以更准确地处理复杂场景,结合领域知识,具备更大的商业价值,这种方式未来会进一步完善我们搜索和推荐系统的效果。

Q:Hi盘古,为什么要实现碳中和?目标是什么?有哪些挑战?

盘古过度的碳排放会导致温室效应,它是冰川融化、森林火灾等一系列自然灾害背后的共同元凶。2015年在巴黎举行的气候变化大会上,协议在本世纪后半叶,实现全球碳中和。

盘古:各国家的目标,请见下图:

“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型

盘古:面临的主要挑战有:1. 能源需求还没有达到峰值,人均用电量还在升高。2. 煤炭是电力供给的主要来源,煤炭燃烧产生大量的二氧化碳,转型难度比较大。3. 绿色能源技术仍然不成熟。

点评:针对提问中的三个意图,盘古都能准确地识别出来,并逐一解答,这就是盘古所具备的多重意图识别的能力,这也是阻碍智能客服等应用大面积推广的最大痛点。

Q:Hi盘古,我们个人在平常生活中做哪些事会有帮助?

盘古推荐以下低碳生活方式:

“霸榜CLUE”,华为云发布全球最大预训练模型——盘古NLP大模型

点评:提问中并没有提到“碳中和”三个字,但是盘古基于我们聊天的上下文,推断出我想问的帮助对象是降低二氧化碳而不是其它问题。长文中指代理解能力的提升会让人与机器在交流中更为自然、更为便捷。

Q:Hi盘古,AI技术能给碳中和带来哪些贡献?具体我们怎么实现碳中和?

盘古AI赋能数据分析和行业数字化转型,不仅可以帮助企业监测和预测碳排放,还可以有效提高企业生产效率,并实现节约成本和节能减排。

盘古:第一、明确碳总量排放的逐年递减目标。第二、推动电力市场改革,大力扶持绿色能源产业。第三、企业要进行碳核算,同时通过技术转型加速行业节能减排目标。

点评:盘古发表了它个人对于碳中和的看法,这就是“生成与理解能力领先”,给它一定的空间进行自由发挥创造出自己的观点。

盘古NLP大模型在三个方面实现突破性进展

众所周知人工智能已经进入千行百业,盘古大模型的目标是沉淀行业知识,解决商业环境中低成本大规模复制的问题。具体而言,希望提升小样本学习能力,为更广泛的商业场景赋能。比如说,服务机器人多轮对话上下文理解能力,多重语义识别能力等。

为了实现这个目标,盘古NLP大模型预训练阶段学习了40TB中文文本数据,并通过行业数据的样本调优提升模型在场景中的应用性能。

模型架构方面,之前的预训练模型大多基于decoder结构开发,比如Open-AI的GPT-3模型和智源的CPM模型,他们主要用来做生成类任务。盘古NLP大模型采用了deep encoder (深编码)和 shallow decoder (浅解码)结构,目的是为了保证模型在生成和理解两个方面的性能都表现优异, 同时加速生成过程。

相对于业界其他NLP大模型,盘古NLP大模型在三个方面获得了突破性进展:

  • 第一,大模型在预训练阶段沉淀了大量的通用知识,同时既能做生成又能做理解的特性让大模型有能力支持行业知识库和数据库的嵌入,进而对接行业经验。大模型可以灵活扮演系统的不同模块,使能全场景的快速适配与扩展。比如在循环智能与华为合作共建的金融客服场景中,大模型能更好的赋能销售环节,提升200%的销售转化率。

  • 第二,在encoder-decoder的架构基础上植入了特有的训练技巧和方法,性能上取得了优异的效果。在中文权威CLUE榜单中分类任务、阅读理解任务,和总成绩都排名第一。CLUE主要检测的是模型理解能力。NLPCC2018文本摘要任务可以全方位的检测一个模型的生成能力,盘古同样取得了Rouge Score平均分0.53的业界最佳成绩,超越第二名百分之六十。

  • 第三,过往发布的预训练大模型基本上不调优,或者做non-gradient(非梯度下降)调优,着眼于泛化能力而牺牲了一些场景的性能。为了改变这一缺陷,盘古NLP大模型选择走大模型小样本调优的路线,基于提示(prompt-based)的调优、动态冰化等一系列正则化技术,实现了小样本学习任务上超越GPT系列。

华为云盘古大模型怎么做出来的?

盘古NLP大模型涉及千亿参数、40TB中文文本训练数据,对算法、算力、海量数据处理、并行优化都提出了很大挑战。

在算法方面,华为云的算法团队和循环智能(Recurrent AI)的NLP团队经过数月的联合攻关,成功突破了大模型微调的难题。

鹏城实验室的国内最大规模AI训练集群鹏城云脑II,在盘古NLP大模型训练中展示出强大的AI算力和数据吞吐能力,为盘古NLP大模型训练打下了坚实的基础。

另一方面,华为底层软件、训练框架、ModelArts平台协同优化,充分释放算力,达成全栈性能最优。首先,针对底层算子性能,基于华为CANN采用了算子量化、算子融合优化等技术,将单算子性能提升30%以上。其次,华为MindSpore创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术,大幅降低了手动编码的工作量,并提升集群线性度20%。同时,华为云ModelArts平台提供E级算力调度,同时结合物理网络拓扑,提供动态路由规划能力,为大模型训练提供了最优的网络通信能力。此外,借助ModelArts平台的高效处理海量数据能力,仅用7天就完成了40TB文本数据处理。

华为云倾力打造了一系列盘古大模型(NLP、CV、多模态、科学计算),同时配套了100+基础算法,最终会落在华为云一站式AI开发平台ModelArts上给客户与广大开发者使用。华为云盘古大模型,改变了过去作坊式的定制化AI开发模式,实现了模型的通用、泛化、和复制,极大地提升了AI开发效率 ,开启了AI工业化开发新模式。

本文转载自跨界云观察
原文链接:

(0)
上一篇 2021年4月23日 下午7:27
下一篇 2021年5月1日 下午8:00

相关推荐

发表回复

您的电子邮箱地址不会被公开。

分享本页
返回顶部