大的英文和中文AI单体模型的记录分别刷新
作者:安靖 栏目:产业 来源:IT之家 发布时间:2021-10-15 15:35 阅读量:13483
超大型AI模型的训练成本高到顶不住甚至万亿美元的公司也在寻求合作
本周,NVIDIA和微软联合发布了参数5300亿的威震天—图灵,成为全球最大的AI单体模型。
就在半个月前,Inspur在中国发布了一款拥有2500亿参数的庞大的中国AI模型元1.0。
不到一个月,最大的英文和中文AI单体模型的记录分别刷新。
而且值得注意的是,
伴随着技术的飞速发展,威震天—图灵和源1.0仍然未能达到指数定律的预期。
需要知道的是,从2018年开始,NLP模型参数将以每年一个数量级的速度增长。
最近几年来,非线性规划模型参数呈指数级增长。
GPT—3出现后,虽然出现了Switch Transformer等万亿参数的混合模型,但单个模型的增速明显放缓。
无论是国外的威震天—图灵还是国内的元1.0,其规模与GPT—3在数量级上没有区别尽管威震天—图灵和源1.0都使用了它们最强大的硬件集群
单体模式是其发展的瓶颈吗。
超大型号的三种模式。
要回答这个问题,首先要对最近几年来出现的超大规模NLP模型进行梳理。
从模型开发者的角度来看,超大规模NLP模型的研发伴随着时间的发展逐渐形成了三种模式。
第一,以研究机构为主导。
艾伦研究所开发ELMo和OpenAI开发GPT—2都不是为了盈利。
现阶段超级NLP模型都是开源的,已经被开源社区复制和改进。
ELMo有40多个非官方实现,GPT—2也被国内开发者引入中国处理。
第二,科技巨头占据主导地位。
伴随着模型越来越大,训练过程中硬件的优化变得尤为重要。
从2019年下半年开始,每个学校都开发了大规模的并行训练和模型扩展技术,以期开发更大规模的NLP模型英伟达威震天—LM,谷歌T5,微软图灵—NLG相继出现
今年国内科技公司也开始了类似的研究,中国AI模型元1.0对于国内硬件公司来说是——的突破。
它实现了中国领域最大的NLP模型,并一度刷新了参数最多的大模型的记录。
源1.0不仅拥有全球最大的高达5TB的中文高质量数据集,而且在计算总量和优化训练效率方面也是前所未有的。
三,巨头与研究机构或巨头之间的合作。
拥有技术的OpenAI引入了微软10亿美元的投资,因为它无法承担高昂的成本依靠海量的硬件和数据集资源,去年有1750亿参数的GPT—3问世
可是,今年拥有数万亿参数的GPT—4没有如期亮相相反,微软和英伟达联合推出了威震天—图灵
让我们回顾一下中国。
在威震天—图灵发布之前,国内外涌现了很多超大型AI单体模型,包括阿里达摩院的PLUG和国内的袁1.0。
像英伟达,微软,谷歌,华为,Inspur等公司加盟,一方面为AI研究提供了大量的计算能力支持,另一方面是因为他们在大规模并行计算方面有着丰富的经验
当AI模型的参数日益增加,达到千亿量级时,训练模型的可行性面临两大挑战。
1.即使是最强大的GPU,也无法再将模型参数拟合到单卡的视频内存中,
2.如果不特别注意优化算法,软硬件栈,那么庞大的计算量会让训练时间变得不切实际。
可是,现有的三种并行策略在计算效率上存在折衷,这使得很难两者兼顾。
英伟达和微软就是因为这个原因合并的,面对同样的问题,Inspur也在Source 1.0中用前沿的技术路径解决了培训效率问题。
从Source 1.0的arXiv论文中,我们可以窥见这种提高计算效率的方法。
在源的大规模分布式训练中,Inspur采用了张量并行,流水线并行和数据并行的三维并行策略。
《威震天—图灵》和《源1.0》一样在张量并行策略中,模型的层在节点中的设备之间划分
为了解决存储空间不足的问题,流水线在多个节点之间并行划分模型的层序列。
此外,还有一种数据并行策略,根据流水线分组划分全局批量。
三家公司利用各自的技术,将最先进的GPU与最前沿的分布式学习软件栈相融合,从而实现了前所未有的训练效率,最终分别打造了最大的英文和中文AI单体模型。
超大规模自然语言模型的训练成本不断增加,不同的途径导致技术上目标一致,导致研究机构和技术巨头协同发展,三种探索模式并驾齐驱。
中英文AI模型互赢互输。
培训成本越来越高,技术也在趋同为什么公司选择单独学习而不是寻求合作
我们可以在GPT看到它。
去年发布的GPT—3不仅不是开源的,就连API也是限量提供的由于微软的投资,未来GPT—3的知识产权将完全归微软所有,其他想要使用完整功能的企业或个人只能期待了
培训成本极高,道德伦理问题,而为了保证行业领先地位,微软又不敢放权技术其他科技公司不能把自己的命运交给微软,只能选择自己开发
特别是对于中国用户来说,以上批次的超大型模型都不是用中国数据集训练的。
,无法使用在中文语境中。
中文语言的训练也比英文更难英文由单词组成,具有天然的分词属性
大桥,南京 | 市长 | 江大桥,错误的分词会让 AI 产生歧义。
相比于英文有空格作为分隔符,中文分词缺乏统一标准,同样一个词汇在不同语境,不同句子中的含义可能会相差甚远,加上各种网络新词汇参差不齐,中英文混合词汇等情况,要打造出一款出色的中文语言模型需要付出更多努力。
所以国内公司更积极研究中文模型也就不难理解了。
即便难度更高,国内公司还一度处于全球领先,比如数据集和训练效率方面。
据浪潮论文透露,源 1.0硬件上使用了 2128 块 GPU,浪潮共搜集了 850TB 数据,最终清洗得到 5TB 高质量中文数据集。
其文字数据体积多于威震天—图灵,而且中文信息熵大大高于英文,信息量其实更大。
在训练效率方面,源 1.0训练用了 16 天,图灵威—震天用了一个多月,前者数据量是后者 3 倍有余,耗时却只有后者一半 ——
其专注中文,关注效率努力也可见一斑。
大模型你来我往间能看出,发展已走入百花齐放互不相让的阶段,这给我们带来新的思考:AI 巨量模型既然不闭门造车,那如何走向合作。
多方合作可能才是未来
表面上威震天—图灵是第一次由两家科技巨头合作推出超大 AI 模型。
其背后,双方不仅组成了超豪华硬件阵容,在算法上也有融合。强强联合成为超大 AI 模型落地的一种新方式,
国外巨头开启先例,那么国内公司的现状又是如何呢其实有机构已经迈出合作的第一步
诸如浪潮的源 1.0,和当初的威震天一样,也是由硬件厂商主导开发的超大规模自然语言模型。
在产业界,浪潮早就提出了元脑计划的生态联盟,源 1.0未来将向元脑生态社区内所有开发者开放 API,所有加入生态的 AI 技术公司都可以利用源 1.0进行二次开发,从而制造出更强大的功能。
国内超大规模自然语言模型合作的时代正在开启。
合作开发巨量模型能带来什么李飞飞等知名学者已经给出答案:当数据规模和参数规模大到一定程度时,量变最终能产生质变,GPT—3 就是先例
如今大模型越来越多,但未来关键还在于如何纵横捭阖,打造属于一套开放合作体系,让所有技术公司群策群力。
而 AI 巨量模型在这样的生态体系下会带来怎样的变化,在源 1.0等一大批模型开放后,应该很快就能看见。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
内容摘选
