有人预测GPT-4长这样:比GPT-3略大、纯文本、更注重最优计算与对齐



图源 Pinkeyes on Shutterstock

来源:AI科技评论

作者:钱磊、Ailleurs

编辑:陈彩娴

不久前,谷歌发布基于他们最新一代人工智能架构Pathways研发的 5400 亿参数大模型——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。


但同时,大家也一如既往地注意到 PaLM 的计算成本:用了6144块TPU。如果租显卡训练,最高花费可能达到1700万美元(人民币超过1个亿,“一个小目标”)。

显然,这很烧钱,不符合“经济可用”的原则。难怪业内人士常常吐槽:苦大模型久矣。


如果模型往大走,一个劲地砸钱,何时是个尽头?有学者也向AI科技评论表示:类似PaLM这样的大模型在结果上确实取得了不错的突破,但训练与计算的成本非常高,没必要将许多任务拼在一起。


对于大模型的未来发展,GPT系列或许能提供一些新的见解。


近日,Cambrian AI的分析师Alberto Romero便发表了一篇文章,基于OpenAI首席执行官Sam Altman在数月前的说法,推测GPT-4即将在今年7月到8月发布,并基于Altman在去年的一场问答,对GPT-4的特征进行了预测。


可以肯定的是,Altman称,GPT-4的参数不会达到100T。


Alberto Romero也猜测,或许GPT-4的规模会比GPT-3略大,但“大”不会像GPT-3一样成为GPT-4的“卖点”。相反,OpenAI更致力于如何让规模较小的模型发挥更大的性能。

1

预测1:GPT-4不会太大

首先,Alberto判断,GPT-4不会是最大的语言模型。Altman也称它不会比GPT-3大很多。与前几代的神经网络相比,GPT-4肯定会很大,但大小不会是它的显著特征。GPT-4可能介于GPT-3和Gopher (175B-280B)之间。


接着,Alberto给出了他预测的理由:


去年由英伟达和微软开发的Megatron-Turing NLG有530B参数,一直是最大的密集神经网络——其大小已是GPT-3的3倍——直到最近出现了谷歌的PaLM,其大小为540B。但值得注意的是,MT-NLG之后的一些较小的模型达到了更高的性能水平。


也就是说,更大 ≠ 更好。小型模型的存在有两个意义。


其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020年,OpenAI的Jared Kaplan和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind和其他开发语言模型的公司从表面上看接受了这一指导原则。


论文地址:https://arxiv.org/pdf/2001.08361.pdf


MT-NLG虽然规模很大,但在性能方面并不是最好的。事实上,它在任何单一类别基准上都不是最好的存在。像Gopher (280B)或Chinchilla (70B)这种更小的模型——哪怕仅仅是其一小部分——在任务上的表现都比MT-NLG好得多。


第二个意义是,公司开始拒绝“越大越好”的教条。虽然增加参数很简单,但是拥有更多参数只是众多可以提高性能的因素之一,而附带损害(如碳足迹、计算成本或进入死路)反而使其成为最糟糕的因素之一。如果企业能够从一个较小的模型中获得类似或更好的结果时,在构建一个庞大的模型之前就会三思而后行。


Altman说,他们不再专注于制造非常大的模型,而是致力于让较小的模型发挥最大的作用。OpenAI的研究人员是缩放假设(scaling hypothesis)早期的倡导人,但现在他们可能已经意识到其他还没走过的路可以改进模型。


相比将GPT-4做大,Alberto更倾向于认为,OpenAI会将把重点转移到其他方面——比如数据、算法、参数化或对齐——这些因素可以更显著地改进模型。

2

预测2:GPT-4试图寻找“最优”

当涉及到优化时,语言模型会遇到一个关键的问题。训练如此昂贵,以至于企业不得不在准确性和成本之间做出权衡。而这种抉择常常会导致模型明显未优化。


GPT-3只被训练了一次,仍有一些错误,这些错误在某些情况下可能会导致重新训练。由于成本太高、负担不起,OpenAI决定不进行优化,而这使得研究人员无法找到模型的最佳超参数集(例如学习速率、批尺寸、序列长度等)。


训练成本很高导致的另一个后果是模型行为的分析受到限制。当Kaplan的团队总结出模型大小是提高性能最相关的变量时,他们没有考虑到训练令牌的数量——也就是输入模型的数据量。这样做将需要大量的计算资源。


科技公司遵循Kaplan的结论,因为这已是他们所知最好的想法。讽刺的是,正是受到经济限制的影响,谷歌、微软、Facebook和其他公司在越来越大的模型上“浪费”了数百万美元,并且在这个过程中产生了大量的污染。


现在,以DeepMind和OpenAI为首的公司正在探索其他方法。他们试图找到最优模型,而不仅仅是更大的模型。


最佳参数化


上个月,微软和OpenAI证明,如果使用最优超参数训练模型,GPT-3可以得到进一步的改进。他们发现,6.7B版GPT-3的性能提高了很多,可以与最初的13B版GPT-3媲美。超参数调优(对于较大的模型来说不可行)赋予的性能提升相当于参数数量增加了一倍。


他们发现了一种新的参数化(μP),在这种参数化中,小型模型的最佳超参数也同样适用于同类大型模型。μP使他们能够优化任意大小的模型,而且只需花费很小一部分的培训成本。然后这些超参数可以几乎不花钱地转移到更大的模型中。


最优计算模型


几周前,DeepMind重新审视了Kaplan的发现,并意识到训练令牌的数量与模型大小一样影响性能,而这与人们的看法相反。他们的结论是,随着更多的计算预算可用,应该将其平均分配给可缩放参数和数据。他们通过训练Chinchilla来证明自己的假设,Chinchilla是一个70B模型(是曾经的SOTA,比Gopher小4倍),它使用的数据是GPT-3 (1.4T令牌-来自典型的300B)以来所有大型语言模型的4倍。


结果是明确的。在许多语言基准测试中,Chinchilla“一致且显著地”优于Gopher、GPT-3、MT-NLG和所有其他语言模型,而目前的模型有过大的问题,且训练不足。

考虑到GPT-4将略大于GPT-3,根据DeepMind的发现,GPT-4需要达到计算优化的训练令牌数量将约为5万亿,比当前的数据集高出一个数量级。他们需要训练模型以达到最小训练损失的失败次数,将比他们使用GPT-3(使用Gopher的计算预算作为代替)时多10 - 20倍。


Altman在问答中说GPT-4将比GPT-3使用更多的计算时,可能就是在指这一点。

OpenAI肯定会对GPT-4进行优化相关的调查——尽管具体到什么程度还无法预测,因为他们的预算是未知的。可以肯定的是,OpenAI将专注于优化除模型大小之外的其他变量。找到超参数的最佳集合,最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。如果将这些方法合并到一个模型中,那这个模型将会达到一个所有预测都难以想象的高度。


Altman还说,如果不把模型做大,人们就不会相信模型能有多好。他可能是指扩大模型尺寸的工作目前已经结束。

3

预测3:GPT-4将是一个纯文本模型

深度学习的未来是多模态模型。人类的大脑有多种感觉,这是因为我们生活在一个多模态的世界。每次只以一种模式感知世界,极大地限制了人工智能处理或理解世界的能力。


然而,良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。将视觉信息和文本信息组合成单一的表示形式是一项艰巨的任务。我们对大脑是如何做到这一点的了解非常有限(并不是说深度学习社区考虑了认知科学对大脑结构和功能的见解),所以我们不知道如何在神经网络中实施。


Altman在问答中说GPT-4不会是多模态的(像DALL·E或LaMDA那样),而是一个纯文本模型。因此,Alberto的猜测是,在跳到下一代多模态人工智能之前,他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限。

4

预测4:GPT-4将是一个密集模型

稀疏模型利用条件计算,使用模型的不同部分处理不同类型的输入。稀疏模型最近取得了巨大的成功,其可以很容易地扩展到超过1T参数标记,而不会产生高额的计算成本,能够在模型大小和计算预算之间创建一个看似正交的关系。然而,MoE方法的好处在非常大的模型上就没那么多了。


考虑到OpenAI关注密集语言模型的历史,Alberto认为,GPT-4大概率也将是一个密集模型。又因为Altman说GPT-4不会比GPT-3大很多,我们可以得出结论,稀疏性不是OpenAI的选择——至少目前是这样。


鉴于人工智能的灵感来源,即人类大脑,严重依赖于稀疏处理。与多模态一样,稀疏性很可能会主导未来几代的神经网络。

5

预测5:GPT-4会比GPT-3更对齐

OpenAI在解决AI对齐问题上投入了大量的精力:如何让语言模型遵循我们的意图并坚持我们的价值观——不管这到底意味着什么。这不仅是一个数学难题(例如,我们如何让人工智能准确理解我们想要的东西?),而且也是一个哲学难题(比如没有一种通用的方法可以让人工智能与人类保持一致,因为人类价值观在不同群体之间的差异是巨大的,而且常常互相冲突)。


他们使用InstructGPT进行了第一次尝试,这是一种通过人类的反馈来学习遵守指令的新GPT-3(不管这些指令是出于好意还是恶意,都没有被纳入模型中)。


InstructGPT的主要突破在于,不管其在语言基准上的结果如何,其都被人类评审认为是一个更好的模型(这些评审是一个由OpenAI员工和英语人士构成的同质的群体,所以我们应该对得出的结论保持谨慎的态度)。这显著表明,我们有必要克服把基准作为评估人工智能能力的唯一指标。人类如何感知这些模型可能同样重要,如果不是更重要的话。


考虑到Altman和OpenAI要遵守作为一个有益AGI的承诺,我相信GPT-4将实现并构建他们从InstructGPT中获得的发现。


我认为他们将改进对齐模式的方式,因为目前为这个模型制作标签的仅限于OpenAI员工和英语人士。而真正的对齐应该包括各种性别、种族、国籍、宗教等方面群体。这是一个巨大的挑战,朝着这个目标迈进的任何一步都将受到大众的欢迎。

6

总结

模型大小:GPT-4将比GPT-3大,但与目前最大的模型(MT-NLG 530B和PaLM 540B)相比不是很大。模型规模不会是一个显著的特征。

最优性:GPT-4将比GPT-3使用更多的计算。GPT-4 将实现对参数化(最优超参数)和比例法则(训练令牌的数量与模型大小同样重要)的新优化见解。

多模态:GPT-4将是一个纯文本模型,而不是多模态模型。OpenAI希望在完全跳到像DALL·E这样的多模态模型之前先充分利用好语言模型。

稀疏性:按照GPT-2和GPT-3的趋势,GPT-4将是一个密集模型(所有参数将用于处理任何给定的输入)。在未来,稀缺性将变得更加重要。

对齐:GPT-4将比GPT-3更对齐,其将从InstructGPT进行学习,而InstructGPT是根据人类的反馈进行训练的。不过,人工智能的对齐还有很长的路要走,我们应该仔细评估所做出的工作,而不应该对此进行炒作。

你怎么看?

参考链接:
https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45
https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe
https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

大家好,关于今日90号沥青价格表很多朋友都还不太明白,今天小编就来为大家分享关于90沥青价格报价表文本的知识,希望对各位有所帮助!110号沥青和90号哪个贵110号沥青贵。同一时间段,沥青的标号越高越是耐用,价格自然要相对标号低的高。汽车隔音材料有毒吗【太平洋汽车网】汽车隔音材料没有毒,减震..

本篇文章给大家谈谈翻译文本类型有哪些,以及翻译文本类型有哪些方法对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。合同翻译属于什么文本类型合同示范文本是针对当事人缺乏订立合同的经验和必要的法律常识,由有关部门和行业协会制定的指导性文件。1、示范文本的作用是提示当事人在订立合同..

大家好,今天来为大家解答关于市价委托对手方最优价格这个问题的知识,还有对于限价委托,对手方最优价格,本方最优价格也是一样,很多人还不知道是什么意思,今天就让我来为大家分享这个问题,现在让我们一起来看看吧!股票委托哪种方式最好?介绍委托卖出股票的最佳方式;     可能很多人都不清楚..

大家好,小编来为大家解答对方最优价格委托什么意思这个问题,市价委托对方最优什么意思很多人还不知道,现在让我们一起来看看吧!股票中对方最优价格是什么意思?对手方最优价格申报是指以申报进入交易主机时集中申报簿中对手方队列的最优价格为其申报价格的市价申报方式。简单来说,对手方最优价格申..

性能、配置和理想L9看齐的全尺寸SUV几乎都是百万级售价,甚至配置还比不上L9。李想说它是“500万元以内最好SUV”似乎也没毛病。在初期并不被看好的条件下,理想ONE用一年半..

常言道:“少不入川,老不出蜀”。安逸巴适是成都人民生活的主基调,节假日带上家人来一个跨城旅行,自然就是大家最热衷的消遣方式。但是如何选择最优跨城出游的通勤方式,..

在众多国内造车新势力品牌当中,零跑汽车的声音似乎一直都比较“低调”,暂且不说有多么了解,或许就连知道它的人也并不多。不过让我颇感意外的是,如今很多年过去了,当很..

随着技术水平不断提高、汽车产业链不断完善,以及产业配套进一步优化,新能源汽车正在进入加速发展的新阶段。数据显示,2021年新能源汽车销量达352.1万辆,同比增长1.6倍,..

7月19日,华为在Win-Win华为创新周期间举办了绿色发展解决方案发布会。华为运营商BG首席营销官宋晓迪发表了“绿色发展,共建能效最优的ICT基础设施”的主题演讲,发布华为..

【有车以后 有车试驾】要让我在奔驰的SUV里选择一台车的话,那我一定会毫不犹豫的将GLE拿下,因为无论是内外设计还是它悠闲自得极致舒享的驾乘体验,可以说都是同级无..

经济观察网 记者 周菊前段时间,汽车圈某新势力创始人说,真不明白为啥要买油车?喜欢闻汽油味吗?我为这位创始人高超的营销手法点赞。在3月1日举办的摩卡DHT-PHEV(混联式插电混动)的上市发布会上,魏牌CEO李瑞峰出人意料地对蔚来汽车董事长李斌此前充满争议的观点进行公开点评。他们(蔚..

撰文 / 孟 为编辑 / 张 南设计 / 师玉超乌克兰上空的漫天炮火已经持续了整整六天。2月28日,伦敦布伦特原油期货最高价格突破100..

Hello大家好!五菱凯捷凭借着“大四座”带来的超大空间、10万出头的价格,曾经一度月销过万。不过上市一年多来,热度逐渐衰减,刚刚过去的1月份销量下跌了50%多,只还剩400..

很多朋友对于对偶单纯形法无最优解和对偶单纯形法无最优解检验不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!对偶单纯形法是什么?对偶单纯形法是指从对偶可行性逐步搜索出原始问题最优解的方法。对偶单纯形方法纯形方法的一种对称变形.对于原单纯形方法而言,在迭代过程..

六月的鹏城大地,绿意葱茏、生机勃发。6月23日至25日,省委常委、市委书记韩立明率团赴深圳考察,期间走访华为、荣耀、中兴、华润、汇川、迈瑞、行云等行业领军企业,就深..

随着“双减”政策全国落地,近半年时间里,校外培训行业的骤然遇冷引发了一轮又一轮的舆论热议和观点输出。资本退潮、市值跌落、企业转型......但作为一个事关国计民生的重..

年终将至,经过了一年拼命赚钱之后,不少朋友把买车的计划提上日程。其中,紧凑级的家用轿车凭借自身的性价比深受消费者的青睐。而提到紧凑级家用轿车,一定绕不开日系车。..

如果想异军突起,占据一定的市场地位,摆在面前的,只有一条道路:专业化、差异化、精品化。文丨喜乐来源丨投中网投资是一件极其专业的事,也是一件极其艰难的事,这个认知..

添加微信号:AnLe010 了解更多前沿设计资讯融创壹号院私宅319㎡PrivateHouse2021.12.21完工  原始平面图▼客厅这套住宅位于郑州市的融创壹号院,总面积为319㎡..

2021年,音频市场规模预计达到6.4亿,也就是每3个人里就有1个人在听有声书,面对如此多的听众,有声书录制人员的数量是远远不够的!在这种供不应求的情况下,录制有声书收..

本文由 人工智能学家 来源发布

有人预测GPT-4长这样:比GPT-3略大、纯文本、更注重最优计算与对齐

评论问答