计算机科学家证明,为什么更大的神经网络可以做得更好


来源:ScienceAI
编辑:萝卜皮
我们的物种很大程度上归功于对生的拇指。但如果进化给了我们额外的拇指,事情可能不会有太大改善。每只手一个拇指就足够了。
神经网络并非如此,这是执行类人任务的领先人工智能系统。随着他们变得更大,他们已经掌握了更多。这让旁观者大吃一惊。基本的数学结果表明,网络应该只需要这么大,但现代神经网络的规模通常远远超出预测的要求——这种情况被称为过度参数化。
在 12 月在领先会议 NeurIPS 上发表的一篇论文中,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 为缩放成功背后的奥秘提供了新的解释。他们表明,神经网络必须比传统预期的要大得多,才能避免某些基本问题。这一发现为一个持续了几十年的问题提供了一般性的见解。
论文链接:https://arxiv.org/abs/2105.12806
「这是一个非常有趣的数学和理论结果。」瑞士洛桑联邦理工学院的 Lenka Zdeborová 说,「他们以这种非常通用的方式证明了这一点。所以从这个意义上说,它会触及计算机科学的核心。」
对神经网络规模的标准预期来自对它们如何记忆数据的分析。但要了解记忆,我们必须首先了解网络的作用。
神经网络的一项常见任务是识别图像中的对象。为了创建一个可以做到这一点的网络,研究人员首先为其提供许多图像和对象标签,对其进行训练以学习它们之间的相关性。之后,网络将正确识别它已经看到的图像中的对象。换句话说,训练使网络记住数据。更值得注意的是,一旦网络记住了足够多的训练数据,它还能够以不同程度的准确度预测它从未见过的物体的标签。后一个过程称为泛化。
网络的大小决定了它可以记住多少。这可以通过图形来理解。想象一下,将两个数据点放在 xy 平面上。你可以将这些点与由两个参数描述的线连接起来:线的斜率和穿过垂直轴时的高度。如果其他人得到了这条线,以及一个原始数据点的 x 坐标,他们只需查看这条线(或使用参数)就可以计算出相应的 y 坐标。这条线已经记住了这两个数据点。
神经网络做类似的事情。例如,图像由成百上千个值描述——每个像素一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标;坐标的数量称为维度。
一个古老的数学结果表明,要将 n 个数据点与曲线拟合,你需要一个具有 n 个参数的函数。(在前面的示例中,两个点由具有两个参数的曲线描述。)当神经网络在 1980 年代首次成为一股力量时,思考同样的事情是有道理的。它们应该只需要 n 个参数来拟合 n 个数据点——无论数据的维度如何。
「这不再是正在发生的事情。」德克萨斯大学奥斯汀分校的 Alex Dimakis 说,「现在,我们经常创建参数数量超过训练样本数量的神经网络,这意味着必须重写这些书。」
Bubeck 和 Sellke 并没有打算重写任何东西。他们正在研究神经网络通常缺乏的另一种属性,称为稳健性,这是网络处理微小变化的能力。例如,一个不健壮的网络可能已经学会了识别长颈鹿,但它会将一个几乎没有修改过的版本错误地标记为沙鼠。2019 年,当 Bubeck 团队意识到该问题与网络规模有关时,他们正在寻求证明有关该问题的定理。
Bubeck 说:「我们正在研究对抗性的例子——然后规模就强加给了我们。我们认识到这是一个难以置信的机会,因为需要了解规模本身。」
在他们的新证明中,这对表明过度参数化对于网络的稳健性是必要的。他们通过计算将数据点与曲线拟合所需的参数来做到这一点,该曲线具有与稳健性等效的数学属性:平滑度。
为了看到这一点,再次想象平面中的一条曲线,其中 x 坐标代表单个像素的颜色,y 坐标代表图像标签。由于曲线是平滑的,如果稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会发生很小的变化。另一方面,对于极度锯齿状的曲线,x 坐标(颜色)的微小变化会导致 y 坐标(图像标签)的剧烈变化;长颈鹿可以变成沙鼠。
Bubeck 和 Sellke 表明,平滑拟合高维数据点不仅需要 n 个参数,还需要 n × d 个参数,其中 d 是输入的维度(例如,784 表示 784 像素的图像)。换句话说,如果你想让网络健壮地记住它的训练数据,过度参数化不仅有帮助——它是强制性的。证明依赖于一个关于高维几何的奇怪事实,即放置在球体表面上的随机分布的点几乎都彼此相距一个完整的直径。点之间的大间隔意味着用一条平滑曲线拟合它们需要许多额外的参数。
耶鲁大学的 Amin Karbasi 说:「证明是非常初级的——没有繁重的数学,它说明了一些非常笼统的东西。」
结果提供了一种新方法来理解为什么扩大神经网络的简单策略如此有效。
其他研究揭示了过度参数化有帮助的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过度参数化对于稳健性是必要的,但尚不清楚稳健性对于其他事物的必要性。但是通过将其与过度参数化联系起来,新的证明暗示稳健性可能比想象的更重要,一个可以释放许多好处的单一密钥。
「稳健性似乎是泛化的先决条件。」Bubeck 说,「如果你有一个系统,你只是稍微扰乱它,然后它就失控了,那是什么样的系统?这是不合理的。我确实认为这是一个非常基础和基本的要求。」
相关报道:
https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

在拜登倡导下,西方已经进入疯狂围剿俄罗斯的状态,下一步有可能对普京所谓“战争罪犯”开始策划了。拜登马不停蹄行动起来,24日在布鲁塞尔参加北约、G7和欧盟的三场峰会,..

在拜登倡导下,西方已经进入疯狂围剿俄罗斯的状态,下一步有可能对普京所谓“战争罪犯”开始策划了。拜登马不停蹄行动起来,24日在布鲁塞尔参加北约、G7和欧盟的三场峰会,..

大家好,关于实践内容怎么写很多朋友都还不太明白,不知道是什么意思,那么今天我就来为大家分享一下关于计算机实践内容怎么写的相关知识,文章篇幅可能较长,还望大家耐心阅读,希望本篇文章对各位有所帮助!社会实践报告的实践内容怎么写 社会实践报告的实践内容怎么写 社会实践报告的实践..

极目新闻记者 张皓不需点燃,随地一摔即可发出清脆“噼啪”声,无烟无气味无火花,摔炮以其新奇、独特、趣味等优点十分畅销,如今春节临近,玩摔炮的孩子更是增多。然..

中共中央总书记、国家主席、中央军委主席习近平1日上午视察了中国人民解放军驻香港部队,代表党中央和中央军委,向驻香港部队全体同志致以诚挚的问候。上午11时30分许,习..

2022年度“世界杰出女科学家奖”颁奖典礼23日在巴黎联合国教科文组织总部举行。中国浙江大学神经科学中心执行主任胡海岚与另外4名女科学家获颁本年度这一奖项。教科文组织..

3月17日,习近平总书记主持召开中央政治局常务委员会会议,分析新冠肺炎疫情形势,部署从严抓好疫情防控工作。要把思想和行动统一到习近平总书记关于疫情防控的重要讲话和..

人们常称呼钱学森、王大珩等老一辈科学家为“大科学家”,这是一种发自内心的崇敬。在学术界,他们还有一个更专业的称谓——战略科学家。前段时间,习近平总书记在中央人才..

中美科研团队在最新一期《细胞》杂志撰文称,他们制造出了首个由人类细胞和猴子细胞共同组成的胚胎,这些嵌合体有助科学家进一步在其他物种(如猪)体内培育出人体组织,但..

⬆️点我⬆️你准备先看哪篇热文:明朝那些事儿讲的历史是真的吗|慕容复要恢复的大燕国有多奇葩|极简中国游牧民族史|古代一两银子值多少钱|国外历史书吹水的现象很严重..

本文由 人工智能学家 来源发布

计算机科学家证明,为什么更大的神经网络可以做得更好

评论问答