深度学习不再是魔法，图网络是吗？ +关注 +发表新主题

深度学习不再是魔法，图网络是吗？

发表于讨论求助 2021-07-18 19:33:16

开发者社区人们已经开始说，(深度学习)系统可能存在问题。

【编者按】深度学习曾被认为是魔法，但如今魔法正在掀开魔术布。取而代之的会是“图网络”吗？

本文首发于新智元，作者M. Mitchell Waldrop；由编辑，供行业人士参考。

AI能将一根香蕉照片识别成一台烤面包机，尽管AI在训练阶段可能被展示了数千张香蕉、蛞蝓、蜗牛以及其他类似物体的照片，就像抽认卡一般，让AI反复练习，直到完全掌握分类为止。

但是，即便是成千上万次训练，这个先进的系统也很容易被搞糊涂——只需要将一张小小的贴纸放到图像的某个角落，就会改变识别结果。

上面这个被称为“对抗攻击”(adversarial attack)的例子是由Google Brain的深度学习研究人员发现的，这项研究突显了人工智能距离接近人类能力之前还有很长的路要走。

多伦多大学计算机科学家Geoffrey Hinton是深度学习的先驱之一，他说：“我最初认为对抗样本只是一个让人烦恼的问题，但我现在认为它们非常深奥。它们会告诉我们做错了什么。”

这也是AI从业者普遍的观点，研究人员中的任何一个人都能轻松说出一长串深度学习的弊端，除了易受欺骗之外，还存在严重的低效率问题。

比如说，让一个孩子学习认识奶牛，并不需要他的母亲说一万遍“奶牛”，人类通常只需要一两个例子就能学习新概念。但是10000遍是深度学习系统通常需要的数字。

然后是不透明问题。一旦深度学习系统被训练完，它是如何做出决定的就不总是那么清楚了。MIT- IBM 沃森人工智能实验室负责人、计算神经学家David Cox说：“在很多情况下，不透明问题是不可接受的，即使它得到了正确的答案。”

假设一家银行使用AI来评估你的信用等级，然后拒绝给你贷款，并且说不清楚拒绝的原因，你会觉得合理吗？

也许最重要的是，它们缺乏常识。深度学习系统可能是识别像素级模式的高手，但它们无法理解模式的含义，更不用说对它们进行推理了。DeepMind的AI研究员Greg Wayne表示：“我不清楚，目前的AI系统是否能够理解沙发和椅子是用来坐的。”

AI的这些弱点越来越多地引起人们的担忧，尤其是自动驾驶方面。自动驾驶汽车使用类似的深度学习系统进行导航，已经出现了几起广为人知的死亡事故。

深度学习方法中的明显缺陷引起了研究人员和大众的担忧，因为自动驾驶等应用使用深度学习进行导航。

“人们已经开始说，(深度学习)系统可能存在问题。”纽约大学认知科学家加里•马库斯(Gary Marcus)说，他是对深度学习最直言不讳的怀疑论者之一。他说：“在一年左右之前，一直存在一种感觉，即深度学习具有魔力。现在人们已经认识到深度学习不是魔法。”

不过，不可否认的是，深度学习是一种非常强大的工具——它使部署面部识别和语音识别等应用程序变得非常常见，而就在10年前，这些程序几乎是不可能的。

所以现在的研究人员很难想象，在这个时候深度学习会消失。

在过去的2018年，深度学习的进展似乎没有达到人们的预期，“深度学习至顶”、“深度学习已死”的论调频现。虽然目前深度学习依旧生命力旺盛，但更有可能的是，人们会修改或增强它，并培养出它的下一代接班人。

起底深度学习：起源“大脑战争”

今天的深度学习革命起源于上世纪80年代的“大脑战争”(brain wars)，当时两种不同人工智能方法的倡导者之间争论甚大。

一种是现在被称为“优秀的老式人工智能”（good old-fashioned AI）方法，自20世纪50年代以来一直占据这个领域的主导地位。

这种方法也被称为符号AI，使用数学符号来表示对象和对象之间的关系。再加上人类建立的大型知识库，这些系统被证明在医学等领域的推理和决策方面非常出色。

但到了20世纪80年代，人们也越来越清楚地认识到，符号AI在处理现实生活中的符号、概念和推理方面表现非常糟糕。

为了应对这些缺陷，一些研究人员开始提倡人工神经网络，或称联结主义人工智能(connectionist AI），即今天的深度学习系统的前身。

这类系统的想法是通过一个模拟节点的网络来处理信号，这个网络类似于人类大脑中的神经元。信号通过连接或链路从一个节点传递到另一个节点：类似于神经元之间的突触连接。而学习，就像在真实的大脑中一样，是一个调整“权重”问题，这个“权重”会放大或减弱每个连接所携带的信号。

在实践中，大多数网络将节点排列成一系列的层，大致类似于大脑皮层中的不同处理中心。因此，比如说，一个专门用于图像识别的网络会有一个输入节点的层，它对单个像素做出响应，就像杆状细胞和锥体细胞对照进视网膜的光线做出响应一样。一旦被激活，这些节点通过加权连接将其激活级别传播到下一级别的其他节点，这些节点组合输入信号并依次激活(或不激活)。

这个过程一直持续到信号到达节点的输出层，其中的激活模式提供一个答案——一个断言，例如输入图像是数字“9”。如果答案错误了——假设输入的图像是“0”——那么“反向传播”算法就会沿着层反向运行，调整权重，以便下次得到更好的结果。

到20世纪80年代末，这类神经网络在处理噪声或模糊输入方面已经证明比符号AI好得多。

然而，这两种方法之间的对峙仍未得到解决，主要是因为当时能够装入计算机的AI系统非常有限。人们仍无法确切地知道这些系统能做什么。

一切光荣得益计算力的爆发

直到2000年，随着计算能力以数量级增大的计算机的出现，以及社交媒体网站提供大量图像、声音和其他训练数据，这种理解才开始得到发展。

首先抓住这波机会的是Hinton，他是反向传播算法的提出者之一，也是20世纪80年代联结主义的主导者。到2005年左右，他和他的学生们训练的网络不仅比以前的要大得多，而且深得多，层数从一层或两层增加到了大约六层。(如今的商业网络经常多达100层以上)

2009年，Hinton和他的两名研究生证明这种“深度学习”比任何其他已知的方法都能更好地识别语音。

2012年，Hinton和另外两名学生发表的实验表明，深度神经网络在识别图像方面可能比标准视觉系统要好得多，“几乎将错误率减半”。

在语音和图像识别的双重突破下，深度学习应用的革命开始了，研究人员改进这项技术的努力也开始了。

早期的优先任务之一是拓展深度学习系统的训练方式，DeepMind公司的Matthew Botvinick说，语音和图像识别系统都使用了所谓的监督学习，这意味着每幅图像都有一个正确的答案——比如“猫”——如果网络错了，你就要告诉它正确的答案是什么。然后，网络使用反向传播算法来改进下一个猜测。

实际上，对于大部分的现实世界任务，需要强化学习。例如，强化学习系统在玩电子游戏时能学会寻求奖励(找到宝藏)和避免惩罚(失去钱)。

强化学习深度神经网络的首次成功实现是在2015年，当时DeepMind的一个团队训练了一个网络玩经典雅达利2600街机游戏。

发表

签到

26906人签到看排名