这四个关于AI的问题,你最该了解却从未想过

人工智能和机器学习是一回事吗?人工智能能解决所有问题吗?如果不是,人工智能能解决什么问题?如何区分这些问题?人工智能的真正困难是什么?人工智能给社会带来了什么挑战?

Yonatan Zunger,一位著名的媒体博客作者,最近发表了一篇关于人工智能的长篇和深入的文章,这可以说是最有深度和兴趣的热门科学。

在过去的几年里,我们一直在讨论人工智能将如何拯救或毁灭世界:自动驾驶有利于保护我们的生命;社交媒体泡沫将摧毁民主;用机器烤面包的机会使人类失去了烤面包的能力。

你可能很清楚,有些是胡说八道,有些是真的。然而,如果你不深入这个领域,可能很难区分真假。尽管互联网上有很多启蒙课程,针对那些想学习人工智能编程的人,对于那些不想成为软件工程师或数据专家的人,他们对人工智能的概念及其面临的社会和伦理挑战缺乏理解。

如果整个社会真的想讨论人工智能,我们需要解决这个问题。所以今天我们将讨论人工智能的现实:它能做什么,不能做什么,它将来可能做什么,以及它带来的一些社会、文化和道德挑战。我不会涵盖所有可能的挑战。其中一些,比如泡沫和虚假信息,需要整篇文章来解释。然而,我会给你足够的例子来说明我们面临的真正问题,这样你就可以独立地提出你自己的问题。

让我先给你一个扰流器:大多数最困难的挑战不是来自技术。人工智能的最大挑战往往始于迫使我们在编程时非常清晰地表达我们的目标。像这样的东西很少。有时候,我们不想告诉自己真相。

人工智能和机器学习

在撰写本文时,我或多或少会用到术语“人工智能”和“机器学习”。出于一个愚蠢的原因,这两个术语的意思几乎相同:因为历史上,“人工智能”几乎被定义为“任何计算机都做不到的事情”

多年来,人们一直认为下棋需要真正的人工智能,模拟对话需要真正的人工智能,或者识别图像需要真正的人工智能。每当这些事情实现时,人工智能的边界就会移动。“人工智能”这个词太可怕了。它太接近我们人类定义自己的方式,也太接近让人类与众不同的东西。所以在某些情况下,专业人士会用“机器学习”这个术语来进行整个对话,然后陷入困境。如果我只谈论“机器学习”,听起来很机械,因为即使是专业人士也总是谈论更多的人工智能。

那么让我们来谈谈什么是机器学习或人工智能。从最严格的意义上说,机器学习是“预测统计”领域的一部分,即建立一个能够获取过去事件信息的系统,并利用这些信息建立一个关于相关环境的特定模型,以预测在其他情况下可能发生的事情。简单地说,它就像“当我向左转动车轮时,汽车也向左转动”一样简单。从困难的角度来说,这就像试图理解一个人的一生和品味一样复杂。

有一个传感器)可以感知世界。这些系统可以是任何东西,从照相机和激光雷达到查看文档的网络爬虫。还有其他适合这种环境的系统,例如驾驶汽车或显示客户的广告。有时,这个系统是一台机器,有时它是一个人,他必须根据一些非常复杂或太大的事情来做决定,而他不能一次考虑那么多等整个互联网的内容。

要将两者联系起来,你需要一个盒子,它可以提取世界知识,并提出一些建议,告诉你如果你采取各种行动会发生什么。中间的盒子叫做“模型”,就像“世界如何运作的模型”。这个盒子是人工智能的一部分。

在上图中还有其他的词,如果你听专业人士讨论人工智能,你可能会听到。“特征”只是原始认知的某种升华,包括模型设计者认为有用的认知部分。在一些人工智能系统中,特征仅仅是原始感知,例如,摄像机的每个像素所看到的颜色。如此大量的特性对人工智能是有益的,因为它对什么是重要的,什么是不重要的没有任何先入之见,但是它使得人工智能本身更难构建。只有在过去十年左右,才有可能制造一台足够大的计算机来处理这个问题。

“预测”是在另一端产生的结果:当你向模型展示一些特征时,它通常会给你一堆可能的结果以及它对每个结果的可能性的最佳理解。如果你想要人工智能来做决定,那么应用一些规则,例如,“选择最有可能成功的人”或者“选择最不可能导致灾难性失败的人”对于系统来说,权衡可能的成本和收益与模型本身一样重要。

现在,你可以想象一个非常简单的“模型”,它为此给出了具体的规则:例如,旧蒸汽机上的机械调节阀就是一个简单的“模型”,一端读取压力,如果压力超过某个设定点推杆,它就会打开一个阀门。这是一个简单的规则:如果压力高于设定值,打开阀门;否则,关闭阀门。

这个阀门非常简单,因为它只需要参考一个输入并做出决定。如果它必须依赖数万甚至数百万的输入信息来决定一些更复杂的事情,比如如何控制汽车(取决于你所有的视觉、听觉等)。),或者哪个网页可以为你关于考拉育种的问题提供最好的答案(取决于你是一时兴起还是专业脊椎动物争议者,以及网站是由一个热情的情人创建的还是只是想卖给你便宜的考拉春药),你会发现这个相对简单,有数百万甚至数千万的信息要决定。

人工智能模型的特别之处在于它们是专门为此设计的。在任何人工智能模型中,都有一系列综合所有特征的规则。每个特性都依赖于成千上万甚至数百万个单独的按钮来告诉它如何在不同的情况下权衡每个特性的重要性。例如,在一个叫做“决策树”的人工智能模型中,这个模型看起来像一棵有/没有问题的巨树。如果人工智能的工作是将金枪鱼和鲑鱼分开,那么第一个问题可能是“图像的左半部分比右半部分暗”,最后一个问题可能是“根据前面374个问题的答案,这个正方形的平均颜色是橙色还是红色?”“此按钮”是提问的顺序,每个问题的“是”和“否”之间的界限是什么。

决策树简化示例

魔术:不可能找到能够可靠区分鲑鱼和金枪鱼的正确问题组合。太多了。所以,起初,人工智能是以“训练模式”运行的。人工智能被一个接一个地展示出来,每次都调整它的旋钮,以便更好地猜测下一步会发生什么,并在每次出错后进行自我纠正。它看到的例子越多,拥有的例子越多,它从偶然性中找到关键的能力就越强。一旦它被训练,旋钮的值是固定的,模型可以连接到一个真正的致动器上使用。

ML模型在做同样的任务时比人类的优势不是速度。最大似然模型通常需要几毫秒来做出决定,人们可能需要那么多时间。(你开车的时候总是这样)。他们真正的优势是他们不会感到无聊或分心:一个最大似然模型可以对不同的数据段做出数百万或数十亿个连续的决策,既不会使数据变得更好也不会变得更差。这意味着你可以把它们应用到人类不擅长的问题上,比如为一次搜索排名数十亿页,或者开车。

人类驾驶非常糟糕,仅在2015年美国就有35,000人死于车祸。这些事故大多是由分心或驾驶员失误造成的。人通常做得很好,但他们在关键时刻会犯错。开车需要高度的注意力和快速的反应,你可能认为这是可以做到的,但不幸的是,它需要这种能力持续几个小时。事实证明,我们实际上无法做到这一点。)

当有人谈到在项目中使用人工智能时,他们的意思是将项目分解成上面画的图表,然后建立正确的模型。这个过程首先收集训练例子,这通常是最困难的任务;然后选择模型的基本形状(即“神经网络”、“决策树”等)。),这些都是针对不同问题的基本模型,并进行培训;然后,最重要的是找出什么是坏的,并调整它。

例如,看下面六张图片,找出前三张和后三张的关键区别:

如果你猜测“前三张有地毯”,那么你是对的!当然,如果你猜测前三张是灰猫的照片,后三张是白猫的照片,你也是对的。

但是如果你用这些图像来训练你的灰猫探测器,那么当模型试图给你的训练图像打分时,你可能会得到很好的表现,但是在实际工作中,模型会表现不好,因为模型实际学到的是“灰猫就像地毯上的猫”

当你的模型了解了训练数据的特征,但它不是你真正关心的,这就叫做“过度拟合”。大多数构建移动语言系统的人大多数时候都担心这个问题。

人工智能擅长什么,不擅长什么?

现在我们已经讨论了什么是人工智能,然后让我们讨论它是有用的还是无用的。

如果你想达到的目标和实现这些目标的方法都被很好地理解,那么这类问题就不需要人工智能了。例如,如果您的目标是“将车轮上的所有螺母拧紧到100英尺磅”,您只需要一个能够拧紧和测量扭矩的机构,并且当扭矩达到100时停止拧紧。这叫做“扭矩扳手”。如果有人给你一把人工智能扭矩扳手,你要问他们的第一个问题是为什么我需要这个。这些降低了人工智能的门槛,你只需要一个简单的机制。

人工智能可以帮助解决的问题是:目标是明确的,但实现目标的手段并不明确。解决以下情况最简单:

可能的外部刺激数量有限,所以模型可以理解它们

你必须控制的事物数量有限,所以你不需要考虑太多的选择范围

刺激或者要做出的决定数量很大,你不能直接写下规则并加以区分

可以很容易地将一个动作与外部可观察的结果联系起来,这样你就可以很容易地找出什么有效,什么无效。

这些东西实际上比看起来更难。例如,现在拿起你旁边的一个物体。例如,我会拿起一个空的汽水罐。现在慢慢来,看看你的手臂是如何工作的。

我的手臂快速地沿着肘部转动,将我的手从键盘水平移动到离罐子几英寸的垂直位置,然后迅速停下来。然后它向前移动,张开手掌,手掌比罐子稍大,比第一只手掌慢得多,但仍然非常快,直到我看到我的拇指与其他手指相对,尽管事实上我的其他手指被罐子遮住了。然后我的手指合拢,直到遇到阻力,立即停止。然后手臂开始抬起,这一次是从肩膀(保持肘部固定)开始紧紧抓住并无限期收紧,直到手牢牢抓住罐子而不变形。

事实上,令人惊奇的是我们走路时没有面对面摔倒,尽管这似乎很常见。下次你穿过房间时,注意你的准确路线,每次你弯腰或移动身体,或者把脚放在不在你面前的任何地方。机器人学中的“运动规划”问题非常困难。

这是非常困难的任务之一。我们的大脑对做这件事的注意力是其他事情的两倍。这使得我们所做的事情看起来比实际要容易得多。属于这一类别的其他任务包括面部识别(你可能不知道我们大脑的大部分视觉功能不是用于普通视觉,而是专门用于识别面部)、理解单词、识别3D物体以及不触摸障碍物。我们认为这些并不困难,因为它们对我们来说非常直观,但是它们非常简单,因为我们有专门的器官和组织专门负责并擅长做这些事情。

对于这一系列狭窄的任务,计算机做得很差,不是因为它们的性能比其他类似的任务差,而是因为人类在直觉上非常擅长这些,所以“可接受的性能”的基线非常高。如果我们的大脑没有很大一部分集中在识别人脸上,那么我们会观察犰狳3354这样的人,现在电脑就是这样。

相反,人类连接的方式让电脑看起来足够聪明。例如,人脑中的有线连接认为,或多或少活跃的东西实际上是活的。这意味着没有必要从整体上理解语言来与人进行令人信服的对话。只要你能或多或少地关注这个话题,人类就会自动纠正任何不清楚的地方。这就是语音助手能够成功的原因。最著名的例子是伊莱扎,1964年模仿罗杰心理治疗师的“人工智能”。它会理解你的句子,让你更多地了解各种事情。如果你感到困惑,它会后退一步,回到安全问题“告诉我关于你母亲的事”。虽然这只是一个玩笑,但人们说他们确实在交谈后感觉好了一点。

为了理解上面提到的最后一个问题,当很难将你的直接行为与后果联系起来时,可以考虑学习玩电子游戏。这个行动的结果非常明显:当你应该转身的时候,你必须转身。如果你撞到墙上,游戏就结束了。但是当你在比赛中表现更好的时候,你会开始意识到“糟糕,我错过了一次晋升,我将在五分钟内完成”,并且可以预见更长时间后的后果。你必须花很多时间去理解游戏的机制,然后去理解它们之间的联系。人工智能也有同样的问题。

我们谈到了目标和手段明确的情况,以及目标明确但手段不明确的情况。还有第三类情况,人工智能完全无能为力:也就是说,甚至目标本身也没有被很好地理解。毕竟,如果你不能给人工智能提供好的和坏的解决方案的例子,它能从这些例子中学到什么?

我们稍后会讨论这些问题,因为属于这一类的问题往往是最棘手的道德问题出现的地方。事实上,很多时候情况是要么我们不知道“成功”的真正含义(在这种情况下,你怎么知道你是否成功了?),或者更糟的是,我们知道,但不想真正向自己承认。计算机编程的第一条规则是他们不擅长自欺欺人:如果你想让他们做些什么,你必须向他们解释你想要什么。

在我们开始谈论道德之前,这里有另一种分析人工智能的方法。

最简单的事情是在可预测的环境中有明确的目标。例如,一台摄像机正在监控装配线。它知道汽车很快就会出现。目标是识别车轮。

相对困难的情况是在不可预测的环境中有一个明确的目标。自动驾驶汽车就是一个很好的例子:目标可以直接描述(从点a到点b安全且速度合理),但是环境可能包含许多事故。在过去的几年里,人工智能刚刚发展到可以影响这些问题的程度,所以我们研究自动驾驶或自动驾驶飞机等问题。

另一个挑战是在可预测的环境中实现间接目标。在这种情况下,环境是可预测的,但是行为和目标之间的关系非常遥远,就像玩游戏一样。这是我们最近取得巨大进展的另一个领域。人工智能可以完成以前无法想象的事情,比如阿尔法围棋在围棋中获胜。

赢得棋盘游戏本身并不十分有用,但它为在不可预测的环境中实现目标开辟了道路,例如规划你的金融投资组合。这是个棘手的问题。我们还没有取得重大进展,但我希望我们能在未来十年内做好。

最后,还有一个最困难的情况:当目标不确定时。人工智能根本无法解决这些问题;如果你不能告诉它你想做什么,你就不能训练系统。写小说可能是一个例子,因为对于什么使一本书成为“好小说”没有明确的答案。另一方面,这个问题中有一些具体的目标可以定义为,比如“写一部小说,如果像恐怖电影一样卖,它会卖得很好。”这个人工智能应用程序是好是坏取决于读者的智慧。

伦理和现实世界

现在我们可以开始研究这个问题的真正含义了:人工智能的成功或失败会产生重大影响的问题是什么?什么样的问题还在出现?

我可以很容易地给出一系列答案,但是我们并没有涵盖这个领域中每个有趣的问题,甚至大多数问题。但是我给了你六个例子。这些例子帮助我思考了很多。他们的主要帮助不是给我正确的答案,而是帮助我问正确的问题。

(1)乘客和行人

一辆自动驾驶汽车正在穿过一座狭窄的桥时,一个小孩突然从前面跑了出来。现在停下来已经太晚了。汽车唯一能做的就是要么前进,撞上孩子,要么掉头,把自己和乘客送到下面流动的河流。它应该做什么?

这个问题在过去几年里已经公开讨论过了。这次讨论非常明智,显示了我们真正需要问的问题。

首先,整个问题有一个很大的漏洞:这个问题在实践中发生的可能性非常小,因为自动驾驶汽车的关键点是它们从一开始就不会卷入这种情况。孩子们很少突然出现。在大多数情况下,当这种情况发生时,要么是因为司机的反应不够快,无法控制孩子跳到障碍物后面,要么是司机因为某种原因分心,来不及注意孩子。这些都是自动驾驶仪中不存在的问题:自动驾驶仪同时观察所有信号,不会连续几个小时感到无聊或分心。这种情况将变得非常罕见,这是救生自动驾驶的来源。

但是“几乎从不”和“绝对从不”是不同的。我们不得不承认这有时会发生。发生这种情况时,汽车该怎么办?应该优先考虑乘客或行人的生命吗?

这不是技术问题:这是政策问题。这与我们今天生活的世界大不相同。如果你问人们在这种情况下他们会做什么,他们会给出各种各样的答案,并以各种“取决于当时的情况”来限制答案。事实是,我们不想做这个决定。当然,我们不想公开承认我们的决定是为了保护我们的孩子。当人们真的处于这种情况时,他们的反应就会出现在地图上。

在文化上,我们有一个答案:此时此刻,当你看到即将到来的灾难和事件时,我们意识到我们无法做出理性的决定。我们最终会让司机为他们的决定负责,并相信这是不可避免的,无论他们做出什么决定。(尽管我们可能会让他们对之前的决定负责,比如超速或喝醉)。

有了自动驾驶,我们别无选择;编程确实有一个空间,现在它要求我们在事故发生前几年给出一个答案:“发生这种情况时我该怎么办?我应该如何降低乘客的风险,以免对行人造成危险?”

它会按照我们说的去做。计算机编程的任务要求我们对自己想要的决策要残酷和诚实。例如,当这些决定影响到整个社会时,在这种情况下,这意味着作为一个社会,我们面临着同样困难的选择。

(2)礼貌地编造

机器学习模型有一个非常恼人的习惯:他们学习数据显示的内容,然后告诉你他们学到了什么。他们顽固地拒绝学习“我们想要的世界”或“我们喜欢宣布的世界”,除非我们明确地向他们解释是什么,尽管我们喜欢假装我们没有这样做。

2016年年中,高中生卡比尔阿里(Kabir Alli)试图在谷歌上搜索“三个白人青少年”和“三个黑人青少年”,结果比你想象的还要糟糕。

“三个白人青少年”展示魅力和运动青少年;“三个黑人青少年”展示了新闻报道中三个黑人青少年被捕的照片。(现在,大多数搜索结果都是关于该事件的新闻报道。)

这不是因为谷歌算法的偏见:而是因为底层数据的偏见。这种特殊的偏见是“隐形白人主义”和媒体偏见的结合:如果三名白人青少年因犯罪被捕,不仅新闻媒体不太可能展示他们的照片,而且他们也不太可能故意暗示他们是“白人青少年”。事实上,几乎所有的青年团体都被清楚地标记为“白色”,这可以从摄影产品目录中看出。然而,如果三名黑人青少年被捕,你可以在上述新闻报道中找到判决。

许多人对这些结果感到震惊,因为它们似乎不符合我们国家对“种族盲”社会的概念。(请记住,这是在2016年年中)但基本数据非常清楚:当人们在媒体上用高质量的图像说“三个黑人青少年”时,他们几乎总是把他们说成罪犯,而当他们谈到“三个白人青少年”时,他们几乎都是广告摄影。

事实上,这些偏见确实存在于我们的社会中,它们几乎反映在你看到的任何数据中。在美国,如果你的数据没有显示出某种种族倾向,那么很可能你做错了什么。如果您手动“忽略种族”,不允许种族成为模型的输入特征,它将从后门进入:例如,某人的邮政编码和收入可以非常准确地预测他们的种族。一个不把种族视为一个因素的多元线性模型和一个预测我们社会中实际上与种族相关的事物所需的多元线性模型将很快把它视为“最佳规则”。

人工智能模型在我们面前举着一面镜子。他们不明白我们什么时候不想诚实。只有我们告诉他们如何提前撒谎,他们才会礼貌地和解。

这种诚实会迫使你非常清楚。最近的一个例子是一篇关于“单词删除”的技术论文。它是关于一个非常流行的名为word2vec的最大语言模型,它已经学习了英语单词的含义之间的各种关系。例如,“国王对男人,王后对女人”这篇论文的作者发现这个模型包含了许多社会偏见的例子:例如,“电脑程序员对于男人就像家庭主妇对于女人一样。”本文作者提出了一种消除性别偏见的方法。

这篇论文的许多普通读者(包括许多撰写相关新闻文章的人)看不到的是,没有自动消除偏见的方法。该模型的整个过程相当合理:首先,他们分析单词的两个单词向量模型,并找到沿他/她的轴(性别轴)相对分离的单词组。接下来,他们要求一组人确定哪些通信是合理的(例如,“男孩对男人是对的/女人对女人是对的”),哪些通信代表社会偏见(例如,程序员对男人是对的/家庭主妇对女人是对的)。最后,他们使用数学技术从整个模型中去除有偏见的短语,留下一个改进的模型。

这项工作非常好,但重要的是要认识到,决定应该删除哪个男性/女性差异的关键步骤是人工决定,而不是自动过程。它要求人们从字面上辨别他们认为哪些短语是合理的,哪些是不合理的。此外,原始模型产生这些差异是有原因的。它来自对来自世界各地数百万书面文本的分析。词向量之间的原始对应准确地捕捉了人们的偏见。清理后的模型准确地反映了评估者对哪些偏见应该被删除的偏好。

这里显示的危险是“自然主义的谬误”,当我们混淆“应该是什么”和“实际是什么”时就会发生。如果我们想用这个模型来研究人们的观点和行为,原来的模型是合适的。如果我们想使用这个模型来产生新的行为,并将一些意图传达给其他人,那么修改后的模型是合适的。说修订后的模型更准确地反映了世界是什么样子是错误的。说世界在某种程度上是真实的,那么它应该是真实的也是错误的。毕竟,任何模型人工智能或智能的目的都是为了做出决定。决定和行动完全是关于我们想要的世界。如果不是这样,我们就什么也不会做了。

(3)大猩猩事件

2015年7月,当我担任谷歌社会工作(包括照片)的技术总监时,我收到了谷歌同事的一条紧急消息:我们的照片索引系统公开将一个黑人和他朋友的照片描述为“大猩猩”,并且“他有理由生气”

我立即回应道。在做出一个响亮的承诺后,我打电话给团队,公开回应说情况非常糟糕。该小组采取行动禁止非法陈述和其他几个具有潜在风险的陈述,直到他们能够解决潜在的问题。

许多人怀疑这个问题与惠普的人脸摄像头六年前无法对黑人工作的问题相同:“人脸”训练数据完全由白人组成。起初我们持怀疑态度,但我们很快排除了原因:训练数据包括所有种族和肤色的人。

真正的原因是三个微妙问题的交集。

第一个问题是人脸识别非常困难。不同的面孔对我们来说看起来非常不同,因为我们大脑的很大一部分只专注于识别面孔。我们已经花了数百万年来改进这个功能。然而,如果你注意到两个不同的面孔之间的差异,并将这种差异与两把不同椅子之间的差异进行比较,你会发现面孔的相似性比你想象的要大得多,甚至是跨物种的。

事实上,我们发现错误并不是孤立的:照片索引系统也很容易将白脸误认为狗和海豹。

第二个问题是问题的真正核心:移动学习系统在它自己的领域非常聪明,但是它对更广阔的世界一无所知,除非它被教导。然而,当它试图考虑图片中所有可能被识别的物体时,这个人工智能不仅识别人脸,而且没有人想向它解释黑人因为歧视而长期被比作猿人。这种背景使这个错误变得非常严重,把孩子误认为海豹只是一件有趣的事情。

这个问题没有简单的答案。当处理涉及人类的问题时,错误的代价通常与极其微妙的文化问题联系在一起。这并不是说很难解释,而是很难提前想到它们。

这个问题不仅反映在人工智能上,也反映在不同文化中人们做出价值判断的需要上。一个特殊的挑战来自于网上骚扰和虐待。这些问题几乎完全由人类来处理,而不是人工智能,因为即使是人类用来判断这些事情的规则也很难制定。我在谷歌呆了一年半来制定这样的规则,我认为这是我面临的最大智力挑战之一。

即使一个团队提出了由人类而不是人工智能执行的规则,文化障碍也是一个大问题。印度的批评家不一定有美国种族歧视的文化背景,美国人也不一定有印度文化背景。但是世界上文化的数量是巨大的:你如何以一种任何人都能理解的方式表达这些想法?

吸取的教训是,系统中最危险的风险通常不是来自系统内部的问题,而是来自系统与更广泛的外部世界互动的意想不到的方式。我们没有很好的方法来管理这些。

(4)不幸的是,人工智能会照你说的做。

人工智能的一个重要用途是帮助人们做出更好的决定:它不是直接执行一个操作,而是告诉人们推荐哪一个,从而帮助他们做出一个好的选择。这是最有价值的,尤其是当这些选择是高风险的时候。然而,真正影响这一长期结果的因素对人们来说并不明显。事实上,如果没有清晰有用的信息,人类很容易接受无意识的偏见而不是真实的数据。这就是为什么许多法院已经开始使用自动“风险评估”作为其量刑指南的一部分。

现代风险评估是最大似然模型,它负责预测未来犯罪的可能性。如果你用一个地区法院历史的所有语料库训练这个模型,你可以形成一个惊人清晰的显示,告诉你谁是潜在的危险因素。

如果你到目前为止一直仔细阅读,你可能会找到一些方法来达到这个目标。这些方法可能是可怕和错误的。然而,正如ProPublica在2016年透露的,这正是全国正在发生的事情。

在佛罗里达州布劳沃德县使用的COMPAS系统的设计者遵循最佳实践原则。他们确保他们的训练数据不会人为地偏向某个群体,例如,确保所有种族都有相同的训练数据。他们把种族排除在模型的输入特征之外。只有一个问题:他们的模型不能预测他们认为应该预测什么。

判刑风险评估模型应该问的问题是,“这个人将来犯下严重罪行的概率是多少,这与你现在对他们的惩罚有关?”这也应该考虑到这个人的影响和对他未来生活的惩罚:这会导致他们被永远监禁吗?释放他们后就没有机会找到稳定的工作了吗?

但是我们没有每次犯罪都会熄灭的魔法之光,我们当然也没有这样的例子:一个人同时受到两种不同的惩罚结果,并产生两种不同的后果。因此,COMPAS模型是通过模拟真实且难以获得的数据来训练的:根据我们在判决时所知道的一个人的信息,这个人被定罪的概率是多少?或者用两个人来比较:“这两个人中哪一个在将来最有可能被定罪?”

如果你对美国政治有所了解,你可以立即回答这个问题:“黑人!”黑人比白人更有可能在路上被拦截、逮捕、定罪,并被判比白人更长的刑期。因此,忽略其他绝对的死亡事实,一个查找历史数据的最大似然模型(ML model),如果它预测黑人被告将来更有可能被定罪,从历史的角度来看,这绝对是一个相当准确的预测。

然而,这种模式的训练方法与其实际目的并不一致。它被训练回答“谁更有可能被定罪”,但它被问及“谁更有可能犯罪”,没有人注意到这是两个完全不同的问题。

显然这里有很多问题。第一,法院过于依赖人工智能模型,并将其视为判断的直接因素。它跳过了人们的判断,比任何其他模型都更有信心。当然,另一个问题是暴露出来的基本和系统的种族主义:黑人更有可能因同样的罪行被逮捕和定罪。

但是关于毫升有一个特别的问题值得注意:你想测量的数量和你能测量的数量之间经常有差异。当两者之间存在差异时,您的最大似然模型可以很好地预测您测量的量,而不是它实际代表的量。在你信任你的模型之前,你需要非常仔细地理解这些相似和不同之处。

(5)人是理性的动物

在机器学习的讨论中有一个新的热门话题:“解释权”。这意味着如果最大似然法被用于做出任何重要的决定,人们有权理解这些决定是如何做出的。

直觉上,这似乎是一个显而易见且有价值的想法。然而,当M1专业人员提到这一点时,他们的面部表情立即发生了变化,他们几乎不可能解释这一要求。

为什么会这样?

首先,我们应该理解为什么很难做到这一点;其次,更重要的是,我们应该理解为什么我们期望它是容易的,为什么这种期望是错误的。第三,我们可以看看我们能做些什么。

早些时候,我把M1模型描述为亿万个旋钮。这个类比对实际模型的复杂性不公平。例如,现代基于最大语言的语言翻译系统一次只能输入一个字母。这意味着在阅读了大量的字母后,模型必须表达文本的理解状态,以及每一个连续的下一个字母如何影响其对意义的解释。

对于模型遇到的任何情况,唯一的“解释”是:“好吧,下面成千上万的变量都处于这种状态,然后我看到字母“C”,这将改变用户谈论狗的概率.

你不仅不明白这一点,医学研究者也很难理解。调试M1系统是这个领域最困难的问题之一,因为随时检查变量的个体状态,然后向你解释模型就像测量一个人的神经潜能,然后告诉你他们大约在同一时间吃饭。

然而,这是第二部分我们总是觉得我们可以解释我们自己的决定,这是人们期望的那种解释。"考虑到他们的FICO得分中值,我把抵押贷款利率定为7.25% . "他们期望它说:“如果益百利的FICO分数高35分,那么分数将降至7.15%。”"我建议我们雇用这个人,因为他们在我们的面试中清楚地解释了机器学习."

但是认知心理学或行为心理学的每个人都知道一个黑暗的秘密:所有这些解释都是无稽之谈。我们是否喜欢一个人是在聊天的最初几秒钟决定的,可能会受到看似随机的事情的影响,比如握手前拿着热饮或冷饮。潜意识偏见弥漫在我们的思想中,即使我们没有意识到,也可以被测量。认知偏见是当今心理学研究中最大(也是最有趣)的分支之一。

事实证明,人们擅长的不是解释他们如何做出决定,而是为自己的决定找到合理的解释。有时,这是完全无意识的,例如,我们会在决策过程中强调一些事实(“我喜欢这辆车的颜色”),并关注这一点,忽略对我们来说可能更重要但看不见的因素(“我继父有一辆敞篷车,我讨厌我继父”)。(第一个候选人听起来像我毕业的那个女人。她很好,但是她看起来太不一样了。她不适合和我一起工作。)

如果我们期望M1系统为他们的决策提供实际的解释,那么我们会遇到很多麻烦,就像我们要求人们解释他们自己决策的实际基础一样:M1系统并不比人类更容易解释。

当我们要求解释时,我们通常对明显的事实(因为改变它们会改变结果)和变量(因为改变它们值得讨论)感兴趣。例如,“你现在看到的是招聘通知;但是如果你住在西边十英里,你会看到另一个”,这在某些情况下可能很有趣,但是“如果你是鸸鹋,你会看到毛拉的种子”,这并不有趣。

产生这种解释的数学技术正在积极发展,但也有一些不可忽视的挑战。例如,这些技术中的大多数都是建立在另一个“解释性”最大似然模型的基础上的。这个模型不是很精确,只适用于给定一些输入信息和变量很小的情况。整体更容易理解,但它是基于与前面提到的主要模型完全不同的原理。(这是因为只有几个最大似然模型(如决策树)可以被完全理解,而许多实际应用中最有用的模型(如神经网络)却不能被完全理解。这意味着如果你试图输入“不,改变这个变量”到第二个解释模型中!这种反馈,可能是将其转化为主模型输入的一种基本方式。此外,如果你给人们一个解释工具模型,他们也会要求用同样的语言修改他们的权利。这个要求是合理的,但不可行。

人脑具有处理各种概念的极其一般的智能,因此它可以解决这个问题。你可以说,谈到民族历史,你应该非常小心图像识别,因为同一个系统(大脑)可以理解这两个概念。但是人工智能还远远没有达到这个目标。

(6)人工智能归根结底是一种工具

人工智能无人机黑仔。没有这个最喜欢的例子,人工智能伦理就无法讨论。这些飞机在高空飞行,仅由计算机控制,执行杀死敌方武装分子同时维持平民生命的任务.除非他们认为这项任务需要一些官方委婉语所说的“附带损害”。

人们害怕这样的设备。如果他们更多地听那些生活在永恒死亡威胁下的人们的故事,他们将会更加害怕个从晴空中诞生的杀手。

人工智能是这一讨论的一部分,但并不像我们想象的那么重要。大型无人机和载人飞机的区别在于,它们的飞行员可以远离数千英里以外的伤害。自动驾驶仪人工智能的改进意味着无人驾驶操作者可以快速操作一架以上的飞机。最终,大型无人机99%的时间都可以自己驾驶,只有在需要做出重要决定的时候才会给人打电话。这将为更低空中动力成本的无人驾驶飞行器打开可能性,使从空中轰炸人的权力民主化。

在故事的另一个版本中,人类可能被完全排除在发射武器的“杀戮链”之外。现在我们可能会问,谁将承担完全由机器人决定的杀人的道德责任?

这个问题不仅比我们想象的简单,而且更复杂。如果有人用石头打另一个人的头,我们责怪的是那个人,而不是石头。如果他们投矛,即使矛在一定的飞行时间内是“在他们自己的力量之下”,我们也永远不会责怪矛。即使他们设置了复杂的死亡陷阱,印第安纳琼斯的任性行为也是人之常情。问题是“工具”的范围变得模糊了。

简单的事情是这个问题并不完全是新的。军事纪律的要点是建立一支战斗力量,而不是在战斗中过于自主地思考。在军队是欧洲体系的后裔的国家,军士和军士的角色是执行计划;受委托人员的责任是决定实施哪项计划。因此,理论上,决策责任完全由官员承担。根据人员的级别和指挥官对人员责任范围的明确定义决定了谁对任何指示负有最终责任。

实际上,这往往相当模糊。这些原则是我们已经知道了几千年的原则,但是人工智能并没有增加新的内容。即使拥有最大的决策权和自主权,人工智能仍然需要这种讨论。事实上,在人类世界中,我们只有在最近几十年才有足够的自主权来讨论这些问题。

也许这是人工智能伦理学的最后一次重要经历:我们在人工智能方面面临的许多问题实际上是我们过去面临的问题,这些问题现在通过一些技术变革得以揭示。在我们现有的世界中发现类似的问题通常是有价值的,可以帮助我们理解如何处理看似新的问题。

我们要去哪里?

我们仍有许多问题需要讨论,其中许多对这个社会来说是非常紧迫的。然而,我希望上面的例子和解释给你一些环境去理解什么时候事情是对的,什么时候事情是错的。以及许多人工智能道德风险的来源。

这些大多不是新问题;相反,这是一个向计算机解释我们需求的正式过程。没有文化背景,也没有能力推断我们的含义。终极案例迫使我们以违背日常习惯的方式表达我们的需求。是否要求我们在关键时刻到来前几年作出生死抉择,而不是将目前的高潮推迟到事情真正发生的时刻,或者是否要求我们长期严格审视社会的实际情况,明确表达我们想保留哪些部分,想改变哪些部分;人工智能把我们从“礼貌捏造”的舒适区推到了一个我们必须非常清楚地讨论事情的世界。

这些问题早在人工智能出现之前就已经存在了;人工智能只是让我们用一种新的方式来谈论它们。这可能不容易,但对我们来说,诚实可能是新技术带给我们的最珍贵的礼物。

youtube.com