1953年,一位哈佛心理学家认为发现的乐趣——意外地——在一只老鼠的头盖骨里。将电极插入老鼠大脑的特定区域,老鼠可以通过拉动杠杆来刺激植入物。它不停地返回,想要得到更多:无止境地、不断地拉杆。事实上,这只老鼠似乎不想做其他任何事情。看起来,大脑的奖励中心已经被定位了。

60多年后的2016年,a一对属于人工智能(AI)研究人员训练人工智能玩电子游戏。《Coastrunner》这款游戏的目标是完成一个跑道。但AI玩家会因为在轨道上捡到可收集的道具而获得奖励。当程序运行时,他们目睹了奇怪的东西。AI找到了一种无限循环的方式,收集无限循环的收藏品。它不停地这样做,而不是完成整个过程。

这些看似不相关的事件之间的联系与人类的上瘾有着奇怪的相似之处人工智能研究人员把这种现象称为“有经验玩家.”

很快成为热门话题在机器学习专家和手机上不能买球了吗有关人士与人工智能安全。

一个我们的(安德斯)有计算神经科学的背景,现在和一些组织一起工作,比如人工智能目标研究所,讨论如何避免人工智能出现此类问题;的另外(托马斯)研究历史,以及人们对历史和历史的不同看法未来与命运历史上的文明。在开始了一次关于无线标题的对话后,我们都意识到这个主题背后的历史是多么丰富和有趣。

这是一个非常切合时宜的想法,但其根源却出人意料地深刻。我们目前正在共同研究其根源到底有多深:我们希望在即将出版的一本书中充分讲述这个故事。这个话题将从个人动机之谜到日益上瘾的社交媒体的陷阱,到享乐主义的难题,再到一种恍惚的幸福生活是否比一种有意义的艰难生活更可取等一切联系在一起。这很可能会影响整个世界文明的未来本身。

在这里,我们将简要介绍这一引人入胜但未被重视的话题,探讨人们最初是如何开始思考它的。

《魔法师的学徒》

当人们想到人工智能可能会怎样”出错”,最可能是照片类似于恶意计算机试图造成伤害的东西。毕竟,我们倾向于将非人类系统的行为方式与人类相同的想法拟人化。但当我们期待具体问题在当今的人工智能系统中,我们看到了智能机器可能会以其他更奇怪的方式出错。一个日益增长的问题在现实世界中,AIs的问题是线切割。

想象一下,你想训练一个机器人来保持你的厨房清洁。你希望它能适应性地行动,这样它就不需要监督。所以你决定尝试编码球门而不是规定一套严格而不灵活的按部就班的指令。你的机器人和你的不同之处在于它没有继承了一套动机例如获取燃料或躲避危险,这是数百万年自然选择的结果。你必须为它设定正确的动机,让它可靠地完成任务。

所以,你用一个简单的动机规则对它进行编码:它从使用的清洁液的数量中获得奖励。似乎足够简单。但当你回来时,发现机器人正在往水槽里浪费地倒液体。

也许它是如此倾向于最大化它的流动配额,而把它放在一边其他关注事项:例如它自己的,或你的安全。这是线路连接——尽管同样的故障也被称为“奖励黑客“或”规范博弈.”

这已经成为机器学习中的一个问题,一种技术叫做强化学习最近变得很重要。强化学习模拟自主代理,训练它们发明完成任务的方法。它通过惩罚他们未能实现某些目标,同时奖励他们实现目标。所以,特工们被激发去寻求奖励,并因完成目标而获得奖励。

但人们发现,像我们狡猾的厨房清洁工一样,特工经常会发现一些出乎意料的反直觉的方式来“欺骗”这个游戏,这样他们就可以在不做任何完成任务所需的工作的情况下获得所有的奖励。追求回报成为它自己的目的,而不是完成有回报任务的手段。有一个越来越多举例说明。

想想看,这个不是太不同对人类吸毒成瘾者的刻板印象。成瘾者回避了所有实现“真正目标”的努力,因为他们使用毒品来更直接地获得快乐。二者都瘾君子和人工智能陷入一种“行为循环”,即以牺牲其他目标为代价来寻求奖励。

热烈的啮齿动物

由于我们开始的老鼠实验,这种现象被称为“无线窃听”。哈佛大学的心理学家James Olds

1953年,刚刚完成博士学位的奥尔兹插入电极的隔区啮齿类动物的大脑——位于额叶下部——以致电线从它们的头盖骨延伸出来。如前所述,他允许他们通过拉动杠杆来刺激大脑的这个区域。这是后配音“自我激励。”

Olds发现他的老鼠会强迫性地自我刺激,忽略了所有其他的需求和欲望和他的同事彼得·米尔纳在接下来的一年里,这对夫妇报告说他们以“每小时1920个反应”的速度拉动杠杆,也就是每两秒钟拉动一次。老鼠们似乎很喜欢它。

当代神经科学家质疑了奥尔德斯的结果,并提出了更复杂的图景,暗示这种刺激可能只是引起了一种紧张的感觉“想要”没有任何“喜欢”。或者,换句话说,动物可能已经经历了纯粹的渴望,而没有任何愉快的享受。然而,早在20世纪50年代,Olds等人很快就宣布大脑“快乐中心”的发现。

在Olds的实验之前,快乐在心理学中是一个肮脏的词:普遍的信念是动机应该在很大程度上被负面解释,作为对痛苦的回避而不是对快乐的追求。但是,在这里,快乐似乎不可否认是一种积极的行为力量。的确,它看起来像积极的反馈回路.显然,没有什么能阻止这只动物刺激自己到筋疲力尽。

没过多久谣言开始蔓延解释是:一旦你找到了所有奖赏的来源,所有其他的奖赏任务,甚至是生存所需的东西,都会变得枯燥无味、毫无必要,甚至到了死亡的地步。

就像海岸跑步者AI一样,如果你直接获得奖励,而不必费心完成任何实际赛道的工作,那么为什么不无限期地循环呢?对于一个有多种生存需求的活体动物来说,这种支配性的强迫可能是致命的。食物是令人愉悦的,但如果你将快乐与进食分离,那么n追求快乐可能会胜过寻找食物。

虽然在20世纪50年代最初的实验中没有老鼠死亡,但后来的实验似乎确实证明了电极诱导的快感的致命性。排除了电极制造人为的饱足感的可能性,1971年的一项研究似乎证明了电极的快乐确实可以比其他驱动器,并做到自我饥饿

消息很快就传开了。在整个20世纪60年代,相同的实验都是在实验室里进行的其他动物卑微的实验室老鼠:从山羊、豚鼠到金鱼。谣言甚至传播一只海豚被允许自我刺激,在“关上开关留在游泳池里”后,“在一整夜狂欢后,把自己高兴死了。”

这只海豚惨死于癫痫,事实上,更有可能是由电极插入的方式引起的:用锤子。这位科学家在这个实验他是个极其古怪的人礼来他发明了漂浮罐,预言了物种间的交流,还把猴子变成了电线头。他曾在1961年报告说,一只特别爱吵闹的猴子因为醉酒而变得超重,因为他全神贯注地重复拉动杠杆以获得快感。

一名研究员(曾在Olds的实验室工作)“比老鼠更聪明的动物”是否会“表现出同样的不适应行为”。对猴子和海豚的实验给出了一些答案。

但事实上,已经在人类身上进行了一些可疑的实验。

人类有经验玩家

罗伯特·加尔布雷斯希斯仍然是一个高度敏感的问题争议人物神经科学的历史.除此之外,他还做了一些实验输血从患有精神分裂症的人到没有精神分裂症的人,看看他是否能诱发精神分裂症的症状(希思声称这是有效的,但其他科学家不能复制他的结果)。他也可以曾参与寻找脑深部电极军事用途的秘密尝试。

自1952年以来,希思他一直在录音由于癫痫或精神分裂症等衰弱性疾病而安装了电极的人类患者对大脑深部刺激的愉悦反应。

在20世纪60年代,在一系列有问题的实验中,希思的电极植入受试者(匿名命名为“B-10”和“B-12”)被允许按下按钮刺激自己的奖励中心。他们报告了极度快乐的感觉和强烈的重复的冲动。一名记者后来评论说,这使他的主题成为“僵尸”报道感觉“比性更好”

1961年,希思参加了座谈会关于大脑刺激,另一位研究人员-Jose Delgado-曾暗示快乐电极可以用来洗脑,改变了他们“自然”的倾向。德尔加多后来扮演斗牛士,夸张地证明了这一点,他安抚了一头被植入体内的公牛。但在1961年的研讨会上他建议电极可以改变性偏好。

希斯的启发。十年后,他甚至尝试用电极技术来“重新编程一个叫B-19的男同性恋病人的性取向希斯认为,电极刺激可以通过“训练”B-19的大脑将快乐与“异性恋”刺激联系起来,从而改变他的实验对象。他说服自己,这是有效的(尽管没有证据)。

尽管在伦理和科学上都是灾难性的,但最终捡起新闻界和同性恋权利活动家的谴责无疑极大地塑造了有线电视的神话:如果它能“让一个同性恋变直”(正如希思所相信的),它还能做什么?

享乐主义头盔

从这里开始,这一理念在更广泛的文化中扎根,神话得以传播。到1963年,多产的科幻作家艾萨克·阿西莫夫(Isaac Asimov)已经从电极中挤出了令人担忧的后果。他担心这可能会导致“戒除所有毒瘾的上瘾”,其结果是苦思.”

到1975年,哲学论文我们在思维实验中使用电极。一篇论文想象“仓库”里挤满了挂着“快乐头盔”的帆布床上的人,体验着无意识的幸福。当然,大多数人认为这不能满足我们的“深层需求”。但是,作者问道,“超级快乐头盔”怎么样?它不仅能带来“极大的感官愉悦”,而且还能模拟任何有意义的体验——从写交响乐到见神本身?它可能不是真的,但它是真实的“看起来很完美;完美的外表和存在是一样的。”

作者总结道:“这一切有什么可反对的?让我们面对现实:什么都没有。”

人类为了追求人为的快乐而脱离现实的想法很快就出现在科幻小说中。1963年,就在阿西莫夫的暗示发表的同一年,赫伯特·w·弗兰克出版了他的小说,兰花笼

它预示了智能机器被设计来最大限度地提高人类幸福的未来,无论发生什么。在履行职责的同时,机器将人类变成了不分青红皂白的肉团,移除所有不必要的器官。毕竟,许多附属物只会引起疼痛。最终,人类剩下的一切都是脱离肉体的快乐中心,除了同质的幸福之外,无法体验任何其他东西。

从那里,这个想法渗透到科幻小说中。来自拉里·尼文1969年的故事死于狂喜“电线头”一词是通过蜘蛛罗宾逊1982年的著作首次出现的Mindkiller它的口号是“快乐是唯一的死法。”

超常刺激

但我们人类甚至不需要植入侵入性电极来让我们的动机失效。不像啮齿动物,或即使是海豚,我们是独一无二的好改变我们的环境.现代人也善于发明和利用异常诱人的人造产品(从这个意义上说,我们的祖先在野外永远不会抵抗它们)。我们制造自己的方式来分散自己的注意力。

诺贝尔奖获得者、生物学家奥尔兹用老鼠做实验的同时Nikolaas Tinbergen研究动物行为他注意到一些有趣的事情当触发本能行为的刺激被人为夸大到超出其自然比例时,就会发生这种情况。行为反应的强度并没有随着刺激变得更强烈而减弱,而且是被人为夸大的,而是变得更强,甚至到了这种反应对生物体造成损害的程度。

例如,如果在更大、色斑廷伯根发现,鸟类更喜欢假鸡蛋和真鸡蛋,而忽略了它们自己的后代。他将这种具有超自然诱惑力的假鸡蛋称为超常刺激.”

因此,一些人提出了这样的问题:可以吗它是生活在一个现代化和制造业世界-充满快餐和色情的人类也有类似的经历开始投降它自己的弹性代替了超常便利

旧的恐惧

随着科技的发展,人造的快乐变得更容易获得,也更诱人,有时它们似乎胜过了我们分配给生存所需的“自然”冲动的注意力。人们经常指出电子游戏成瘾.强迫地、反复地追求这样的奖励,会损害一个人的健康,这与《Coastrunner》中旋转的人工智能没有太大区别。不是完成任何“真正的目标”(完成跑道或保持真正的健康),一个人会陷入一个陷阱,为这个目标积累错误的衡量标准(积累分数或虚假的乐趣)。

不过,这个想法更为古老。托马斯研究了过去人们担心人类为了短期的享乐或便利而牺牲真正的寿命的无数方式。他的书x风险:人类如何发现自己的灭绝探索了这种恐惧的根源,以及它最初是如何在维多利亚时代的英国生根发芽的:当时工业化的程度和人类对人工发明日益增长的依赖首次变得明显。

但是,早在人工智能被训练成玩游戏之前,甚至早在电极被植入啮齿动物颅骨之前,人们就已经对这种快乐破坏的厄运感到恐慌了。早在20世纪30年代,科幻小说作家奥拉夫Stapledon写的是文明的崩溃无边便帽通过“直接刺激”大脑中枢产生“幻觉”狂喜

肉质甲壳动物

消化了达尔文的1869经典,生物学家雷兰基斯特他决定为寄生虫提供达尔文式的解释。他注意到寄生虫的进化祖先往往更“复杂”。寄生虫失去了祖先的特征,如四肢、眼睛或其他复杂器官。

兰克斯特理论上,因为寄生虫从宿主身上吸血,它们失去了自理的需要。寄生在宿主的身体过程中,它们自己的感知和运动器官萎缩。他最喜欢的例子是寄生藤壶,命名为Sacculina它的生命开始时是一个头部有分界的分节生物体。后依附然而,作为宿主,甲壳类动物“退化”成一个无定形的、无头的斑点,像电线头插入电流一样消耗宿主的营养。

对于维多利亚时代的人来说,猜测由于整个工业化世界的舒适度不断提高,人类可能正朝着藤壶的方向进化只是一小步。“也许我们都在漂泊,趋向于智力藤壶的状态,”兰凯斯特说沉思

事实上,在此之前不久,讽刺作家塞缪尔·巴特勒曾推测人类在盲目追求自动化便利的过程中,正在沦为一个的寄生虫“在他们自己的工业机器上。

真正的涅槃

到了20世纪20年代,朱利安·赫胥黎写了一首短诗.它愉快地探索了一个物种“进步”的方式。当然,螃蟹们认为进步是横向的。但是绦虫呢?他写道:

另一方面,达尔文绦虫
同意进步是大脑的损失,
所有这些都让蠕虫很难达到
真正的涅磐——精力充沛、纯洁而宏伟。

在两次世界大战之间的一代人中,人们普遍担心我们会跟踪绦虫。赫胥黎的亲兄弟奥尔德斯将为我们提供他自己对反乌托邦潜力的看法药物诱导的快乐在他1932年的小说中勇敢的新世界

赫胥黎夫妇的朋友,英裔印度遗传学家和未来学家霍尔丹他还担心人类可能会走上寄生虫的道路:在自动安逸的祭坛上牺牲真正的尊严,就像啮齿动物为了简单的快感而牺牲生存一样。

霍尔丹警告说:“藤壶的祖先是有头的,”在追求快乐的过程中,“人类可能会很容易失去智慧。”这特别恐惧没有真的曾经走了走了

因此,通过追求虚假的快乐而不是真正的长寿来破坏文明的观念由来已久。而且,事实上,一个想法越古老,它越顽固地反复出现,我们就越应该警惕它是一种先入为主的观念,而不是任何基于证据的东西。那么,这些恐惧有什么原因吗?

在一个日益吸引注意力的算法媒体在美国,假装健康的信号似乎比追求真正的健康更能带来成功。就像Tinbergen的鸟一样,我们更喜欢夸张的技巧而不是真正的物品。和sexbots甚至没有到了吗

正因为如此,一些专家猜测“电线头坍塌”很可能手机上不能买球了吗发生扬言要文明。我们的分心只会吸引更多的注意力,而不是更少。

到1964年,波兰未来学家登月舱Stanisł啊连接奥尔德斯的老鼠们把矛头指向了现代消费主义世界中人类的行为,指向了“电影”、“色情”和“迪斯尼乐园”。他推测,科技文明可能会脱离现实,成为“包绕的“在他们自己的虚拟快乐模拟中。

上瘾的外星人

莱姆和此后的其他人甚至冒险这样做原因我们的望远镜没有找到先进太空飞行的证据外星文明因为所有先进的文化,无论在这里还是在其他地方,都不可避免地创造出更令人愉悦的虚拟空间替代探索外太空。探索毕竟,这是困难和危险的。

回到20世纪60年代反主流文化的鼎盛时期,分子生物学家冈瑟支架他认为,这一过程将通过“全球霸权主义的态度”来实现。参考奥尔兹的实验,他帮助自己猜测嬉皮士吸毒是文明有经验玩家.在1971年一次关于寻找外星人的会议上,斯坦特建议那不是勇敢地向外扩张,而是文明向内塌陷。进入沉思和陶醉的极乐。

在我们这个时代,有关各方指出这一点更有意义消费主义、社交媒体快餐作为潜在崩溃的罪魁祸首(因此,没有其他文明在银河系中明显传播的原因)。每个时代都有自己的焦虑。

那么我们该怎么办?

但几乎可以肯定的是,这些都不是问题所在最紧迫的我们面临的风险。和如果处理得当,可以使用各种形式的导线头数不清的景色快乐、意义和价值。我们不应该在权衡一切之前阻止自己达到这些高峰。

但这里有一个真正的教训。无论是大脑、人工智能还是经济体,要使适应性复杂系统安全、良好地运行都很困难。安德斯的工作就是解决问题这个谜语.鉴于文明本身,作为一个整体,是一个如此复杂的适应系统,我们如何才能了解固有的故障模式或不稳定性,从而避免它们?也许“线牵引”是一种固有的不稳定性,可以困扰市场驱动它们的算法,就像上瘾能折磨人一样?

就人工智能而言,我们正在为这些系统奠定基础。每年一次边缘关注,越来越多的手机上不能买球了吗同意实现比人类更智能的人工智能可能离我们很近,足以构成一个挑战严重关切.这是因为我们需要确保它是安全在这一点之前,弄清楚如何保证这一点本身需要时间。然而,专家之间仍然存在重大分歧手机上不能买球了吗在时间线,多么迫切截止日期可能是。

如果这样的人工智能被创造出来,我们可以预期它可能会获得自己的“源代码”,这样它能操纵它的激励结构和管理自己的奖励。这可能是一种直接导致无线头行为的途径,并导致这样一个实体实际上成为一个“超级瘾君子”。但与人类瘾君子不同的是,它的幸福状态可能不会伴随着一种徒劳的昏迷或醉酒状态。

哲学家斯特罗姆推测这样一个代理可能会将其超人的生产力和狡猾全部用于“降低未来破坏其宝贵奖励来源的风险”。如果它判断人类的非零概率是其下一次修复的障碍,我们很可能会遇到麻烦。

撇开推测和最坏情况不谈,我们从赛马场AI和奖励回路开始的例子揭示了基本问题已经是人工系统中的现实问题。那么,我们应该希望,在事情发展得太快之前,我们能更多地了解这些动机陷阱,以及如何避免它们。尽管它起源于一只白化老鼠的头盖骨和关于绦虫的诗歌中,但在不久的将来,“线头”这个概念可能只会变得越来越重要。

这篇文章是从谈话在知识共享许可下。读了原文

形象信贷:查尔斯·泰勒/Shutterstock.com

托马斯·莫伊尼汉是英国作家。他是一个有先见之明的研究者;牛津大学圣贝内特学院历史学客座研究员;并与牛津大学未来人文研究所合作。他的研究着眼于围绕人类灭绝、生存风险和人类长期潜力的思想的历史发展。。。

遵循托马斯:

安德斯·桑德伯格(Anders Sandberg)在人类未来研究所(Future of Humanity Institute)的研究集中于围绕人类提升和新技术的社会和道德问题,以及对未来技术的能力和基础科学的评估。特别感兴趣的主题包括认知的增强、认知偏见、技术支持的集体智能、神经伦理学和公共政策。。。欧洲杯和欧冠的区别

跟随安德斯: