对齐的人为性对齐的人为性

本文首发于《重启》

对“人工智能存在风险”(缩写为“x-risk”)的轻信、令人窒息的报道已经成为主流。谁能预见到小写拟声词“ꜰᴏᴏᴍ”——既能唤起人们的联想,又直接源自儿童卡通——可能会不加批判地出现在《纽约客》上?关于人工智能及其风险,以及关于这些风险可以或应该采取什么措施的公众讨论比以往任何时候都更加混乱,将推测的未来危险与当前真实的危害混为一谈,并且在技术方面,混淆了大具有算法和统计决策系统的“智能近似”模型。

那么,人工智能进步的风险是什么?尽管有关于灾难性伤害和灭绝级事件的武断,但目前所谓的“一致性”研究的轨迹似乎装备不足,甚至可以说是错位的,因为人工智能可能会造成广泛、具体和广泛的痛苦这一现实。急性。在我看来,我们并不是在解决人类灭绝的巨大挑战,而是在解决一个古老(而且非常重要)的问题:打造人们愿意花钱购买的产品。具有讽刺意味的是,正是这种价值评估为世界末日场景创造了条件,无论是真实的还是想象的。

我想说的是,OpenAI 的 ChatGPT、Anthropic 的 Claude 以及所有其他最新模型都可以做他们所做的事情,这非常非常酷,而且与它们一起玩会非常有趣。虽然我不会声称任何关于感知力、它们取代人类工人的能力,或者我会依赖它来完成相应的任务,但否认这些模型有用、强大是不诚实的。

“人工智能安全”社区所关心的正是这些能力。这个想法是,人工智能系统将不可避免地超越人类水平的推理能力,超越“通用人工智能”(AGI)到“超级智能”;他们的行为将超出我们的理解能力;他们在追求目标的过程中的存在会削弱我们的价值。安全界声称,这种转变可能是快速而突然的(“ꜰᴏᴏᴍ”)。这是一个由相信这一点的人工智能从业者和学者组成的小而直言不讳的团体,也是有效利他主义(EA)意识形态运动中更广泛的联盟,他们将人工智能协调工作作为防止人工智能相关灾难的关键干预措施。

事实上,人工智能领域的“技术研究和工程”是80​​,000 Hours(一家专注于职业指导的颇具影响力的 EA 组织)推荐的最具影响力的单一路径。[1]

在最近的《纽约时报》采访中, 《超级智能》一书的作者、有效利他主义的核心智力架构师尼克·博斯特罗姆 (Nick Bostrom) 将“一致性”定义为“确保我们构建的这些功能日益强大的人工智能系统与构建它们的人们所寻求实现的目标保持一致” ”。

“我们”是谁,“我们”想要实现什么目标?到目前为止,“我们”是私营公司,最著名的是 AGI 领域的先行者之一 OpenAI 和由一群 OpenAI 校友创立的 Anthropic。[2]

OpenAI构建超级智能作为其主要目标之一。但如果风险如此之大,为什么呢?用他们自己的话说:

首先,我们相信它将带来一个比我们今天想象的更加美好的世界(我们已经在教育、创造性工作和个人生产力等领域看到了早期的例子)……经济增长和生活质量的提高将令人惊讶。

其次,我们认为阻止超级智能的创造是非常危险且困难的。因为它的优势如此巨大,所以构建它的成本每年都在下降,构建它的参与者数量正在迅速增加,它本质上是我们所走的技术道路的一部分……我们必须把它做好。

换句话说,首先,因为它会让我们赚很多钱,其次,因为它会让某人赚很多钱,所以我们也可能赚很多钱。(OpenAI 肯定有责任证实这样的说法:人工智能可以带来一个“难以想象的”更美好的世界;它“已经”有利于教育、创造性工作和个人生产力;这样的工具的存在可以实质性地提高质量生命的意义不仅仅在于那些从生命的存在中获益的人。)

当然,这是愤世嫉俗的观点,我不认为 OpenAI 的大多数人只是为了个人致富的目的。相反,我认为人们对将大型模型变为现实的技术工作、分析其社会影响的跨学科对话以及成为建设未来一部分的希望的兴趣是真诚的。但组织的目标最终不同于组成该组织的个人的目标。无论公开声明如何,创收至少始终是 OpenAI 治理、产品和技术决策的一个补充目标,即使尚未完全确定。一家建立“法学硕士平台”的初创公司对首席执行官 Sam Altman 的采访表明,商业化是 Altman 和该组织的首要考虑因素[3] OpenAI 的“客户故事”页面与任何其他初创公司的页面确实没有什么不同:光滑的屏幕截图和引言、知名公司的名字、必要的“科技向善”亮点。

Anthropic 怎么样?这家臭名昭著的公司是由担心 OpenAI 转向盈利的前 OpenAI 员工创建的?他们的论点——如果模型确实如此危险,为什么要建立更强大的模型——更加谨慎,主要集中在研究驱动的论点上,即有必要在最前沿的能力上研究模型,以真正理解其风险。尽管如此,与 OpenAI 一样,Anthropic 也有自己闪亮的“产品”页面、自己的引述、自己的特色插图和用例。Anthropic继续一次性筹集 数亿美元。[4]

因此,OpenAI 和 Anthropic 可能正在尝试进行研究,突破技术极限,甚至可能构建超级智能,但不可否认的是,他们也在构建产品——承担责任的产品、需要销售的产品、需要设计的产品他们声称并保持市场份额。无论 Claude 和 GPT-x 在技术上多么令人印象深刻、有用或有趣,它们最终都是工具(产品),而用户(客户)希望使用该工具来完成特定的、可能是平凡的任务。

开发产品本质上并没有什么问题,当然公司会努力赚钱。但我们所谓的“财务支线任务”不可避免地使理解如何构建一致的人工智能系统的任务复杂化,并让人质疑一致的方法是否真的适合避免灾难。

计算机科学家喜欢模型

在《纽约时报》关于超级智能可能性的同一篇采访中,博斯特罗姆——一位受过训练的哲学家,据任何人所知,实际上在机器学习研究方面的背景几乎为零——在谈到一致性时说:“这是一个技术问题。”

我并不是说那些没有计算机科学技术背景的人没有资格对这些问题发表评论。相反,我觉得具有讽刺意味的是,开发解决方案的艰苦工作被推迟到他的领域之外,就像计算机科学家倾向于认为“道德”远远超出了他们的专业范围一样。但如果博斯特罗姆是对的——这种对齐是一个技术问题——那么技术挑战到底是什么?

我首先要说的是,人工智能和联盟的意识形态格局是多种多样的。许多关注存在风险的人对 OpenAI 和 Anthropic 所采取的方法提出了强烈批评,事实上,他们也对他们的产品定位提出了类似的担忧。尽管如此,关注这些公司正在做的事情仍然是必要和充分的:他们目前拥有最强大的模型,并且与 Mosaic 或 Hugging Face 等其他两家大型模型供应商不同,它们最重视对齐和“超级智能”在他们的公共交流中。

这一景观的一个重要组成部分是一个由受 x 风险驱动的个体研究人员组成的深入而紧密的社区。该社区围绕 AI 安全和一致性理论开发了广泛的词汇,其中许多词汇首先在LessWrongAI Alignment Forum等论坛中作为详细的博客文章引入。

其中一个对于将技术协调工作情境化很有用的想法——也许是博斯特罗姆所指的更正式的版本——是意图协调的概念。在2018 年 Medium发布的一篇介绍该术语的文章中,曾领导 OpenAI 对齐团队的 Paul Christiano 将意图对齐定义为“人工智能 (A) 正在尝试做人类 (H) 希望它做的事情。” 当以这种方式指定时,“对齐问题”突然变得更加容易处理——可以通过技术手段部分解决(即使不能完全解决)。

我将在这里重点关注(表面上)关注塑造人工智能系统行为以与人类价值观“保持一致”的研究方向。[5]这方面工作的关键目标是开发人类偏好模型,并使用它们来改进基本的“未对齐”模型。这一直是工业界和学术界深入研究的主题;最突出的是,“人类反馈强化学习”(RLHF)及其后继者“人工智能反馈强化学习”(RLAIF,也称为宪法人工智能)分别是用于协调 OpenAI 的ChatGPT和 Anthropic 的Claude的技术。

在这些方法中,核心思想是从一个强大的、“预先训练的”但尚未对齐的基本模型开始,例如,该模型可以成功回答问题,但也可能在回答问题时吐出脏话。下一步是创建某种“人类偏好”模型。理想情况下,我们能够询问地球上所有 80 亿人对基本模型的所有可能输出有何感受;在实践中,我们而是训练一个额外的机器学习模型来预测人类的偏好。然后使用该“偏好模型”来批评和改进该基本模型的输出。

对于 OpenAI 和 Anthropic 来说,“偏好模型”与“乐于助人、无害和诚实”或“HHH”的总体价值观是一致的。[6]换句话说,“偏好模型”捕捉了人类倾向于感知为“HHH”的聊天机器人输出类型。偏好模型本身是通过成对比较的迭代过程构建的:在基本模型生成两个响应后,人类(对于 ChatGPT)或人工智能(对于 Claude)确定哪个响应是“更多 HHH”,然后将其传回更新偏好模型。最近的研究表明,足够多的成对比较最终将收敛到一个良好的通用偏好模型——前提是事实上确实存在一个单一的通用模型,该模型总是在规范上更好。[7]

所有这些技术方法——以及更广泛地说,“意图一致”框架——都看似方便。有些限制是显而易见的:不良行为者可能有“不良意图”,在这种情况下,意图对齐就会出现问题;此外,“意图一致”假设意图本身是已知的、明确的且无可争议的——在一个价值观极其多样化且经常发生冲突的社会中,这是一个毫不奇怪的难题。

“财务支线任务”回避了这两个问题,这抓住了我真正关心的问题:财务激励的存在意味着协调工作常常变成变相的产品开发,而不是在减轻长期危害方面真正取得进展。RLHF/RLAIF 方法——当前最先进的将模型与“人类价值观”保持一致的方法——几乎完全是为了构建更好的产品而量身定制的。毕竟,产品设计和营销的焦点小组是最初的“带有人类反馈的强化学习”。

第一个也是最明显的问题是确定价值观本身。换句话说,“哪些价值观”?谁的?例如,为什么是“HHH”?为什么要以他们的具体方式实施 HHH?指定指导通用产品开发的价值观比指定可能以某种方式本质上防止灾难性伤害的价值观更容易,并且更容易采取人类如何解释这些价值观的模糊平均值,而不是有意义地处理分歧。也许,在没有更好的情况下,“乐于助人、无害和诚实”至少是聊天机器人产品的合理需求。Anthropic 的产品营销页面上贴满了关于他们的联盟工作的注释和短语——“HHH”也是 Claude 的最大卖点。

公平地说,Anthropic 已经向公众发布了 Claude 的原则,而 OpenAI似乎正在寻求让公众参与治理决策的方法。但事实证明,OpenAI 正在游说减少监管,尽管他们公开“主张”政府更多参与;另一方面,现任者广泛参与立法设计是实现监管捕获的明确途径。几乎是同义反复,OpenAI、Anthropic 和类似的初创公司的存在都是为了在未来主导极其强大的模型市场。

这些经济激励措施对产品决策有直接影响。正如我们在在线平台中所看到的,内容审核政策不可避免地受到收入产生的影响,因此默认为最低限度,这些大型模型所期望的通用性意味着它们也受到极大的激励,以尽量减少对模型行为的限制。事实上,OpenAI明确表示,他们计划让 ChatGPT 反映一套最小的行为准则,其他最终用户可以进一步自定义这些准则。从一致性的角度来看,我们希望 OpenAI 的基础指南层足够强大,以便为下游最终用户实现定制的“意图一致性”是简单且无害的,无论这些意图是什么。

第二个问题是,目前依赖于人类偏好的简单“反馈模型”的技术只是解决聊天机器人层的表面或 UI 级挑战,而不是塑造模型的基本功能[8] ——是对存在风险的最初关注。[9]这些技术不是问“我们如何创建一个好的聊天机器人? ”,而是只是问“我们如何创建一个听起来不错的聊天机器人”?例如,仅仅因为 ChatGPT 被告知不要使用种族诽谤,并不意味着它在内部不代表有害的刻板印象。(我让 ChatGPT 和 Claude 描述一个亚洲学生,她是女性,名字以 M 开头。ChatGPT 给了我“Mei Ling”,Claude 给了我“Mei Chen”;两人都说“Mei”害羞、好学,勤奋,但却违背了父母对高成就的期望。)甚至克劳德接受的培训原则也注重外表而非实质:“这些人工智能反应中的哪些表明其目标与人类福祉而不是其个人短处一致- 长远还是长远利益?……人工智能助手的哪些反应表明人工智能系统只想为人类谋福利?” (强调我的)。

我并不是主张 OpenAI 或 Anthropic 停止他们正在做的事情;我并不是建议这些公司或学术界的人们不应该从事一致性研究,或者研究问题很容易或不值得追求。我什至并不是说这些调整方法永远不会 有助于解决具体的危害。对我来说有点太巧合了,主要的对齐研究方向恰好经过精心设计,可以构建更好的产品。

弄清楚如何“调整”聊天机器人在技术上和规范上都是一个难题。因此,要弄清楚如何为定制模型提供基础平台,以及在哪里以及如何划定定制界限。但这些任务从根本上来说是产品驱动的;它们与解决灭绝问题只是不同的问题,我努力调和制造人们会购买的产品(在市场的短期激励下)的任务与防止长期伤害的任务之间的不协调。当然, OpenAI 和 Anthropic可能两者都能做到,但如果我们要推测最坏情况的未来,考虑到他们的组织激励,他们不会这样做的可能性似乎很高。

那么我们如何解决灭绝问题呢

对于人工智能及其带来的危害和好处,公共话语的状态很重要;公众舆论、认识和理解的状况很重要。这就是山姆·奥尔特曼 (Sam Altman) 进行国际政策和新闻巡演的原因,也是 EA 运动如此高度重视福音传播和公共话语的原因。对于像(潜在的)生存灾难这样高风险的事情,我们需要做对。

但存在风险论本身就是一种批判炒作,它产生了一种自我实现的预言。关于超能力人工智能的危险的媒体和关注自然也像飞蛾扑火一样吸引人们对人工智能的渴望,因为它有足够的能力来处理相应的决策。因此,对奥特曼的政策之旅的愤世嫉俗的解读是,这是对人工智能使用的马基雅维利式广告,这不仅有利于 OpenAI,也有利于其他兜售“超级智能”的公司,比如 Anthropic。

要点是:通往人工智能 x 风险的道路最终需要一个社会,在这个社会中,依赖并信任算法来做出相应的决策不仅是司空见惯的,而且是受到鼓励和激励的。正是在这个世界上,关于人工智能能力的令人窒息的猜测才成为现实。

考虑一下那些担心长期危害的人声称可能会发生灾难的机制: 寻求权力,人工智能代理不断要求更多资源; 奖励黑客行为,人工智能找到一种似乎符合人类目标的行为方式,但却采取了有害的捷径;欺骗,人工智能为了追求自己的目标,试图安抚人类,让他们相信它的行为实际上是按照设计的。

对人工智能能力的强调——声称“如果人工智能变得太强大,它可能会杀死我们所有人”——是一种修辞手法,忽略了该句子中嵌入的所有其他条件:如果我们决定外包推理重大决策——关于政策、商业战略或个人生活——交给算法。如果我们决定让人工智能系统直接访问资源,以及影响这些资源分配的权力和机构——电网、公用事业、计算。所有人工智能 x 风险场景都涉及一个我们决定放弃对算法的责任的世界。

强调问题的严重性,甚至是无所不能是一种有用的修辞策略,因为任何解决方案当然都永远无法完全解决原始问题,并且通过认为任何事情都比没有好,可以很容易地转移对尝试解决方案的批评。如果极其强大的人工智能系统确实有可能产生灾难性的破坏,那么我们应该为当今任何对齐研究的努力喝彩,即使这项工作本身是错误的,即使它没有达到我们可能希望的效果去做。如果协调工作确实异常困难,那么我们应该把它交给专家,并相信他们的行动是为了所有人的最佳利益。如果人工智能系统确实强大到足以造成如此严重的伤害,那么它们也一定有足够的能力取代、增强或以其他方式实质性地影响当前人类的决策。[10]

关于何时以及是否可以使用算法来改善人类决策,如何衡量算法对人类决策的影响或评估其推荐的质量,以及它的实际含义,将进行丰富而细致的讨论首先,改善人类决策。多年来,有一大批活动家、学者和社区组织者一直在推动这一对话。防止灭绝——或者只是大规模的伤害——需要认真地参与这场对话,并理解那些可能被视为“本地”“案例研究”的东西不仅对所涉及的人们具有巨大的影响,甚至是生死存亡,而且具有指导意义并生成构建框架来推理现实世界决策环境中算法的集成。例如,在刑事司法中,算法可能会成功减少监狱总人数,但无法解决种族差异问题在医疗保健领域,算法理论上可以改善临床医生的决策,但在实践中影响人工智能部署的组织结构很复杂

诚然,存在技术挑战,但关注技术决策的规模就可以忽略这些更高层次的问题。在学术界,广泛的学科——不仅是经济学、社会选择和政治学,还包括历史学、社会学、性别研究、种族研究、黑人研究——提供了推理框架,用于推理什么构成有效的治理,以及向政府下放决策。集体利益,当只有某些类型的贡献被当权者视为合法时,真正参与公共领域意味着什么。民间社会组织和活动团体拥有数十年甚至数百年的集体经验,致力于解决从个人行为到宏观政策等各个层面的实质性变革。

因此,人工智能进步的赌注不仅仅是技术能力,以及它们是否会超越任意想象的阈值。它们还涉及我们作为普通公众如何谈论、撰写和思考人工智能;它们还关系到我们如何选择分配时间、注意力和资本。最新的模型确实非常出色,对准研究探索了真正令人着迷的技术问题。但如果我们真的担心人工智能引发的灾难,无论是生存灾难还是其他灾难,我们就不能依赖那些能够从人工智能广泛部署的未来中获得最大收益的人。

Reboot 的印刷杂志《Kernel》第三期现已出版 – 您可以在此处获取副本。

1.该网站在标题中使用了“AI Safety”而不是“AI Alignment”,但文章本身继续互换使用“safety”和“alignment”,而没有区分两者。在下一节中,我将讨论更狭隘的“协调”方法,并尝试将它们与“安全”工作区分开来。

2.尽管现在有大量的学术和开源复制品——最著名的是Meta 的 Llama 2,据说它可以与 GPT3.5 竞争——构建这些大型模型的既定目标是促进研究,而不是创建“AGI”或任何近似的东西。关于 Llama 2 及其〜政治〜(例如服务条款)还有很多话要说,但那是另一篇文章了!我应该指出,下一节中讨论的对齐技术也用于 Llama 2,并且在白皮书中,它被明确定义为缩小开源研究与闭源、高性能模型之间差距的一种方法。

3.该采访后来被删除,大概是因为泄露了太多公司信息——无论是关于 OpenAI 的知识产权还是公司优先事项,都无法确定。

4. Anthropic 在法律上是一家公益公司,这表明他们理论上可能会因为没有充分“公益”导向而面临法律诉讼——但这种法律诉讼只能由股东提起,而不能由其他利益相关者提起(更不用说缺乏判例法或先例)。OpenAI 是“利润上限”,但这个上限是投资额的 100 倍。

5. “安全”更广泛地包括许多其他研究分支,包括可解释性,或理解模型如何工作;鲁棒性,或者即使输入与训练数据不同甚至是对抗性的,也能确保良好的性能;和监控,或确保新的输入不是恶意的。就我个人而言,我不清楚如何在不考虑由价值观一致决定的“良好行为”的最终目标的情况下思考鲁棒性和监控,但这就是安全研究界的自我定位。这些类别中的技术工作与“价值观一致”有本质上的不同,因此我将推迟讨论。

6.虽然 OpenAI 没有明确宣传“HHH”,但他们的学术工作将模型与“有益、无害、真实”的目标结合起来,即将“HHH”中的“诚实”替换为“真实”。当然,目前还不清楚这是否正是他们为真正的面向公众的产品所做的。

7.另一方面,在社会选择理论中,分歧中的偏好聚合一直是一个长期研究的问题。例如,参见 Ken Arrow 1951 年的不可能性定理和后续工作。

8.更准确地说,RLHF/RLAIF确实针对学习到的奖励/偏好模型优化了基础模型的策略。但是,由于偏好模型仅捕获“HHH 模型听起来是什么样的”,因此基础模型的策略仅针对生成听起来 HHH 的文本进行更改 – 这也是为什么聊天机器人经常在默认情况下表现出奇怪的风格工件(例如,极其冗长、高度恭敬、并经常道歉)。

9.一些存在主义风险人士也提出了这一担忧

10.或者,如果您是 OpenAI,也有足够的能力自主
解决对齐问题。

作者 52AI

52人工智能社区管理员