AI Agents 的七大启示：研究与应用

近年来，基于大型语言模型（LLM）的自主代理在架构、记忆、感知、推理与行动等方面不断发展，在多个领域展现出重新定义可能性的潜力。

原文：AI Agents : Research & Applications（Accelxr）

作者：Rituals

编译：白话区块链

封面：Photo by Trophim Lapteff on Unsplash

近年来，代理（Agent）的概念在哲学、游戏和人工智能等多个领域的重要性日益凸显。从传统意义上看，代理指的是一个实体能够自主行动、做出选择并具有意图性，这些特质通常与人类联系在一起。

而在人工智能领域，代理的内涵变得更加复杂。随着自主代理的出现，这些代理能够在环境中进行观察、学习并独立行动，使得过去抽象的代理概念被赋予了计算系统的具体形式。这些代理几乎无需人为干预，展现出一种虽非意识却具备计算性意图的能力，能够做出决策、从经验中学习，并以越来越复杂的方式与其他代理或人类互动。

本文将探讨自主代理这一新兴领域，特别是基于大型语言模型（LLM）的代理及其在游戏、治理、科学、机器人等不同领域的影响。在探讨代理基本原则的基础上，本文将分析人工智能代理的架构与应用。通过这种分类视角，我们能够深入了解这些代理如何执行任务、处理信息并在其特定的操作框架中不断发展。

本文的目标包括以下两个方面：

提供对人工智能代理及其架构基础的系统性概述，重点分析记忆、感知、推理和规划等组成部分。
探讨人工智能代理研究的最新趋势，突出其在重新定义可能性方面的应用案例。

注：由于文章篇幅问题，本文编译对原文有删减。

1、代理研究趋势

基于大型语言模型（LLM）的代理发展标志着人工智能研究的重大进展，涵盖了符号推理、反应式系统、强化学习到自适应学习的多重进步。

符号代理：通过规则和结构化知识模拟人类推理，适用于特定问题（如医疗诊断），但难以应对复杂、不确定环境。

反应式代理：通过 “感知-行动” 循环快速响应环境，适合快速交互场景，但无法完成复杂任务。

强化学习代理：通过试错学习优化行为，广泛应用于游戏和机器人，但训练时间长，样本效率低，稳定性差。

基于LLM的代理：LLM 代理结合符号推理、反馈和自适应学习，具有少样本和零样本学习能力，广泛应用于软件开发、科学研究等领域，适合动态环境并能与其他代理协作。

2、代理架构

现代代理架构包括多个模块，形成综合系统。

1）档案模块

档案模块决定代理行为，通过分配角色或个性来确保一致性，适用于需要稳定个性的场景。LLM 代理的档案分为三类：人口学角色、虚拟角色和个性化角色。

角色对性能的提升角色设定可显著提升代理的表现和推理能力。例如，LLM 作为专家时回应更深入、符合语境。在多代理系统中，角色匹配促进协作，提升任务完成率和互动质量。

档案创建方法 LLM 代理档案可通过以下方式构建：

手动设计：人工设定角色特征。
LLM 生成：通过 LLM 自动扩展角色设定。
数据集对齐：基于真实数据集构建，提升互动真实性。

2）记忆模块

记忆是 LLM 代理的核心，支持适应性规划与决策。记忆结构模拟人类过程，主要分为两类：

统一记忆：短期记忆，处理最近的信息。通过文本截取、记忆总结和修改注意力机制优化，但受上下文窗口限制。

混合记忆：结合短期与长期记忆，长期记忆存储在外部数据库中，便于高效回忆。

记忆格式

常见的记忆存储格式包括：

自然语言：灵活且语义丰富。
嵌入向量：便于快速检索。
数据库：通过结构化存储，支持查询。
结构化列表：以列表或层级形式组织。

记忆操作

代理通过以下操作与记忆交互：

记忆读取：检索相关信息，支持明智决策。
记忆写入：存储新信息，避免重复与溢出。
记忆反思：总结经验，增强抽象推理能力。

研究意义与挑战

尽管记忆系统提升了智能体能力，但也带来研究挑战：

可扩展性与效率：记忆系统需支持大量信息并确保快速检索，如何优化长期记忆检索仍是研究重点。
上下文限制的处理：当前 LLM 受限于上下文窗口，难以管理庞大记忆，研究探索动态注意力机制和摘要技术来扩展记忆处理能力。
长期记忆中的偏差与漂移：记忆可能存在偏差，导致信息优先处理并产生记忆漂移，需定期更新并修正偏差以保持智能体平衡。
灾难性遗忘：新数据覆盖旧数据，导致关键信息丢失，需通过体验回放和记忆巩固技术强化关键记忆。

3）感知能力

LLM 智能体通过处理多样化的数据源提升对环境的理解与决策能力，类似于人类依赖感官输入。多模态感知整合文本、视觉和听觉等输入，增强智能体执行复杂任务的能力。以下是主要输入类型及其应用：

文本输入文本是 LLM 智能体的主要沟通方式。尽管智能体具备高级语言能力，理解指令背后的隐含意义仍是挑战。
- 隐含理解：通过强化学习调整偏好，处理模糊指令和推测意图。
- 零样本与少样本能力：无需额外训练即可响应新任务，适用于多样化交互场景。
视觉输入视觉感知让智能体理解物体与空间关系。
- 图像转文本：生成文字描述帮助处理视觉数据，但可能失去细节。
- 基于 Transformer 的编码：如 Vision Transformers 将图像转化为文本兼容的令牌。
- 桥接工具：如 BLIP-2 和 Flamingo 利用中间层优化视觉与文本对接。
听觉输入听觉感知让智能体识别声音和语音，尤其在互动和高风险场景中重要。
- 语音识别与合成：如 Whisper（语音转文字）和 FastSpeech（文字转语音）。
- 频谱图处理：将音频频谱图处理为图像，提升听觉信号解析能力。

多模态感知的研究挑战与考量：

数据对齐与整合多模态数据需要高效对齐，以避免感知与响应错误，研究集中于优化多模态 Transformer 与交叉注意力层。
可扩展性与效率多模态处理需求大，尤其处理高分辨率图像和音频时，开发低资源消耗且具扩展性的模型是关键。
灾难性遗忘多模态智能体面临灾难性遗忘，需要策略如优先级回放和持续学习来有效保留关键信息。
情境敏感的响应生成根据上下文优先处理感官数据生成响应仍是研究重点，特别是在嘈杂或视觉主导的环境中。

4）推理与规划

推理与规划模块帮助智能体通过分解复杂任务高效解决问题。类似人类，它能制定结构化计划，既可以预先构建完整计划，也能根据反馈实时调整策略。规划方法按反馈类型分类：

一些智能体执行前构建完整计划，按单一路径或多种选项执行，不修改计划。
另一些智能体在动态环境中，根据反馈实时调整策略。

没有反馈的规划

在无反馈情况下，智能体从一开始就制定完整计划并执行，不调整。包括单路径规划（按步骤执行）和多路径规划（同时探索多个选项，选择最佳路径）。

单路径推理

任务分解为顺序步骤，每一步接着下一步：

思维链（CoT）：通过少量示例，引导智能体按步骤解决问题，提升模型输出质量。
零-shot-CoT：无需预设示例，通过提示 “逐步思考” 进行推理，适用于零-shot 学习。
再提示：自动发现有效的 CoT 提示，无需人工输入。

5）多路径推理

与单路径推理不同，多路径推理允许智能体同时探索多个步骤，生成并评估多个潜在解决方案，从中选择最佳路径，适用于复杂问题，尤其在多种可能途径的情况下。

示例：

自一致性链式思维（CoT-SC）：从 CoT 提示输出中采样多个推理路径，选择频率最高的步骤，实现 “自集成”。
思维树（ToT）：将逻辑步骤存储为树结构，评估每个 “思维” 对解决方案的贡献，使用广度优先或深度优先搜索导航。
思维图（GoT）：扩展 ToT 为图结构，思维作为顶点，依赖关系为边，允许更灵活的推理。
通过规划推理（RAP）：使用蒙特卡洛树搜索（MCTS）模拟多个计划，语言模型既构建推理树又提供反馈。

6）外部规划器

当 LLM 面对特定领域的规划挑战时，外部规划器提供支持，整合 LLM 缺乏的专业知识。

LLM+P：将任务转为规划领域定义语言（PDDL），通过外部规划器求解，帮助 LLM 完成复杂任务。
CO-LLM：模型协作生成文本，通过交替选择模型生成标记，让最优协作模式自然浮现。

有反馈的规划

有反馈的规划使代理根据环境变化实时调整任务，适应不可预测或复杂的场景。

环境反馈

代理与环境交互时，根据实时反馈调整计划，保持任务进度。

ReAct：结合推理与行动提示，在互动中创建可调整计划。
DEPS：在任务规划中修订计划，处理未完成的子目标。
SayPlan：使用场景图和状态转移细化策略，提高情境感知。

7）人工反馈

通过与人类互动，帮助代理与人类价值观对齐，避免错误。示例：

内心独白：将人类反馈整合进代理规划中，确保行动与人类预期一致。

模型反馈来自预训练模型的反馈帮助代理自我检查并优化推理与行动。示例：

SelfCheck：零-shot 逐步检查器，用于自我识别推理链中的错误，并评估正确性。
Reflexion：代理通过记录反馈信号进行反思，促进长期学习与错误修正。

推理与规划中的挑战与研究方向尽管推理与规划模块提升了智能体功能，但仍面临挑战：

可扩展性和计算需求：复杂方法如 ToT 或 RAP 需要大量计算资源，提升效率仍是研究重点。
反馈整合的复杂性：有效整合多源反馈，避免信息过载，是提升适应性而不牺牲性能的关键。
决策中的偏差：优先考虑某些反馈源或路径可能导致偏差，结合偏差消除技术是平衡规划的关键。

8）行动

行动模块是智能体决策过程的最后阶段，包括：

行动目标：智能体执行多种目标，如任务完成、沟通或环境探索。
行动生成：通过回忆或计划生成行动，如基于记忆或计划的行动。
行动空间：包括内在知识和外部工具，如 API、数据库或外部模型来执行任务。例如，HuggingGPT 和 ToolFormer 等工具利用外部模型或 API 进行任务执行。

数据库与知识库：ChatDB 使用 SQL 查询来检索领域特定的信息，而 MRKL 将专家系统和规划工具整合用于复杂的推理。

外部模型：代理可能依赖非 API 模型执行专门任务。例如，ChemCrow 通过多个模型进行药物发现，MemoryBank 通过两个模型增强文本检索。

行动影响：行动根据结果可分为：

环境变化：如 Voyager 和 GITM 中的资源收集或建造结构，改变环境。
自我影响：如 Generative Agents 更新记忆或制定新计划。
任务链式：某些行动触发其他行动，如 Voyager 在资源收集后建造结构。

扩展行动空间：设计 AI 代理需要强大架构和任务技能。能力获取有两种方式：微调和不微调。

微调获取能力：

人工标注数据集：如 RET-LLM 和 EduChat，通过人工标注提升 LLM 表现。
LLM 生成数据集：如 ToolBench，通过 LLM 生成指令微调 LLaMA。
真实世界数据集：如 MIND2WEB 和 SQL-PaLM，通过实际应用数据提升代理能力。

无微调能力获取在微调不可行时，代理可通过提示工程和机制工程提升能力。

提示工程通过设计提示引导 LLM 行为，提高性能。

Chain of Thought (CoT)：加入中间推理步骤，支持复杂问题解决。
SocialAGI：根据用户心理状态调整对话。
Retroformer：结合过去失败的反思优化决策。

机制工程通过专门规则和机制增强代理能力。

DEPS：优化计划，通过描述执行过程、反馈和目标选择提升错误修正。
RoCo：根据环境检查调整多机器人协作计划。
辩论机制：通过协作达成共识。

经验积累

GITM：基于文本的记忆机制提高学习和泛化能力。
Voyager：通过自我反馈优化技能执行。

自驱进化

LMA3：支持目标重标和奖励函数，使代理在无特定任务的环境中学习技能。

微调能显著提升任务特定的性能，但需要开源模型且资源消耗较大。提示工程和机制工程适用于开源和闭源模型，但受到输入上下文窗口的限制，且需要精心设计。

3、涉及多个智能体（agents）的系统架构

多智能体架构将任务分配给多个智能体，各自专注不同方面，提升鲁棒性和适应性。智能体间的协作和反馈增强整体执行效果，并可根据需求动态调整智能体数量。然而，这种架构面临协调挑战，沟通至关重要，避免信息丢失或误解。

为促进智能体间的沟通与协调，研究关注两种组织结构：

水平结构：所有智能体共享并优化决策，通过集体决策汇总个人决策，适用于咨询或工具使用场景。
垂直结构：一个智能体提出初步解决方案，其他智能体提供反馈或由管理者监督，适用于需要精炼解决方案的任务，如数学问题求解或软件开发。

1）混合组织结构

DyLAN 将垂直和水平结构结合成混合方法，代理在同层内水平协作，并跨时间步交换信息。DyLAN 引入排名模型和代理重要性评分系统，动态评估并选择最相关的代理继续协作，表现不佳的代理被停用，形成层级结构。高排名代理在任务和团队构成中起关键作用。

合作型多代理框架通过共享信息和协调行动，聚焦各代理优势，实现互补合作以最大化效率。

合作互动分为两种类型：

无序合作：多个代理自由互动，未按固定顺序或流程，类似头脑风暴。每个代理提供反馈，系统通过协调代理整合输入并组织响应，避免混乱，通常使用多数投票机制达成共识。

有序合作：代理按顺序互动，遵循结构化流程，每个代理关注前一个代理的输出，确保高效沟通。任务快速完成，避免混乱，但需要通过交叉验证或人工干预防止放大错误。

对抗性多智能体框架

合作性框架提升效率和协作，而对抗性框架通过挑战推动智能体进化。受博弈论启发，对抗性交互鼓励智能体通过反馈和反思改进行为。例如，AlphaGo Zero 通过自我对弈改进策略，LLM 系统通过辩论和 “以牙还牙” 交换提高输出质量。尽管这种方法促进智能体适应性，但也带来计算开销和错误风险。

涌现行为

在多智能体系统中，可能出现三种涌现行为：

志愿行为：智能体主动贡献资源或帮助他人。
一致性行为：智能体调整行为以符合团队目标。
破坏性行为：智能体可能采取极端行为以快速达成目标，可能带来安全隐患。

基准测试与评估

基准测试是评估智能体表现的关键工具，常用平台包括 ALFWorld、IGLU 和 Minecraft 等，用于测试智能体在规划、协作和任务执行方面的能力。同时，工具使用和社交能力的评估也十分重要，平台如 ToolBench 和 SocKET 分别评估智能体的适应能力与社交理解。

应用

数字游戏成为 AI 研究的重要平台，基于 LLM 的游戏智能体注重认知能力，推动 AGI 研究。

游戏中的智能体感知

在视频游戏中，智能体通过感知模块理解游戏状态，主要方法有三种：

状态变量访问：通过游戏 API 访问符号数据，适用于视觉要求较低的游戏。
外部视觉编码器：使用视觉编码器将图像转为文本，如 CLIP，帮助智能体理解环境。
多模态语言模型：结合视觉和文本数据，增强智能体的适应性，如 GPT-4V。

游戏智能体案例研究

Cradle（冒险游戏）：该游戏要求智能体理解故事情节、解决谜题和导航，面临多模态支持、动态记忆和决策的挑战。Cradle 的目标是实现通用计算机控制（GCC），使智能体通过屏幕和音频输入，执行任何计算机任务，具有更大通用性。

PokéLLMon（竞技游戏）

竞技游戏因其严格规则和可与人类玩家比较的胜率，成为推理和规划性能的基准。多个智能体框架已展示出竞技表现。比如，《大型语言模型玩《星际争霸 2》：基准与链式总结方法》中的 LLM 智能体与内建 AI 进行文本版《星际争霸 2》对战。 PokéLLMon 是首个实现人类水平表现的 LLM 智能体，在《宝可梦》战术游戏中获得 49% 排位赛胜率和 56% 邀请赛胜率。该框架通过增强知识生成与一致性动作生成，避免幻觉和链式思维中的恐慌循环。智能体将战斗服务器的状态日志转化为文本，确保回合连贯性并支持基于记忆的推理。

智能体通过四种反馈强化学习，包括 HP 变化、技能效果、行动顺序的速度估算、以及技能状态效果，以优化策略并避免循环使用无效技能。

PokéLLMon 利用外部资源（如 Bulbapedia）获取知识，如类型克制和技能效果，帮助智能体更精准地使用特殊技能。此外，通过评估 CoT、Self-Consistency 和 ToT 方法，发现 Self-Consistency 显著提升胜率。

ProAgent（合作游戏）

合作游戏需要理解队友意图并预测行动，通过显式或隐式合作完成任务。显式合作效率高但灵活性较低，隐式合作则依靠预测队友策略进行适应性互动。在《Overcooked》中，ProAgent 展示了隐式合作的能力，其核心流程分五步：

知识收集与状态转换：提取任务相关知识并生成语言描述。
技能规划：推测队友意图并制定行动方案。
信念修正：动态更新对队友行为的理解，减少错误。
技能验证与执行：迭代调整计划以确保行动有效。
记忆存储：记录互动与结果以优化未来决策。

其中，信念修正机制尤为关键，确保智能体随着互动更新理解，提高情境感知和决策准确性。

ProAgent 超越了五种自我对弈和基于人群的训练方法。

2）生成型智能体（模拟）

虚拟角色如何体现人类行为的深度和复杂性？尽管早期 AI 系统如 SHRDLU 和 ELIZA 尝试自然语言交互，基于规则的方法和强化学习也在游戏中取得进展，但它们在一致性和开放互动上存在局限。如今，结合 LLM 与多层架构的智能体突破了这些限制，具备存储记忆、反思事件并适应变化的能力。研究表明，这些智能体不仅能模拟真实人类行为，还展现了传播信息、建立社交关系和协调行为的突现能力，推动虚拟角色更加逼真。

架构概述：该架构结合感知、记忆检索、反思、规划与反应。智能体通过记忆模块处理自然语言观察，根据时效性、重要性和情境相关性评估并检索信息，同时生成基于过去记忆的反思，提供关系和计划的深刻洞察。推理和规划模块则类似于计划-行动循环。

模拟结果：研究模拟了情人节派对和市长选举的信息传播，两天内市长候选人知晓度从 4% 增至 32%，派对知晓度从 4% 升至 52%，虚假信息占比仅 1.3%。智能体通过自发协调组织派对，形成新社交网络，密度从 0.167 增至 0.74。模拟展示了无需外部干预的信息共享和社交协调机制，为未来社会科学实验提供参考。

Voyager（制作与探索）：在 Minecraft 中，智能体可执行制作任务或自主探索。制作任务依赖 LLM 规划和任务分解，而自主探索通过课程学习识别任务，LLM 生成目标。Voyager 是具身终身学习智能体，结合自动课程、技能库和反馈机制，展现了探索与学习的潜力。

自动课程利用 LLM 生成与智能体状态和探索进度相关的目标，使任务逐步复杂化。智能体生成模块化代码执行任务，并通过链式思维提示反馈结果，必要时修改代码。成功后，代码存储于技能库以备后用。

Voyager 框架显著提升了技术树解锁效率，木材、石材和铁的解锁速度分别快 15.3 倍、8.5 倍和 6.4 倍，并成为唯一解锁钻石的框架。其探索距离比基准长 2.3 倍，发现新物品多 3.3 倍，展现了卓越的终身学习能力。

4、游戏领域的潜在应用

1）代理驱动的游戏玩法

多代理模拟：AI 角色自主行动，推动动态玩法。
策略游戏智能单位：代理根据玩家目标适应环境并自主决策。
AI训练场：玩家设计并训练 AI 完成任务。

2）AI增强的NPC与虚拟世界

开放世界 NPC：LLM 驱动 NPC 影响经济与社交动态。
真实对话：提升 NPC 互动体验。
虚拟生态：AI 驱动生态系统演化。
动态事件：实时管理游戏内活动。

3）动态叙事与玩家支持

自适应叙事：代理生成个性化任务与故事。
玩家助手：提供提示和互动支持。
情感响应AI：根据玩家情绪互动。

4）教育与创造

AI对手：在竞技与模拟中适应玩家策略。
教育游戏：代理提供个性化教学。
辅助创作：生成游戏内容，降低开发门槛。

5）加密与金融领域

代理通过区块链自主操作钱包、交易与交互 DeFi 协议。

智能合约钱包：支持多签名与账户抽象，增强代理自主性。
私钥管理：采用多方计算（MPC）或可信执行环境（TEE）确保安全，如 Coinbase 开发的 AI 代理工具。

这些技术为代理的自主链上交互与加密生态应用带来新机遇。

5、区块链领域的代理应用

1）验证性代理推理

链下验证是区块链研究的热点，主要应用于高复杂度计算。研究方向包括零知识证明、乐观验证、可信执行环境（TEE）以及加密经济博弈论。

代理输出验证：通过链上验证器确认代理推理结果，使代理能被外部运行并将可靠的推理结果上链，类似去中心化预言机。
案例：Modulus Labs 的 “Leela vs. the World” 使用零知识电路验证棋局动作，结合预测市场与可验证 AI 输出。

2）密码学代理协作

分布式节点系统可运行多代理系统并达成共识。

Ritual 案例：通过多节点运行 LLM，结合链上验证与投票形成代理行动决策。
Naptha 协议：提供任务市场与工作流验证系统，用于代理任务的协同与验证。
去中心化AI预言机：如 Ora 协议，支持分布式代理运行和共识建立。

3）Eliza 框架

由 a16z 开发，专为区块链设计的开源多代理框架，支持个性化智能代理创建与管理。

特性：模块化架构、长期记忆、平台集成（支持 Discord、X、Telegram 等）。
信任引擎：结合自动化 Token 交易，评估并管理推荐信任分数。

4）其他代理应用

去中心化能力获取：通过奖励机制激励工具和数据集开发，例如技能库创建与协议导航。
预测市场代理：结合预测市场与代理自主交易，如 Gnosis 与 Autonolas 支持链上预测与回答服务。
代理治理授权：通过代理在 DAO 中自动分析提案并投票。
Token 化代理：代理收入共享，如 MyShell 与 Virtuals Protocol 支持分红机制。
DeFi 意图管理：代理优化多链环境下的用户体验，自动执行交易。
自主 Token 发行：由代理发行 Token，增强 Token 的市场吸引力。
自治艺术家：如 Botto，结合社区投票与链上 NFT 铸造，支持代理创作与收益分配。
经济化游戏代理：AI Arena 等结合强化学习与模仿学习，设计 24/7 在线游戏竞技。

6、近期动态与展望多个项目正在探索区块链与 AI 的结合点，应用领域丰富。后续将专门讨论链上 AI 代理。

1）预测能力预测是决策关键。传统预测分为统计和判断预测，后者依赖专家，成本高且慢。

研究进展：
- 通过新闻检索和推理增强，大型语言模型（LLMs）预测准确率从 50% 提升至 71.5%，接近人类预测的 77%。
- 集成 12 个模型预测效果接近人类团队，展示 “群体智慧” 提升可靠性。

2）角色扮演（Roleplay）

LLMs 在角色扮演领域表现出色，结合社会智能和记忆机制，能模拟复杂交互。

应用：可用于角色模拟、游戏交互和个性化对话。
方法：结合检索增强生成（RAG）和对话工程，通过少样本提示优化表现。
创新：
- RoleGPT 动态提取角色上下文，提升拟真度。
- Character-LLM 借助传记数据重现历史人物特质，精准还原角色。

这些技术推动了 AI 在社交模拟和个性化互动等领域的应用拓展。

RPLA（Role-Playing Language Agent角色扮演语言智能体 ）的应用

以下是部分 RPLA 应用的简要列表：

游戏中的互动 NPC：打造具备情感智能的动态角色，提升玩家沉浸感。
历史人物模拟：复现历史人物，如苏格拉底或克娄巴特拉，用于教育或探索性对话。
故事创作助手：为作家、RPG 玩家及创作者提供丰富的叙事与对话支持。
虚拟表演：扮演演员或公众人物，用于互动戏剧、虚拟活动等娱乐场景。
AI 共创：与 AI 合作，创作特定风格的艺术、音乐或故事。
语言学习伙伴：模拟母语者提供沉浸式语言练习。
社会模拟：构建未来或假想社会，测试文化、伦理或行为场景。
定制虚拟伴侣：打造具有独特个性、特质与记忆的个性化助手或伙伴。

7、AI 对齐问题

评估 LLM 是否符合人类价值观是一项复杂任务，因实际应用场景的多样性与开放性而充满挑战。设计全面对齐测试需投入大量精力，但现有的静态测试数据集难以及时反映新兴问题。

目前，AI 对齐多通过外部人工监督完成，例如 OpenAI 的 RLHF（基于人类反馈的强化学习）方法，该过程耗时 6 个月，耗费大量资源以实现 GPT-4 的对齐优化。

也有研究尝试减少人工监督，利用更大的 LLM 进行审查，但新的方向是借助代理框架分析模型的对齐情况。例如：

1）ALI-Agent 框架

通过动态生成真实场景检测微妙或 “长尾” 风险，克服传统静态测试的局限性。
两阶段流程：
- 场景生成：基于数据集或网络查询生成潜在风险场景，利用记忆模块调用过往评估记录。
- 场景优化：若未发现对齐问题，通过目标模型反馈迭代优化场景。
模块组成：记忆模块、工具模块（如网络搜索）及行动模块。实验证明其能有效揭示 LLM 中未被识别的对齐问题。

2）MATRIX 方法

基于 “多角色扮演” 自我对齐方式，启发于社会学理论，通过模拟多方互动来理解价值观。
核心特点：
- Monopolylogue 方法：单一模型扮演多个角色并评估社交影响。
- 社交调节器：记录互动规则与模拟结果。
创新之处：摒弃预设规则，通过模拟互动塑造 LLM 的社会意识，并利用模拟数据微调模型以实现快速自我对齐。实验证明 MATRIX 对齐效果优于现有方法，并在某些基准测试中超越 GPT-4。

关于代理 AI 对齐的研究还有很多，可能值得单独写一篇文章。

治理与组织 组织依赖标准操作程序（SOP）来协调任务和分配责任。例如，软件公司中的产品经理使用 SOP 分析市场和用户需求，并制定产品需求文档（PRD）来指导开发过程。这种结构适用于多代理框架，如 MetaGPT，其中代理角色明确，具备相关工具和规划能力，且通过反馈优化表现。

机器人技术 基于代理的架构提升了机器人在复杂任务规划和自适应交互中的表现。语言条件下的机器人政策帮助机器人理解环境，并根据任务需求生成可执行的行动序列。

架构框架 LLM 与经典规划结合，能有效解析自然语言命令并转化为可执行的任务序列。SayCan 框架结合强化学习和能力规划，使机器人能够在现实中执行任务，确保指令的可行性和适应性。Inner Monologue 进一步提升了机器人的适应性，通过反馈调整行动实现自我修正。

示例框架 SayCan 框架使机器人在面对自然语言指令时，能评估和执行任务（如从桌子上取饮料）并确保与实际能力匹配。

SayPlan：SayPlan 通过使用 3DSGs 高效规划多房间任务，保持空间上下文感知并验证计划，确保广泛空间中的任务执行。

Inner Monologue：该框架通过实时反馈优化执行，适应环境变化，适用于厨房任务和桌面重排等应用。

RoCo：一种零-shot 多机器人协作方法，结合自然语言推理和运动规划，生成子任务计划并通过环境验证优化，确保可行性。

科学《Empowering Biomedical Discovery with AI Agents》提出了多代理框架，结合工具和专家，支持科学发现。文章介绍了五种协作方案：

头脑风暴代理
专家咨询代理
研究辩论代理
圆桌讨论代理
自主实验室代理

文章还讨论了 AI 代理的自主性级别：

Level 0：ML 模型帮助科学家形成假设，如 AlphaFold-Multimer 预测蛋白质相互作用。
Level 1：代理作为助理支持任务和目标设定。ChemCrow 用机器学习工具扩展行动空间，支持有机化学研究，成功发现新色素。

Level 2：在 Level 2 阶段，AI 代理与科学家合作完善假设，执行假设测试并使用工具进行科学发现。Coscientist 是一个基于多个 LLM 的智能代理，能自主规划、设计并执行复杂实验，利用工具如互联网、API 和与其他 LLM 的协作，甚至直接控制硬件。其能力体现在化学合成规划、硬件文档查找、高阶命令执行、液体处理、复杂科学问题解决等六个方面。

Level 3：在 Level 3 阶段，AI 代理能超越现有研究范围，推测出新的假设。尽管这一阶段尚未实现，但通过优化自身工作，可能会加速 AI 发展的进程。

8、小结：AI 代理的未来

AI 代理正在改变智能的概念与应用，重塑决策和自主性。它们在科学发现、治理框架等领域成为活跃参与者，不仅是工具，也是协作伙伴。随着技术进步，我们需要重新思考如何平衡这些代理的力量与潜在的伦理和社会问题，确保其影响是可控的，推动技术发展并减少风险。

免责声明：作为区块链信息平台，本站所发布文章仅代表作者及嘉宾个人观点，与 Web3Caff 立场无关。文章内的信息仅供参考，均不构成任何投资建议及要约，并请您遵守所在国家或地区的相关法律法规。