Introduction of Multi-agents system(In any task you want)
Multi-Agent System(多智能体系统)概览
- 什么是 Multi-Agent System(多智能体系统, MAS)?
多智能体系统(MAS)指由多个相对自治的 智能体(agent) 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。 它关注的并非单个智能体的最优行为,而是群体层面的组织、协调与涌现行为。 注:涌现行为即为多智能体交互协作后出现的单个智能体无法完成的行为,如:鸟群都遵循一定的规则飞行最终形成了优雅的队形可以对抗气流,而这个队形预先没有被设计过 直观理解:可把 LLM 作为多个“角色”来 模拟团队/部门协作,共同完成任务。
- 典型应用与问题类型
现实分布式问题:电网调度、智慧交通、供应链、灾害应对等——天然具备分布式、动态与不确定特性,单体系统难以兼顾全局最优与鲁棒性。
研究方向示例:generation、translation、repair、judge 等。
- 多智能体的核心概念
3.1 智能体(Agent)
在环境中 感知(Perception)—决策(Deliberation/Policy)—行动(Action) 的计算实体。
典型特性:自治性、反应性、前瞻性(主动性)、社会性(可交互)。
3.2 环境(Environment)
智能体感知与行动的客体;可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。
维度 | 定义 | 特征 / 要点 | 典型例子 | 对 agent 设计的影响 |
---|---|---|---|---|
完全可观测 vs 部分可观测 | agent 是否能在每个时刻感知环境的全部状态 | 若为完全可观测,agent 可直接基于当前状态做决策;若为部分可观测,则存在隐藏信息,agent 可能需要内部记忆与不确定性推理 | 国际象棋是完全可观测;扑克(看不到对手手牌)是部分可观测 | 在部分可观测环境中,agent 通常需要维护 belief state(对真实状态的概率分布)或内部状态模型,使策略更加复杂 |
确定性 / 随机性(Deterministic vs Stochastic / Nondeterministic) | 在给定状态 + 动作的情况下,是否有确定的下一状态 /结果,还是有多种可能 /概率分布 | 确定性环境:动作 + 当前状态唯一决定下一状态;随机 / 非确定性环境:存在多种可能转移,有概率分布 | 棋类游戏(如国际象棋)通常近似确定性;现实中的机器人操作、交通系统常有随机性 | 在随机环境里,agent 的策略要考虑期望 / 分布 / 风险,比如用概率策略、强化学习、健壮性设计 |
静态 / 动态 | agent 在作出决策 / 行动期间,环境是否可能发生变化 | 静态:在 agent 决策期间环境保持不变;动态:环境可能在 agent 思考 /行动时自行演化 | 若两方交替下棋,则在当前 agent 决策期间环境静止;交通系统是动态的,其他车辆 /行人持续变化 | 在动态环境中,agent 需具备快速响应能力、实时规划、预测未来等特性,不能长时间停留在高代价计算 |
离散 / 连续 | 环境的状态、动作、时间等是否构成离散 / 可枚举集合,还是连续 / 实数值域 | 离散环境:状态 /动作 /时间都是可枚举或离散的;连续环境:这些量在实数域或者实数区间变化 | 棋盘游戏、格子世界、回合制游戏是离散的;机器人位置 /速度 /加速度、无人机控制是连续的 | 在连续环境中,agent 通常需要用函数逼近(神经网络、控制模型)、连续策略、微分方程或连续动作优化;在离散环境中可用枚举、搜索、离散 RL 等方法 |
3.3 交互(Interaction)
形式包括 通信、协商、竞争、合作、博弈 等。
3.4 组织(Organization)
角色、层级、规范、协议与团队结构 的总和。
组成要素 | 含义 / 功能 | 常见设计方式 / 例子 | 需要考虑的问题 / 权衡 |
---|---|---|---|
角色(Roles) | 在组织里,每个 agent 扮演的功能定位与行为职责。角色抽象了行为接口与能力约束 | “Planner” 角色负责任务分解;“Executor” 角色负责执行;“Critic” 角色负责评估;“Communicator” 角色负责信息中转 | 职责要清晰,不要重叠太多,避免角色耦合过强;能力与资源分配要匹配 |
层级(Hierarchy) | 角色/agent 的上下级关系,指导控制、监督、指挥流向 | Manager/Worker 架构:高层 agent 做策略决策,低层 agent 做执行;多层嵌套(macro → meso → micro) | 层级能帮助控制复杂性、保持清晰指令流;但过多层级可能导致沟通瓶颈、延迟、中心故障 |
规范(Norms / Normative Rules) | 约定俗成或硬性规则,用来约束 agent 行为、协调冲突、确保安全 | 如“不得同时访问同一资源”、“优先响应紧急任务”、“不得跨角色越权” | 太松会混乱;太严会缺乏灵活性;需设计惩罚机制 / 合规检查机制 |
协议(Protocols / Interaction Protocols) | agent 之间如何通信、协商、交易、同步、谈判等的机制和约定 | 拍卖 (Auction)、契约网 (Contract Net)、谈判协议 (Negotiation Protocol)、共识协议 (Consensus) | 需要考虑性能(通信成本、延迟)、健壮性(异常处理、失败恢复)、表达能力(语义交互是否足够) |
团队结构(Team Structure / Coalitions / Grouping) | agent 如何被组织为子团队或协作小组,以及这些小组如何彼此协作 | 静态团队(固定组队)、动态团队(任务触发组队)、跨团队联盟 | 要适应任务需求与能力分布;动态结构增加灵活性但带来重组成本和协调开销 |
3.5 目标(Goals/Utility)
个体目标与全局社会福利可能 一致或冲突,涉及 机制设计。最终目的应指向 任务完成与效用最优。
- 系统构成与典型架构
4.1 智能体内部架构
反射式/行为式(Reactive):如 subsumption(抑制/分层行为),响应快但规划能力弱。
BDI(Belief–Desire–Intention):以信念/愿望/意图建模理性决策,适合可解释规划场景。
学习型:基于 RL/监督/自监督;在 MARL 中可共享或独立训练策略。
LLM-Agent:以 大语言模型 为核心,结合 工具调用、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。
4.2 多智能体体系结构
集中式编排(Orchestrator):中央调度(如 Planner/Router)分配任务;全局视角强,但有 单点瓶颈。
分布式协同(Peer-to-Peer):各智能体平等交互;弹性高但 协议复杂。
分层/混合式(Hierarchical/Hybrid):上层规划、下层执行;兼顾全局与局部效率。
黑板(Blackboard)/共享记忆:通过公共工作区交换假设与部分解。
4.3 通信与协调机制
通信语言/协议:早期如 KQML、FIPA-ACL;工程上常用 MQ/HTTP/gRPC 与结构化消息(JSON/Proto)。
4.4 协调方式
契约网(Contract Net)与拍卖/竞价:适合任务分派与资源竞争。
协商/投票/共识:如 Paxos/Raft 或多方投票策略。
编队/编组与角色切换:队形控制、动态角色分配。
机制设计:通过激励相容规则引导个体理性行为产生期望群体结果。
组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms) 的社会化组织。
4.5 多智能体强化学习(MARL)要点
非平稳性:他人策略变化使环境对单体呈现非静态,训练更难。
训练-执行范式:集中式训练、分布式执行(CTDE) 常见。
4.6 方法族(举例)
值分解:VDN、QMIX 将全局价值分解为个体价值。
Actor-Critic:如 MADDPG(集中式 Critic、分布式 Actor)。
对手建模/博弈学习:纳什均衡、可转移策略、元学习。
关键挑战:信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。
- LLM 驱动的多智能体范式(Main Focus)
5.1 角色分工
Planner(计划)
Researcher(检索/分析)
Coder/Executor(工具执行)
Critic/Verifier(审查校验)
Refiner(修复)
5.2 协作模式
辩论/对话式求解(Debate/Deliberation):互评提升推理稳健性。
反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。
图式编排(Graph-of-Agents):以 DAG/状态机 显式表达任务流程。
5.3 工程要点
Prompt 模板化
工具/数据库/代码执行器接入
消息路由与缓存
成本与延迟控制
安全防护(越权/数据泄露/注入)
- 经典论文/工作推荐
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
Should We Be Going MAD? A Look at Multi-Agent Debate
Reflexion: Language Agents with Verbal Reinforcement Learning
Self-Refine: Iterative Refinement with Self-Feedback
Language Agents as Optimizable Graphs (GPTSwarm)
Graph of Thoughts: Solving Elaborate Problems with LLMs