AI Agent Notes

AI Agent:人类只给AI目标,AI自己想办法完成某个研究问题。

整个图示清晰地展现了强化学习的核心循环:智能体观察环境的状态 (棋盘布局),基于其策略和目标 (赢棋) 来选择一个行动 (下一步棋),该行动改变了环境的状态,然后智能体又观察到新的状态,如此循环往复,直到游戏结束分出胜负。
通过这种方式,AI的目标(图中的“赢棋”)被转化成了一个数学问题:如何选择一系列的行动(下棋),来最大化未来能获得的累积奖励(最终得到那个+1)

强化学习 (RL) 就是一个让智能体 (Agent) 在与环境 (Environment) 的互动中,通过“试错” (Trial-and-Error) 的方式来自主学习的过程。它的学习目标是找到一个最优策略 (Policy),也就是一套决策方法,使得它从长远来看能够获得的累积奖励 (Cumulative Reward) 最多。

但是上面的问题在于需要为每一个任务训练特定的模型,而且需要大量的计算资源。能不能使用一个模型来完成所有的任务?

上面的过程就是LLM擅长的文字接龙功能。

AI Agent& LLM

优势:能够理解和利用“丰富的、人类可读的”反馈信息,而不仅仅是“稀疏的、数字化的”奖励信号,从而极大地提升了学习和纠错的效率。在下面过程中都不涉及AI的训练过程

Computer Use Operator

Mind2Web是一个从超过100个真实网站上收集的大规模、多样化的数据集。它的核心贡献是提供了高质量的训练材料,用于教导一个通用的AI智能体如何遵循指令,在任何网站上执行任务,而不仅仅是在简化的或模拟的网站上。[1]

WebArena是一个充满挑战的基准测试(Benchmark),其包含功能齐全的网站和复杂的任务,旨在公平地评估和比较不同的智能体。[2]

WebArena主要测试基于文本的能力。VisualWebArena是一个专门测试智能体多模态能力的高级基准测试。这个环境中的任务要求智能体不仅要阅读文本,还要理解视觉信息(如图片、图标和布局)才能成功。[3]

AI Agent for Model Training & Scientific Research

AIDE,是一个单一、自主的AI智能体,它的目标是接管人类工程师繁琐、耗时的“试错”工作。将整个机器学习开发过程视为一个代码优化问题,并运用树状搜索Tree Search等策略,独立地在众多可能性中寻找最佳解决方案。[4]

AutoKaggle:将复杂的任务分解,由一个多智能体系统Multi-Agent System协作完成,团队里可能有负责数据清洗、特征工程、模型训练等不同角色的“专家”。最关键的是,它强调与人类用户的协作,允许人类在各个环节介入和指导。[5]

Google Coscientist:是一个多智能体系统Multi-agent system,不同的“AI智能体”扮演不同角色(比如有的负责生成假设,有的负责验证,有的负责寻找证据),它们协同工作。能主动使用外部工具,例如调用谷歌搜索来查阅最新的网络信息。[6]

AI Agent如何根据经验调整行为

当AI行动时,现实世界会发生变化(上图中的obs),在AI下一次行动时会根据以前的经验来作出更好的决策。

RAG

RAGRetrieval-Augmented Generation)通过检索相关信息来增强生成模型的能力,使得生成的内容更加准确和有针对性。

  • 检索 (Retrieval): 当收到用户提问时,系统不会直接让大模型回答。而是先用提问的关键词,去一个外部的知识库(比如公司的内部文档、最新的网络新闻、或者像这张幻灯片里的“智能体记忆库”)中,搜索最相关的信息片段。
  • 增强 (Augmented): 将上一步检索到的相关信息,连同用户原始的提问,一起“打包”成一个新的、内容更丰富的提示(Prompt)。
  • 生成 (Generation): 将这个被增强后的提示(Prompt)发送给大模型,让它基于这些新鲜、准确的参考资料来生成最终的回答。[7]

Streambench

StreamBench第一个专门为评估LLM智能体持续改进能力而设计的基准测试。它模拟了一个在线学习环境,让智能体不断接收新的任务和反馈流,从而可以衡量其性能是否能随着时间的推移而不断增强。

Write & Reflection & Read

  • Write: 主要是数据存储,基本不用Prompt。但在执行Write操作之前,可以增加一个“重要性评估”的环节。这个环节的核心就是一个精心设计的Prompt。
  • Reflection: 核心是Prompt工程,通过Prompt引导LLM从原始数据中提炼智慧。
  • Read: 核心是RAG,通过“检索算法 + Prompt工程”的组合,利用历史智慧指导当前决策

GraphRAG:标准的RAG (检索增强生成) 方法擅长回答“具体问题”,因为它可以直接从知识库中检索到包含答案的一小部分文档。但是,当面对需要理解和总结整个文档集合的“全局性问题”时,标准RAG会失效,因为它不知道该检索哪一小块信息来回答这种开放式的问题。[8]

  • 构建实体知识图谱: 首先,用一个大型语言模型(LLM)通读所有源文档,提取出关键的实体(如人物、地点、概念),并建立它们之间的关系,形成一个网络状的知识图谱。
  • 预生成社群摘要: 接着,在图谱中自动识别出那些关联非常紧密的“实体社群”(可以理解为主题簇),然后再次使用LLM为每一个社群都预先生成一份高质量的摘要

HippoRAG:传统RAG回答复杂问题时,往往需要反复提问、多次检索(这被称为迭代式检索),就像一个新手管理员跑好几趟书架。而HippoRAG凭借其图算法,一次检索就能理清复杂的关系链,性能因此提升高达20%[9]
将RAG的“检索”从一个简单的“文本相似度匹配”任务,升级为了一个更深刻的“知识关系图遍历”任务,通过模仿人脑高效的索引机制。

AI如何使用工具

Tool Use:AI Agent使用工具的能力是其核心特征之一。通过调用外部工具,AI可以扩展其能力,完成更复杂的任务。

语言模型本身并不“执行”工具,而是“生成”一段代表工具调用的文本

它生成的这串<tool>...</tool>文本,只是一个结构化的“意图表达”。需要一个外部的控制程序Orchestrator来解析这个文本,并实际执行相应的工具调用。控制程序再去真正地调用一个天气API,并将参数传递过去。
天气API返回结果后,控制程序再将结果封装成<output>...</output>格式,发回给语言模型,让它以自然语言的形式呈现给用户。

Search Engine:AI Agent可以通过调用搜索引擎来获取最新的信息和数据。这种能力使得AI能够在动态变化的环境中保持更新。可以使用搜索到的内容运行RAG后输出。

除了上述使用的搜索引擎、API等工具使用方法外,AI也可以使用更大或者有专门功能的模型(math、code)来实现更复杂的任务。

Tool Selection

Tool Selection是指AI Agent在多个可用工具中选择最适合当前任务的工具。这个过程通常涉及以下几个步骤:

MetaTool基准[10]

  • 核心构成:MetaTool包含一个名为 ToolE 的数据集,里面有各种各样能够触发LLM使用工具的用户查询(Prompt),覆盖了单工具和多工具使用的场景。
  • 评测任务:它专门评估LLM的两种核心能力:
    • 工具使用意识:判断当前问题是否真的需要使用工具。
    • 工具选择:从众多工具中选出最合适的一个或多个。这个任务还被细分为四个更具挑战性的子任务,例如:从功能相似的工具中做选择、在特定场景下做选择、考虑工具的可靠性问题,以及选择多个工具进行组合。

OctoTools引入了三个关键组件来协同工作:[11]

  1. 标准化工具卡片 (Standardized Tool Cards):这是一个核心创新。它用一种标准化的格式来封装和描述任何工具的功能,使得添加新工具就像插拔模块一样简单。
  2. 规划器 (Planner):负责进行任务规划。它既能做宏观的“高层规划”(将复杂任务拆解成小步骤),也能做微观的“低层规划”(为每个小步骤决定具体使用哪个工具)。
  3. 执行器 (Executor):负责实际执行由“规划器”定下的工具调用指令。

更进一步的,AI还可以自己打造工具

TROVE的核心思想是让一个擅长编程的语言模型(Code LM)来扮演“工具开发者”的角色。它采用一个动态的、自我完善的流程来构建工具箱:[12]

  1. 在使用中生成 (Generate via Using):在解决实际问题的过程中,AI会识别出那些频繁被组合使用的基础操作,并尝试将它们打包成一个更高级、可复用的新函数。
  2. 成长 (Grow):将新创建的、被证明有用的高级函数加入到“工具箱”中,供后续解决其他问题时直接调用。
  3. 定期修剪 (Trim):为了防止工具箱变得臃肿,系统会定期清理,移除那些不常用、冗余或效果不佳的函数,始终保持工具箱小而精悍。

但是使用工具带来的问题是:Agent可能会因为过度相信工具而犯错。尤其是当外部知识用冲突,或者与LLM训练时获得的知识冲突时,Agent可能会错误地依赖工具的输出,而不是自己的判断。即使所有找到的资料都是正确的,不代表AI就不会犯错。

*研究什么样的外部知识比较容易说服AI*

AI能不能做计划

AI Agent的计划能力是其智能化的重要体现。通过制定计划,AI可以更有效地组织和执行任务。但是现实世界是一直变化的,AI是否有能力根据环境的变化来调整自己的计划呢?

在开发Benchmark时,有可能一些较为常见的计划任务已经被用于训练,导致模型的泛化能力不足。新的Benchmark会构建一个新的情境用于测试AI的计划能力。[13]

对于优化Agent的计划能力,自然的想法是利用试探回溯的搜索方法实现:当智能体需要做决策时,它不再是只选择一个“最好”的下一步行动。相反,它会在真实的环境中探索多个不同的行动分支,构建一个“决策树”。它会评估这些不同路径的潜在价值,然后优先沿着最有希望成功的路径继续深入探索,从而实现多步规划。[14]

但是显示世界中很多操作是无法回溯的,一种想法是构建世界模型来模拟现实世界的变化。通过这种方式,AI Agent可以在虚拟环境中进行试验和调整,然后再将这些经验应用到现实世界中。[15]


AI Agent Notes
https://yima-gu.github.io/2025/07/19/ML_Lee/AI Agent/
作者
Yima Gu
发布于
2025年7月20日
许可协议