
最近,与大型代理模型(代理)有关的主题变得流行 - 如果这是人类MCP范式的快速指示,则由OpenAI启动的SDK代理以及Google发布的最新A2A协议,这所有这些都表示AI代理商的巨大潜力。但是,代理的大多数当前应用仍然是简单的“封装”或扩展LLM功能,并且与真正的通用智能生物相去甚远。当面对真实世界复合体时,代理通常会揭示基本功能不足的问题,例如计划识别,长期记忆,世界模型,自主进化和安全对齐。为了系统地应对未来产生真正普遍特工的这些挑战,Metagpt Mila与来自世界各地20家领先研究机构的47SCHORARS结合在一起,作者并发表了对基金会代理的进步和挑战的长期回顾:从智能灵感到大脑到大脑到Evoluti,在协作和安全系统上。 Paper Link: https://arxiv.org/abs/2504.01990HuggingFace Link: https://huggingface.co/papers/2504.01990Github Link: https://github.com/foundationagents/awesome-foundation-gents This paper precedes a daily paper month This research brings collective wisdom and forward thinking from many researchers, including the蒙特拉尔·米拉人工智能研究所,南南技术大学,阿贡国家实验室,悉尼大学,宾夕法尼亚州立大学阿尔扬国家实验室,伊利诺伊州伊利诺伊大学,伊利诺伊大学,伊利诺伊州伊利诺伊大学,伊利诺伊州大学科学与科学院大学,伊利诺伊大学科学和大学大学,伊利诺伊大学科学和大学,伊利诺伊大学科学和大学,伊利诺伊大学科学和大学,伊利诺伊大学科学和大学,伊利诺伊大学科学大学,伊利诺伊大学,伊利诺伊大学,大学,大学,耶鲁大学,伊利诺伊州大学理工大学,Google Deepmind和加拿大高级研究所(CIFAR)。当前的AI研究与人类大脑之间的区别,那些E首次设置并提出了基础代理概念的新框架。基础代理不是代理的特定例子,而是更大,更基本的技术蓝图和科学概念。它旨在开发一个由模块化成分组成的智能系统,例如复杂的理解,多层记忆,世界模型,奖励价值,情感动机,多模式理解和动作系统。基础代理的定义的第一部分:代理商开发认知基石的主要组成部分首先强调,强大的基础代理应该是一个复杂的系统,由许多是关键组成部分的合作组成。它了解认知科学和神经科学中的模块化大脑功能。作者解释了七个主要组成部分,它们共同构成了代理的认知结构:代理的框架(环境,环和内部结构)1。认知核心THIS是代理商的“大脑”或“中间处理器”的“大脑”,负责最高水平的决策,推理和计划。与目前依靠LLM进行“思考”的代理商不同,基础代理的认知核心可以是一个更复杂的系统,其中包括许多推理能力(例如逻辑推理,推理,推理,推理,合理理解推理)和算法的计划(例如任务衰减,结构衰减,等级目标和长期目标管理)。有必要应对不确定性,进行改进和元认知(思考自己的思维过程),并根据环境和内部状态反馈来调整动态变化的技术。它要求认知核心不仅与模式相匹配,而且还必须有深入的理解和灵活的问题来解决问题。代理推理模式2。内存内存是智能的基础。当前的代理往往只有有限的短期内存记忆(s)UCH作为及时上下文)或简单的外部矢量数据库。基础代理需要一个更复杂和多层次的内存系统,它更接近生物体。本文将探索不同类型的短期内存,长期内存和工作记忆,包括诸如情节内存,语义内存和方法内存之类的细分字段。良好的记忆提取,存储,健忘和概括机制对基础代理很重要。如何设计一个支持恒定学习,避免被遗忘的遗忘的内存系统,而无需 - 毫无疑问 - 毫无疑问。记忆的生命周期3。世界模型代理需要了解其所在环境以及其自身行为的可能后果。世界模型是动态环境的内部表示。这将有助于代理商做出预测(如果我采取行动会发生什么?),计划(我应该采取的措施来实现什么行动ve目标b?)和等效的推理(如果一开始就采取不同的措施会发生什么?)。一个有力的世界模型需要处理各种信息,例如物理定律,社会标准和其他代理商的行为,并可能会根据新的观察数据继续更新和改进。建立准确,高效和一般世界模型是实现先进智能的关键步骤。模型4的世界模型。代理的行为需要故意定向。奖励系统负责评估代理行为的表现并提供研究信号。这不仅是标量的简单奖励,还可能涉及多功能优化,内在动机(例如好奇心,pagnawant探索)和未来的价值估计。价值体系负责诊断不同状态或行动的长期价值以及指导代理的决策。如何设计可以指导代理的奖励和价值系统s确定复杂的行为,遵守人类价值并适应动态环境,是确保代理目标的一致性的主要。奖励游行5。虽然在传统AI中较少提及的情绪和动机建模,但该角色认为,模拟的情绪和人类情感的动机可以作为快速评估环境状态和组织行为技术的启发式机制。例如,“恐惧”可能是令人讨厌的行为和“好奇心”可以推动探索的局面。动机为代理提供了持续行动的自然驱动力。当然,如何适当地实施这些机制并控制AI以避免不可预测的效果,这是需要仔细探索的方向。人类情绪的类型6。了解系统代理需要通过理解系统从环境中获取信息。它不仅在处理文本,而且还在处理多人的输入和理解模态信息,例如视觉,听力和压力。了解系统需要从原始感觉数据中捕获重要功能,识别对象,理解场景,并将这些信息传递到认知核心和系统内存中。多模式融合,实时收缩和噪声和不确定性的稳定性是感知系统面临的主要挑战。人与代理人之间的理解7。动作系统的代理最终将必须通过动作系统与环境互动。这包括开发自然语言,代码实施,控制机器人的肢体,虚拟世界中的导航等。动作系统需要将认知核心决策转换为可以在环境中执行的特定操作观察结果。选择动作需要考虑可行性,效率和潜在风险。研究良好的运营技能,处理连续的动作空间以及确保安全和合作Nrollolled Action是动作系统的主要要求。相关行动概念的第2部分:代理的自动进化 - 向自主智能的过渡以拥有该规定的完整体系结构是第一步。基础代理人的关键特征之一是它避免自身的能力,也就是说,代理可以通过与环境相互作用和反思环境而无需持续的人类干预来不断学习,适应和改善其能力。本节将探讨实现自我进化的关键机制:1。优化空间)自我进化的基础是清楚确定要优化的方面。论文指出,代理的几乎所有成分都可以是优化的对象:提供策略,内存内容,世界模型的准确性,了解功能,动作技巧等。优化目标和考试明确定义为指导自我效力的基础n过程。 2. LLL作为优化纸表明,强大的大型语言模型不仅可以作为代理认知核心的一部分,而且还可以发挥优化器的作用。 LLM可以通过开发代码,更改参数并建议新的策略或结构来优化代理本身的其他组件。例如,LLM可能会研究以前的代理商的过去经验,并提出建议,以改善记忆获取算法;或提出一个代码以根据新数据更新世界模型。它基于对语言和发电能力的理解,为改善代理商的自我提供了强大的新途径。分类优化方法3。在线和离线自我完善(在线和离线自我改进)可以在不同的时间和尺度上发生:不仅可以通过基于理解来研究加强或更新世界模型来优化行为技术,从而在线改进实时环境联系,以优化行为技术;他们可以还使用收集的数据进行深入评论和模型更新,还可以在休息或专业培训阶段进行离线改进,这可能涉及修复整个认知架构,重建记忆库或使用LLM作为大型模型复发的优化器。 4。纸科学发现中的自我进化专门提到了在复杂的约会情况下自我进化的巨大潜力,例如科学发现等问题。具有自我进化能力的基础代理可以独立提出假设,设计实验,研究数据,学习新知识,并继续优化其研究技术,以加快科学探索过程。它为AI在主要科学领域的应用打开了新的想象空间。自我进化是将基础代理与大多数当前代理区分开的关键特征。它强调了独立研究和适应代理的基本能力,并建议LLM癫痫发作作为优化器之类的创新。实现出色,稳定和受控的自我进化机制是对真正的自主智力的主要挑战。第3部分:完整的考虑和进化情报 - 情报小组建筑将其愿景进一步扩展到由许多基础代理人组成的多机构系统(MAS),基本组成,结构,合作伙伴关系和MAS MAS决策机制的伙伴关系;以及构成多衰老系统(集体智能)的自主合作/竞争的群体情报现象。最后,本文系统地遵守了MAS和评估系统评估的现有方法,提供了理论基础和支持程序,以便将来对更多和应用实践进行分析。 1。大型多年龄系统模型(LLM-MAS)中的多机构系统设计,合作目标和协作规格RE塑造系统设计障碍的基础,与内部代理和一般合作机制接触的模式。合作的目的是指代理商追求的明确目标(个人,集体或竞争性),而合作规范则建立了代理商在系统中互动的政策,障碍和惯例。根据协作的目标和规范,多年龄系统可以分为三类:战略研究,建模和模拟以及协作解决方案。通过对三种类型的典型应用的分析和分类,本文探讨了多少语言模型(LLM)影响并改善了同质和异源剂的行为,相互作用和决策,并提供下一代LLM-MAS。 2。从系统角度来看,沟通和可扩展性穆拉的拓扑结构通常决定了协作的效率和上限。计划本文中有两个类别的拓扑结构:静态和动态:前者是预定的静态拓扑结构(分层,集中式和分散)结构,通常用于实现特定任务的解决方案;后者是一种动态拓扑结构,它会根据环境反馈不断更新,可以通过搜索,开发和参数等新兴算法来实现。随着代理商数量的增加,将来对多年龄系统的基于规模的程序将是一个重要的问题。 3。协作的范式借鉴了人类社会中的不同互动行为,例如达成共识,技能研究和工作工作的工作,本文探讨了许多特工从三个方面的合作:接触,形式和关系的目的。多代理协作是一项集中,以共识为中心,合作研究,迭代教学和增强性的摘要NT和以任务为中心的联系人。在代理商之间形成了不同目标和形式的联系,一种或多种指示,例如讨论,辩论,投票和谈判。随着联系人的继续,这些过程将重复决策和交互式网络,各种代理改善和更新个人记忆并共享合作知识。 4。集体智慧和MAS的出现,该小组智能的产生是一个动态和谨慎的过程。通过不断联系,戏剧逐渐发展出理解和集体记忆。各个代理,环境反馈和信息交流的异质性改善了动态接触,这对于开发复杂的社交网络和改进的决策技术至关重要。通过在共享环境中多次接触和反思的接触,代理人继续提高其推理和决策能力,从而产生了信心和战争avior,例如部分欺骗和自适应伪装。根据进化生成机制,可以将其分为基于内存和基于参数的研究研究。同时,随着MAS的演变,社会契约,组织等级制度和劳动部逐渐形成和改变代理之间的变化,从pangsoerative行为转变为复杂的社会结构。观察,理解和研究群体智能的出现是随后研究MAS的重要方向。 5.多代理作为多代理利益一直是共识,其审查范式还必须进行重大更改 - MAS的审查应重点关注代理商互动的完整性,包括主要维度,例如诸如伙伴关系在计划中的效率,信息提供质量,信息交付的质量和小组决定的绩效。由此,作者总结了MAS工作解决方案的共同基准和最新的审查方法Of总体能力:前者专注于衡量许多MGA环境中许多代理商决策协调的感知和准确性的深度;后者评估了在复杂和动态情况下,代理组的相干性和灵活性。第4部分的协作和竞争:建立AI代理商的安全和利益 - 随着基础代理的增长,潜在风险也将增加。本文的最后一部分着重于如何建立安全,控制并根据人类价值观,这也是整个AI领域面临的最基本挑战之一。 1。高级知识分子的安全威胁和步骤面临许多安全威胁,包括对手攻击,越狱和虐待,利润目标和意外接触。这些威胁可能导致代理人做出不当行为,绕过安全限制托马姆行为可以做到,偏离自动过程中的初始目标,或者导致S系统 - 级别的失败使人变得更加复杂。 Upang matugunan ang mga hamong ito, ang mga hakbang sa seguridad ng multi-level ay kailangang pag-aralan at ma-deploy, tulad ng matatag na pagsasanay upang mapagbuti ang paglaban sa mga pag-atake, pagsala at pagsubaybay sa mga mekanismo upang makita ang Nakakapinsalang nilalaman,Pormal na pag-pag-patunayan ang patunayan ang pag-ugali na sumunod sa mga mga pagtutukoy ng seguridad,disenyo ng透明度透明度upang matungan ang paglutas nag mga ngi ngih ngih ngih ngih ngi ngih ngi ngih ngih ngihi限制权限和效果。 2.对齐中的问题这是最基本的挑战:如何确保代理人的目标和行为(尤其是具有自我进化的基础代理)与人类的价值观和目标一致?它涉及一些缺乏研究,例如研究价值,理解意图和推理。本文强调了一致研究的紧急和重要性,这需要跨学科的EFF解决这个问题。 3.将来开发安全而独特的AI是一个持续的过程。未来的研究需要在许多层面上共同创建,例如技术,道德和管理。这包括开发更可靠的一致性技术,在AI安全评估中建立完整的标准,形成相应的法律,法规以及社会标准等。由于这些问题无法有效解决,无论智能多么强大,它都会带来很大的风险。内容的这一部分听起来很警报,并强调了负责任发展的重要性。关于代理商面临的安全问题的讨论:基金会代理人的重要性和挑战是通过阅读集合构成下一代普遍代理的野心来阅读整个论文。基础代理的概念是当前基于范式的LLM的深刻反思和显着的超越性。它不再将代理人视为SLLM的应用,但作为一个复杂的有机系统,由许多基本组成部分组成,例如理解,记忆,研究,理解和行动。它的主要意义在于提供一个系统的框架,强调自主权,重点关注合作与生态,并强调安全和一致。但是,意识到这一愿景也面临着巨大的挑战,例如高旋转复杂性,大量计算来源,诊断困难,自我控制问题以及重大安全性和对齐困难。作为遥远的视觉研究议程,基础代理中的这种角色是不太详细的技术指南。它清楚地指出了代理商当前研究的局限性,并指出了向更一般,自主和更安全的AI迈进的方向。基础代理人的概念提醒我们,通用人工智能的途径需要在认知建筑,研究机制,代理商的协作和瓜兰安全性TEE,需要在学科中进行联合努力。尽管这条路很长,但本文正在对Futureai经纪人进行了一种新的思维和动力,描述了一个新的情报时代,该时代由基金会代理人组成,他们可能能够一起学习,改变并与人合作。