NEWS
新闻

特斯联智能体进化论:从专用到通用,再到超级智能体

2025年8月14日

当前,伴随大语言模型能力的不断突破,作为其能力的延展与补充,智能体正在通过多模态工具整合、复杂决策闭环、动态环境交互,弥补大模型在空间智能中的局限性,推动其从“知识提供者”向“自主行动者”角色的进化。一场聚焦开发具备自主推理与行动能力系统的全球竞逐悄然展开。如何平衡模型体量与响应速度间的关系?未来会否出现统一的智能体终极入口?日益成为行业争论的焦点。在此背景下,我们有幸邀请到特斯联集团首席科学家、特斯联国际总裁邵岭博士,共同探讨智能体的演化。


邵博士勾勒出一个三阶段的发展轨迹:从当下精于特定任务的专用智能体(Specialized Agentic AI),迈向未来具备类人跨领域推理能力的通用智能体(General Agentic AI),并最终指向理论上的超级智能体(Super Agentic AI)。在邵岭博士看来,近年来大语言模型等技术领域取得了显著进展,展现出一些通用性的曙光,但距离真正意义上的通用智能还有很长的路要走,需要克服许多基础理论和技术上的挑战。而作为迈向通用智能的必由之路,智能体在计算能力、计算速度、记忆能力等方面相对人类具有无比的优势,只要有足够的能源,机器学习技术足够先进,通用智能体可以在短时间内迁移学习任意领域的知识。


以下为访谈摘录。


1. 智能体面向未来发展将延循怎样的路径?


智能体(AI Agents)是指能够在环境中感知、理解、决策并采取行动以实现目标的系统。随着人工智能技术的飞速发展,特别是近年来生成式人工智能(Generative AI)技术的发展,智能体正在展现出越来越强大的能力和更广泛的应用前景。


从技术角度来看,未来智能体的发展将围绕着通用性、自主性、多模态、空间智能、与物理世界交互连接、自我进化等关键能力的衍化升级路径进行发展。在我们看来,智能体的未来发展大体可分为三个阶段,从面向特定任务或领域的、人工编排逻辑的专用智能体(Specialized  Agentic AI),到可以适用于广泛任务和领域的,具有强大自主推理决策能力、及空间感知和交互能力的通用智能体(General Agentic AI),并最终向理论上无所不能的、超越人类的、具有自我意识、自我进化能力的超级智能体(Super Agentic AI)发展。


2. 目前我们处于智能体发展的哪一阶段?


智能体是现阶段大家共识的热门研发方向,市面上也出现了各种各样的智能体产品。有的专注于特定领域任务,其中部分产品的能力达到甚至超过了人类的水平。如Github Copilot这类用于编写代码的智能体,虽然实际效果很不错,但只能用于编码,不能解决其他问题。有的产品利用对工具的通用使用能力,从而达到解决更多任务的目的,但这些产品的内在还不具备真正的推理决策能力。这类产品虽然通过工具使用可用于更广泛的任务,但其智能完全来自于一个预训练的生成模型,该模型使用收集的全流程操作数据训练而成,其“智能水平”由训练数据决定,而非真正的理解和推理能力。而以近期火热的Manus为代表的部分产品则使用强大的语言模型先进行任务分解,再利用专用子智能体执行子任务,其执行逻辑由人为编排设定,其产品本身还不具备真正的自主规划决策能力。


从通用性、自主性、推理决策规划能力、以及实际使用效果等多个维度来看,目前这些智能体产品基本还是属于第一阶段的专用智能体。这些产品的能力范围受到严格限制,其知识和能力尚且不具备普适性,还没有到达通用智能体的程度。


3. 各阶段智能体的标志性特征是什么?


智能体演进的三个阶段的主要特征体现在认知能力、推理预测、空间感知能力、自主性、泛化性以及自我进化等多个方面。具体来讲:


专用智能体的标志性特征在于其“深度专精”。这类智能体被设计用于解决特定领域内的特定问题,例如程序设计、自然语言处理等(如翻译、客服和编码)等。它们在预设的领域内任务上能够表现出惊人的效率和准确性,甚至远超人类专家,但能力严格局限于自身领域,缺乏跨领域迁移学习和解决新类型问题的能力。当前阶段,这类智能体以大语言模型为基础,以语言形式进行“思考”,且主要是面向数字世界,没有空间感知能力,还没有实现与物理世界的直接交互。


目前还没有实现的通用智能体则需要拥有与人类相当的、全面的认知能力。它能够理解、学习并在广泛的不同领域和任务中灵活运用知识,并能够像人类一样推理、规划、解决复杂问题、进行抽象思考,甚至创造。通用智能体的核心特征在于,具备完全自主推理和规划能力,而不仅仅是按照预设的逻辑和流程去执行,能够自主学习和适应于广泛的、未曾训练过的场景。此外,通用智能体还掌握物理法则、理解世界物体结构和空间位置关系,从而预测行为带来的结果。通用智能体还具备多模态能力,能够与物理世界交互并且具备持续进化能力。


超级智能体是一种超越“通用智能体”的、更高维度的智能体形态,目前仍然处于想象阶段,其智能水平将远超人类当前的想象。超级智能体具有远超人类的智能与不可预测的智慧形态,它将是认知维度的质变,而非仅是人类理解的“更聪明”的量变。它是一种几乎在所有认知领域都远远超越最聪明人类的更高维度的智能体,在创造力、智慧、问题解决能力和自我进化速度上都超出人类的认知范围,它的出现将重新定义“智能”本身,或将成为取代并接管人类的另外一种“物种”。


4. 向智能体的未来阶段发展,还需要哪些技术突破?


每类智能体,达到定义的理想状态,各自需要的关键技术有所不同:


专用智能体今年以来得到快速发展,主要归功于生成式AI技术的发展,特别是大语言模型及推理模型能力的快速进步,并已经出现一些有价值的实用案例。但在当前阶段,专用智能体仍然存在深度理解能力不足、结果不准确、可靠性不高、计算成本高等问题,从而导致没有在多种领域中被广泛应用。要推动专用智能体的进一步发展和普及,关键的技术突破包括深度理解、更强的推理规划、超长上下文等能力。特别是在高效的推理能力方面,需要在技术上进一步突破——目前基于长文本思维链数据训练的推理模型,其本质仍然是一种文本模式的匹配,在诸多的实际应用中暴露了推理能力的不足。另一方面,当前推理模型的推理时计算策略,导致其使用成本高昂、响应延迟高,且在面对复杂、未训练过的新问题时效果难以保证。只有在推理能力上实现突破,才能实现自主规划和有效执行。此外,优化算法和硬件以实现更节能、更低使用成本的部署和应用,也是智能体普及的一个经济性前提。


通用智能体的核心技术挑战在于赋予机器真正类似人类的理解、推理与跨领域学习能力。这需要基础理论的重大突破,使AI能够掌握并运用常识,进行深层次的因果推断。空间智能能够赋予机器感知、理解、推理并与三维物理世界交互的能力,使得机器不仅仅简单地识别物体,更能帮助机器理解物体之间的空间关系、环境的上下文以及对交互行为的影响。世界模型学习现实世界的物理规律、空间属性和因果关系。空间智能使得智能体能够进行空间推理和预测行为结果,从而更好做出自主决策。世界模型可以为具身智能提供模型支持,帮助机器人等智能实体在真实世界中自主行动。同时,持续自我学习技术对通用智能体也至关重要,可以帮助智能体在与环境交互过程中不断学习,从而不断增长智能和适应新环境,极大影响通用智能体的通用性和泛化能力。


超级智能体的本质特点是目标导向的无限可能性,它的能力对人类而言具有“魔法”特性。它需要在通用人工智能基础上实现智能的递归式自我改进,即让AI有能力指数级地提升自身智能,并且拥有对物理世界的极致操控能力。它的核心能力在于其具备“递归式自我进化的元能力”和“对物理世界的极致控制能力”,导致其智能水平的快速、指数级增长,其行为和目标可能超出人类的理解和控制范围。这需要对智能本质的理解上取得前所未有的进展,需要全新的计算范式和智能理论。


5. “通用智能体”是否是一个伪命题?如何平衡模型体量/尺寸、响应时间,和通用性之间的关系?


目前,行业内对通用人工智能或智能体还没有统一、明确的标准,不同人对“通用”一词的理解不同,行业内也因而出现了不同的预测结果。如果把通用智能体定义为“在多个领域分别达到人类水平”,那可能在不远的将来即可实现。如果把通用智能体定义成一种理想的、完美的系统,要求其能够处理几乎所有的人类的认知任务,快速学习适应任何新领域,掌握客观的物理法则、理解世界的空间结构与位置关系,与物理世界进行交互并自我学习,这个标准下的通用智能体在短期内难以实现,需要多年技术发展和重大突破。但不管基于哪种定义,将通用智能体视为一个长期的、探索性的科学目标是合理的。


现阶段对通用智能体在垂直领域的能力存在争论,主要原因还是当前的技术没有达到实现通用智能体的水平,以及错误地将人与智能体进行类比。真正的通用智能体应该具有强大的学习和泛化能力,可以快速地学习到垂直领域知识,从而有效适用于各个不同的垂直领域。另外,从系统层面也可以解决垂直领域的知识不足问题,通用智能体可以借助于记忆系统、外部知识库、工具的使用等多种方式来解决。不能以人类的跨领域能力弱的特点来类比通用智能体,智能体在计算能力、计算速度、记忆能力等方面相对人类具有无比的优势,只要有足够的能源,机器学习技术足够先进,智能体可以在短时间内学完任意领域知识。


长远来看“通用智能体”是有可能实现的。当然这个过程存在着巨大的挑战,且其最终形态可能与我们当前的想象有所差别。尽管当前技术水平还无法完全实现通用智能体所需具备的所有能力,但现阶段已经有大量相关的科研工作在开展,“多模态大模型”、“持续学习与终身学习”、“大世界模型”、“具身智能”等技术的研发,都是从不同方向去补全通用AI的能力。此外,随着大模型、生成式AI技术发展,算力、能源、算法技术的进步速度明显加快,这些因素相互作用推动技术的螺旋式进步,加速通用智能体的到来。


另一方面,“通用智能体”也不会是一个单一的、静态的、无所不知的庞大模型,更有可能的是一个基于多个强大的基础模型的动态协作系统,凭借着对世界的认知、理解,和强大推理、预测和决策能力,能够理解任务,并能动态地调用和协调众多专门优化的模型、工具、数据库和服务。模型的尺寸规模、响应时间和通用性,三者之间是相互影响的。根据scaling法则,模型的尺寸越大、使用算力越多,模型的推理能力越强,从而通用性就越好。但由于计算量的增加,响应的延迟也会增加。模型作为智能体系统的核心模块,影响整个系统的性能、通用性和响应延迟。在选择和设计时,需要根据应用场景、目标和用户需求等多种因素综合考虑。通过架构创新(混合专家MoE、模型结构创新、模型压缩等)、算法优化(推理优化、缓存、预计算等)和硬件协同(硬件加速)等技术手段,可以在这些相互冲突的目标之间找到更加优化的平衡点。


6. 未来的智能体入口会是怎样的形态,是否会出现统一的智能体入口,还是会有无处不在的轻量级智能体入口?


在未来的AGI/ASI时代,智能体入口的形式可能会是一个“无处不在的轻量级入口”和“统一智能体入口”的混合形态。这两种形态有着各自的优势、用途和应用场景,相互配合才能满足现实需求,达到最佳应用效果。


伴随技术的深入发展,AI正在融入我们生活的方方面面,每一个终端智能设备都可能成为一个与智能体交互的入口。智能终端设备可以提供各种自然的交互方式,包括语音、手势、姿态、外观、眼神等。轻量级入口能更好地适应特定情境,例如,智能耳机会根据用户的个人喜好推荐音乐,智能眼镜会根据用户正在看的物体提供相关信息。这些都是高度个性化、情境化的交互,通过无处不在的轻量级入口实现效率最高。此外,考虑到数据隐私、实时性等因素,部分智能体的功能需要直接运行在端侧设备上。这些因素决定着智能体的“能力”需要分布在各个终端设备上,其入口也因此无处不在。


统一入口同样有着重要价值,是必不可少的。首先,对于各种分散的终端智能体,需要一个统一机制来协调所有智能体的行为,实现多个设备之间任务和上下文信息的一致性。其次,对于各种终端智能体积累的大量偏好、习惯等个人数据,需要一个统一的中心化智能体来确保这些信息的一致性和安全性,并实现在不同设备上获得一致性体验。同时,对于需要多种信息、复杂推理和长期规划的复杂任务,一个集中、全面的智能体系统可以更有效地完成。


7. 面向未来,继大模型、智能体之后是否还会出现AI的全新形态?


从当前的狭义人工智能(ANI),到未来的通用人工智能(AGI)/超级人工智能(ASI)时代,AI的技术水平和形态无疑会经历多种变化。大模型和智能体是当前AI发展的热点,它们极大地拓展了AI的能力和应用范围,但它们可能只是通往AGI/ASI的阶段性产物。未来的AI可能还会衍化出具身智能、全模态模型、世界模型等形态。


具身智能(Embodied AI):目前智能体以数字智能体为主,停留在数字世界中,未来的AI则能与物理世界深度结合,例如通过人形机器人、智能设备等实现更强的感知、行动和交互能力。具身智能可以与物理世界紧密、高效交互,为自我学习、自我优化提供了有利条件,使其能够更好地适应复杂多变的环境,进化出更高的智能水平。


全模态模型:多模态模型可以赋予AI处理和理解人类感官、甚至更多的模态信息,从而获得更全面的世界认知。目前多模态模型主要是以语言为中心的,通常是将不同模态向文本模态对齐,这还不能算真正意义上的多模态。未来的多模态模型,其多种模态的数据从预训练阶段就已经打通对齐,实现端到端输入和输出,从而实现更高级、更统一的智能,如从语言智能发展到视觉智能等等。


世界模型:目前大模型的推理能力来自于对文本数据的统计关联,模型并不能真正理解世界的结构和掌握物理法则,因此在因果推理和预测方面能力有所不足。未来AI可能会拥有更高级的空间智能,其可以帮助机器识别物体、理解物体之间的空间关系、并根据环境上下文推理和预测与三维物理世界交互的后果。


此外,在分布式多智能体、人机融合等方向,都有可能出现新的AI形态。从当前的“狭义人工智能”迈向“通用人工智能”和“超级人工智能”必然需要更深层次的技术突破和范式转变。这些未来的AI形态可能不再仅仅是软件或算法,而是涵盖硬件、生物、认知等多个维度的复杂系统,甚至可能模糊人与机器的界限。


8. 如何看待智能体领域的工程能力和底层模型能力?


要构建一个高效、稳定且能真正解决实际问题的智能体,离不开底层模型能力和工程开发能力的相互结合。底层模型的能力是智能体“智力”的核心。模型能力越强,智能体的感知、理解、推理和决策能力就越强,智能体能够处理的任务就更复杂,通用性就更广泛,自主性就更强。而工程能力是将底层模型能力转化为实际可用、稳定可靠、高效易用的智能体产品的关键。工程能力包括系统架构设计、数据流程设计、工具调用、人机交互界面(UI/UX)、部署与运维、安全性与隐私保护、性能优化等。仅有强大的底层模型,如果没有优秀的工程实现,智能体也无法落地应用。仅有强大的工程能力,没有底层模型能力的支持,智能体产品也不具有高级的智能。


特斯联作为一家深耕于人工智能物联网(AIoT)的企业,以AIoT领域模型、AIoT基础设施、及AIoT智能体为三大战略方向。特斯联坚持“模型加系统的双轮驱动”,将“工程能力”与“底层模型能力”紧密结合,以实现“空间智能”的战略目标。我们不会像基础模型公司那样从零开始训练通用基础大模型,但会围绕着“空间智能”的核心战略进行“AIoT领域模型”、以及“AIoT多模态大模型”的定制调优,实现具备空间感知能力的智能体产品。特斯联开发的智能体产品已搭载于智能穿戴设备及智能机器人,并应用到广泛的场景中。


9. 针对智能体发展的各个阶段,特斯联有怎样的产品规划?


现阶段特斯联以研发专用智能体(Specialized Agentic AI)类型的产品为主。结合我们前期在行业市场中积累的数据、经验和技术,特斯联正在研发面向移动终端(智能可穿戴产品、机器人等)的智能体HALI,构建类人思考、长期记忆、个性化等核心能力,进一步提高这些产品的交互能力和智能水平,为用户带来更高价值。


通用智能体(General Agentic AI )是我们的长期研究目标。虽然近年来大语言模型等技术领域取得了显著进展,展现出一些通用性的曙光,但距离真正意义上的通用智能还有很长的路要走,需要克服许多基础理论和技术上的挑战。要想实现真正意义上通用智能,可能还需要十数年的时间。超级智能体(Super Agentic AI)则更是一个遥远的、充满未知和想象的终极目标。

特斯联空间智能楼宇产品再升级,新增Agent功能

上一篇

特斯联再度入选《GEI中国独角兽企业研究报告》

下一篇