NEWS
新闻

特斯联打造 AIoT 大模型,以模型+系统促多模态落地

2023年8月24日

大模型之火仍在灼烧。


伴随技术的迭代及产业的发展,当前对大模型的关注逐渐从技术突破本身转移到与垂直行业的结合及商用潜力之上。近日, Meta 推出了其语言模型 LLaMa-2 的开源可商用版本,允许初创公司和企业在该技术的基础上构建定制软件。在此不久前,微软亦宣布将以采用 ChatGPT 构造的 AI 助手 Copilot 替代旧版本语音助手 Cortana,为 Windows 用户提供更强大的智能辅助服务。有行业观点认为,历经逾半年的发展,当前大模型已经迎来了商用时刻。然而,自其诞生以来就被诟病的诸如专业性、可靠性、成本等问题仍制约着大模型技术的使用体验,并一定程度上限制着大模型的商用潜力。


在以 AIoT 为底层技术驱动的特斯联看来,大模型商用仍面临着多模态、异构数据处理等方面的挑战,而特斯联的破局之路是由智慧城市领域模型切入,通过“模型+系统”的方式逐步打造拥有多模态能力的 AIoT 大模型。


“智能涌现”仍限于语言任务

多模态异构数据成 AGI 突破焦点

在自然科学中,在一个复杂系统中出现的新的、无法预测的性质、特征或行为,被称为“涌现”。在AI领域中,随着数据规模和模型参数量的增长,大模型跃迁式地表出新的能力,这被称为“智能涌现”。“智能涌现”是伴随大模型走红的概念,不少人担心 AI 自此“觉醒”,不再受控。特斯联首席技术官华先胜看来,“智能涌现”在语言模型领域内尚且不能解决所有问题,在除语言模型外的领域,则更加受制于多维度、多模态的异构数据。


特斯联首席技术官华先胜


特斯联首席科学家、特斯联国际总裁邵岭用“World Model”(世界模型)来解释这一现象。“AGI(通用人工智能)的最终目标是基于其对世界的理解学习、训练出一个 World Model。当前的 LLMs(大语言模型, Large Language Model)是基于语言训练而成的, 其对世界的理解势必是不完整的。尽管语言可被看作是人类知识的投射,LLMs 也一定程度上具备了压缩版 World Model 的能力,但缺陷也十分显著。”



邵岭认为,ChatGPT 所体现出的“一本正经地胡说八道”等可信度缺失的问题即由此导致。“要解决这一问题,一方面可以把模型做得更大,提升数据的多元化和质量;另一方面也可以采用领域特定的知识库来辅助,但这些都无法根本解决这一问题。要实现一个更完善的World Model,本质上需要融合语言、图像、视频、3D等等多模态的数据和知识,这也是将来大模型发展的趋势。”

特斯联首席科学、特斯联国际总裁家邵岭


然而就当前而言,大模型技术在其他模态数据中的泛化并不理想。以 CV(计算机视觉)为例,尽管就技术落地情况而言,CV 长期领先于 NLP(自然语言处理), 然而在大模型的战役上,CV 则落后于 NLP。特斯联 AI 研发专家认为,这是由二者数据样本的差异所致——NLP 的训练是自生成的过程,通过前一句语料预测后一句语料,所有语料自带标注;而通过互联网收集的图像则难以直接用于训练,且图像数据本身的维度更高、冗余信息更多、学习难度更大。


再如 AIoT 领域,AIoT 场景中的数据通常具有多模态和异构性,包括文本、图像、语音和传感器数据等。将这些不同类型的数据整合和有效地利用,需要克服数据表示、融合和对齐的挑战。在数据建模方面,各类传感器数据以何种形式建模—是参考文本作为序列输入,还是参考图像作为矩阵输入,抑或是一种全新的建模方式,目前无论是学术界和工业界都没有定论,也成为大模型向前发展亟待突破的课题。


特斯联打造 AIoT 大模型:

更丰富的感知维度、更强大的行动能力


在前述背景下,特斯联首席技术官华先胜将 AIoT 大模型基于实现形式划分为两种:


1.将多模态 IoT 数据引入模型并取得实际应用效果的模型;

2.AIoT 技术服务相关领域的领域模型。


他坦言:“当前市面上能见的 AIoT 大模型底层仍然以文本和视觉为主,并非真正意义上的AIoT大模型。”而特斯联的做法是由领域模型切入,通过与系统的打通逐步拓展至多模态数据模型。


今年早些时候,作为城域 AIoT 领域的代表企业,特斯联曾透露正在研发面向 AIoT 场景的多模态大模型。特斯联的大模型产品组合由一个基础通用模型及五个垂直领域构成,覆盖全域感知、能源双碳、具身智能、经济大脑、系统交互等场景。


华先胜以“更丰富的感知维度和更强大的行动能力”来解读特斯联所打造 AIoT 大模型的价值,“特斯联拥有海量实际运行的 AIoT 设备和数据,目前正在基于大模型对 AIoT 数据进行查询分析,对 AIoT 设备进行操纵管理,并将场景中每个用户的个性化体验反馈,交给大模型分析优化,从而构建 AIoT 场景智能体。”


特斯联重庆AI CITY

根据特斯联的规划,在其智慧城市业务下大模型的表现形式主要分为三类:基于大模型的超级智慧园区系统、大模型驱动的 AGI 机器人,以及大模型驱动的视觉设计。以大模型驱动的机器人为例,特斯联所定义的机器人包含硬体机器人和软体机器人。就如同《流浪地球》中的 Moss,以大模型驱动的 AGI 机器人对园区的一切了如指掌,可以成为每个人的“秘书”。“每个 AGI 机器人其实是一个小模型, 但与其背后的大模型融合,就能够成为强大的智能体。它可以成为每个人的接待人、代理人,或秘书,它知道你的需求,能解答你的问题。当然,不仅仅是 AGI 机器人,在 AIoT 大模型驱动下,每一个机器人、每一块屏幕,甚至每个人的手机、APP 都可以成为‘智能机器人’。”华先胜进一步分享。 在大模型驱动下,未来的智慧城市将具备人机共存、数实融合、智能进化、绿色低碳四大特点。而这些特点在特斯联落地在重庆、武汉、德阳的三座智慧城市旗舰产品 AI CITY 中已初见端倪。而伴随着“数据提升模型、模型更迭数据”的数据飞轮,其 AIoT 大模型在不断进化,AI CITY 亦在逐渐生长为拥有生命活力的有机整体。


大模型并非通往 AGI 的唯一路径

模型+系统或成解题思路


自 ChatGPT 诞生以来,不少行业从业者认为,ChatGPT 触摸到了 AGI 的边缘。然而在邵岭看来,大模型并非通往 AGI 的唯一路径。他援引 2018 年图灵奖得主、卷积神经网络(CNN)之父 Yann LeCun 指出:“当前 LLMs 对世界的理解还非常肤浅”。


Yann LeCun 曾多次公开批判当前的 LLMs 热潮。他认为原有的 AI 模型在训练数据对应的特定领域任务上仍然非常有用,比如翻译和图像识别。而对于以 GPT 和 BERT 为代表的 LLMs,Yann LeCun 认为它们本质上只是自回归文本生成模型,且由于只在文本上训练,只能非常粗浅地理解世界。


针对“实现人类水平 AI”的目标,在其 2022 年 6 月所发布的立场论文 “A Path Towards Autonomous Machine Intelligence” 中,Yann LeCun 曾提出三个革命性问题:



Yann, LeCun (2022). A Path Towards Autonomous Machine Intelligence, Courant.


有趣的是,当我们以同样的问题(“大模型技术是通往通用人工智能的唯一路径吗?”)来挑战 ChatGPT 时,ChatGPT 给出的答案同样是:大模型技术是人工智能领域的一个重要进展,但并不是通向通用人工智能的唯一路径。实现通用人工智能可能需要结合多种技术和方法,以跨学科的方式进行研究和发展。


华先胜在TEDxHuangpu舞台阐述AI与场景、平台、系统的打通


在华先胜看来,模型与系统的结合是通往相对通用的智能的另一种路径。他指出,今天通往 AGI 的路径一共有三种:大模型、新模型,以及“模型+系统”。 “我们对系统的定义更加宽泛,甚至包括大小模型的融合、模型与规则的融合,以及模型和规则的相互转化,等等。”


“大模型能在 AIoT 领域落地需要与系统深度耦合、打通。与系统打通后可以实现对 IoT 感知数据的使用以及对 IoT 设备的控制、调度。语言是交互的方式,与系统打通是把语言翻译成系统能够执行的指令。指令可能是获取信息、可能是分析、控制,或依据分析进行控制。这是目前我们认为多模态大模型落地最容易实现的方式,甚至也是通往 AGI 的一条可以尝试的更快的路径。”



AI PARK内的机器人具备车境协同能力,可完成复杂环境下的任务调度

尽管系统是一个相对抽象的概念,钱学森曾在其著作中将系统定义为“系统是由相互作用相互依赖的若干组成部分结合而成的,具有特定功能的有机整体。”从中,我们不难窥见特斯联的大模型野心——以深度嵌入的大模型赋予未来城市内在的生命力。伴随人工智能从感知阶段发展到认知阶段,智能体从感知、到认知、再到执行亦可被看作是一套完整系统。“也许未来的机器会有触觉、嗅觉,并且机器能理解其中的含义,通过终端设备执行相应的决策,这就是我们理解的 AGI 技术在城市中的落地”,华先胜表示。

新加坡高级政务部长率团访问特斯联

上一篇

特斯联入选“碳中和最具投资价值公司TOP 10”

下一篇