机器联觉赋能网联具身智能

日期:2026-01-12 15:40

导读:20251214日,2025国家智能车发展论坛在江苏常熟举行。作为国家自然科学基金委员会信息科学部和中国自动化学会于2015年创办的品牌学术活动,本届论坛依托十年积淀的学术影响力,致力于搭建精准高效的产学研对接平台,成为智能车领域“理论创新-技术研发-产业落地”全链条交流的重要载体。

中国自动化学会常务理事,北京大学电子学院党委副书记、教授程翔受邀参加本次论坛并作题为“机器联觉赋能网联具身智能”的报告。报告系统阐述了如何借助基座模型卓越的推理与泛化能力,为机器联觉赋能,支撑网联具身智能的新型设计范式。团队于全球范围内率先提出“机器联觉”理念,其目标在于达成面向通用任务的人工智能原生通信与多模态感知智能的融合,开展相关研究并搭建软硬件平台,为网联具身智能执行复杂动态、超视距任务提供全新思路。

 

一、研究背景

通信技术的发展正由5G迈向6G阶段,在6G研究愿景中,通感融合与通智融合被普遍认为是最具代表性的两类核心应用场景,而这两类场景与具身智能之间具有高度内在关联性。当前学界与产业界已逐渐形成共识,即未来通信网络与人工智能的发展不应是单向赋能关系,而应是一种双向深度融合的演进过程。一方面,通过AI for Communication实现通信网络的智能增强;另一方面,通过Communication for AI为智能体提供面向智能的连接能力。只有在这一“双向奔赴”的融合范式下,通信系统与人工智能系统才能实现协同演进并持续释放潜在价值。

具身智能被普遍视为人工智能从数字空间走向物理世界的重要载体,而6G正是连接大规模具身智能体的关键基础设施。在无人驾驶车辆、自动驾驶系统、低空经济中的无人机以及人形机器人等典型应用场景中,具身智能体往往同时配备多种通信与感知设备,从而获取极为丰富的多模态信息。然而,当前的技术体系中,通信网络仍主要被视为“信息传输管道”,并不关心管道中承载的信息语义;与此同时,多模态感知系统通常仅服务于单体智能体自身的环境理解与决策需求。这种通信与感知各自独立、相互割裂的设计范式,限制了多模态信息在系统层面的协同潜力。

是否可以对多模态感知信息与通信信息进行紧耦合的联合设计,使通信与感知不再各自为政,而是实现深度融合与相互增强。从第一性原理的角度来看,这一问题具备可行性基础。以人形机器人为例,其通常配备多种感知单元以获取来自同一物理环境、但分属不同域与不同尺度的环境信息;同时,智能体还具备通信单元,用以获取环境中的射频信号特征。由于这些感知与通信信息均源自同一物理环境,其在空间、时间与物理属性层面存在显著重叠关系,因此在理论上具备进行联合建模与互补增强的潜力。

要实现这一目标,必须首先回答两个关键科学问题。其一,如何应对多模态信息之间天然存在的差异性,探索通信信息与多模态感知信息之间的联觉机理。即便在同属于光学范畴的摄像头与激光雷达之间,其映射关系与融合过程仍然面临显著挑战;当进一步将射频通信信息纳入融合体系时,模态差异将更加显著,问题复杂度也将随之上升。其二,在明确融合机理之后,如何设计具有良好泛化能力的联合建模方法,使不同模态信息能够在统一框架下实现相互辅助与性能增强。这要求系统性地探索多模态信息在语义、结构与统计层面的融合机制与互惠模式。

在工程与理论层面,这一研究方向同样面临诸多挑战。从物理本质上看,各类感知与通信信号均属于电磁波范畴,但在频谱分布上,非射频模态与通信射频信号之间往往存在超过四个数量级的频段差异;同时,通信系统与感知系统在应用目标、优化指标与设计约束方面亦存在显著不同。这些因素进一步增加了通感融合建模的难度,亟需发展新的理论框架与方法体系,以支撑更高效、更稳健的联合设计。


二、机器联觉概念与架构

人类联觉是指不同感官之间由于神经网络的交叉激活而产生的相互增强效应,例如视觉对味觉的增强作用,或长期训练后视觉信息对听觉理解的补偿作用。这类现象表明,在人类大脑中,不同感官对应的神经元并非孤立工作,而是通过复杂的神经网络连接形成跨模态协同机制,从而提升整体感知与认知能力。

类比人类联觉现象,我们提出了“机器联觉”的研究设想:即具身智能体中的不同机器感官是否也能够形成类似人类联觉的跨模态协同机制。不同于人类联觉主要服务于多认知任务,机器联觉的研究应重点面向通感融合任务展开。鉴于人类联觉高度依赖脑神经网络的结构与学习机制,人工神经网络自然成为研究机器联觉的核心工具。通过构建基于人工神经网络的联合建模框架,有望实现通信信息与多模态感知信息的紧耦合融合,使二者在统一系统中实现互惠互利、协同增强,为6G时代网联具身智能的发展提供新的方法论基础。

“机器联觉”(Sense of MachineSoM)是一种面向通用任务、AI原生的通信与多模态感知智能融合范式。其核心内涵体现在三个方面:以人工神经网络为统一建模载体,以多模态信息为基本输入对象,并以具体任务驱动为设计目标,从而突破传统通信与感知系统各自独立设计的局限。

在具身智能场景中,SoM的引入为智能体能力扩展提供了新的路径。当前的具身智能系统通常依赖相对简单的神经连接结构,通过视觉等感知模态实现对人类行为与认知能力的模仿。当引入通信单元后,智能体可获得来自更远距离、更大范围的环境信息,相当于具备了“顺风耳”的能力;进一步引入射频感知后,智能体在非视距条件下仍可获取环境状态信息,从而实现“千里眼”式的感知扩展。在此基础上,通过多模态信息的联觉式联合处理,具身智能体能够构建覆盖范围更广、感知维度更丰富、时空延展能力更强的类神经系统,使其从单纯模仿人类能力,逐步演进为具备网联协同能力、可执行长程与超视距复杂任务的智能系统。这一过程体现了SoM对具身智能的核心赋能作用,即推动具身智能从“类人智能”迈向“网联智能”,并在协同感知与决策能力上实现对人类的超越。


三、基座模型赋能的机器联觉系统设计

2023年初,大模型与基座模型的快速发展,为SoM研究提供了全新的、且极具潜力的技术支撑工具。基座模型所具备的通用表征能力、跨任务迁移能力与强泛化特性,为通信与多模态感知的深度融合提供了可行的统一建模基础。相关研究成果已于今年7月发表,同时将核心代码在GitHub上进行了开源,以促进学术界对该方向的进一步讨论与改进。

围绕基座模型赋能SoM的研究路径,我们提出了两种互补的研究范式。第一种范式是“站在巨人的肩膀上”,即利用已有的开源大语言模型或多模态大语言模型,通过微调与任务适配,将其通用知识与表示能力引入SoM相关任务设计中,以降低模型构建门槛并加速应用验证。第二种范式则强调“从01”的自主构建,即面向通信场景设计并训练专用的无线基座模型,通过在海量异构通信与感知数据上的联合训练,进一步提升模型在推理能力与泛化能力方面的上限,实现跨场景、跨任务推理性能的跃迁。

在上述研究思路指导下,我们开展了一系列基础性与系统性工作。首先,针对SoM研究中数据稀缺与模态割裂的问题,历时三年多构建了通信与多模态在时间与空间上严格对齐的一致性数据集,为研究通信与感知之间的联觉机理提供了坚实的数据基础。在此基础上,结合理论建模与实验分析,团队得以系统探索多模态信息之间的互补关系与协同增强机制。

基于数据与理论的双重支撑,团队尝试突破当前通信与感知相互分立的系统架构,借助基座模型思想实现通信与多模态感知的一体化设计,构建AI原生的网联具身智能系统。同时,团队还搭建了相应的软硬件实验平台,用于验证SoM在真实具身智能场景中的可行性与有效性,为后续在无人驾驶、机器人与6G网联智能等领域的应用奠定了基础。

围绕机器联觉的研究需求,构建并发布了SynthSoM数据集WiFo无线传输基座模型WiPo无线协同感知交互模型。其中,在数据构建方面,主要采用“实测数据注入仿真”的混合方式:通过真实场景测量获取高质量数据,再将其注入仿真环境以扩展数据规模,从而在保证真实性的同时显著提升数据数量与覆盖范围。在此框架下,涵盖了车路协同、低空经济以及智慧校园等多类典型场景,并在仿真环境中生成海量可控数据以支撑后续研究。

在此基础上,构建了首个时空一致的通信与多模态联合数据集,数据规模目前已超过950万组,总存储量超过10TB,数据类型覆盖RGB图像、深度图、激光雷达、毫米波雷达以及通信模组相关信息。相关数据已在FigshareGitHub平台上完全开源,并计划按年度进行持续更新。同时,围绕智能车竞赛场景,设计了实测与离线仿真相结合的评测体系,其中离线仿真设置了五个赛题,与SoM直接相关的包括射频地图构建、射频链路预测与定位任务。

在数据基础之上,进一步构建了面向物理层的无线传输基座模型体系。传统通信系统的物理层通常采用高度模块化的设计范式,将信源编码、信道编码、调制、预编码等过程分离实现。与此不同,本研究尝试从物理层角度构建面向具身智能的“神经系统”,通过统一的基座模型对多模态信息与多物理层模块进行联合建模,以提升物理层方案在准确性、可靠性与泛化能力方面的整体表现。

WiFo系列无线传输基座模型的核心思想是借鉴大模型与基座化方法,通过大规模预训练赋能多种物理层任务,使单一模型具备支持多任务、多配置的能力。首先关注信道预测这一物理层核心任务,采用“范式一”,即基于开源大语言模型进行微调,将其通用表示能力迁移至非语言的物理层任务中。该模型参数规模较小,微调参数量仅为1.76M。相关工作发表于去年8月,成为较早将大语言模型引入物理层传输设计的研究之一,论文连续16个月位列期刊最受关注文章,并获得学会与期刊的最佳论文奖,相关代码已完全开源。

在此基础上,进一步扩展至多任务场景,设计了可同时支持六类物理层任务的统一模型,相当于以单一模型替代传统需要多个模块或多个小模型完成的任务体系。该模型采用MoELoRA架构,总参数量为88.7M,微调参数约1M。相关成果发表于今年7月,并在开源后短时间内获得了较高关注度。

进一步地,采用“范式二”,即从01构建专用的无线传输基座模型,不再依赖大语言模型微调,而是直接面向无线任务进行自监督预训练。由此提出了首个面向信道预测的无线基座模型WiFo,该模型在规模达到3.3B的海量异构数据集上进行预训练,目标是实现零样本条件下对时域与频域外信道的统一预测。模型设计涵盖从Tiny到的多种规模,其中Tiny模型参数量仅为0.3MLarge模型参数量为86.1M,相关代码同样已全部开源。

在此基础上,引入视觉信息对WiFo进行辅助微调,并利用SynthSoM 数据集中车路协同场景进行验证。实验结果表明,WiFo在零样本条件下的性能已优于从零训练的模型,验证了预训练策略的有效性;同时,多模态图像信息的引入进一步带来了性能增益,且在存储与计算开销上保持在可控量级。结果表明,WiFo在异源数据上具备较强的零样本泛化能力,其编码器能够学习到通用的CSI表征,为下游任务提供有效支撑。

针对物理层多种任务,设计了一系列WiFo派生模型,用于信道压缩反馈、协同均衡以及模型轻量化等场景,并探索将模型部署至终端侧的可行性。在此过程中提出了WiFo-2模型,该模型首次实现了信道重建任务的零样本推理能力,并能够统一支撑多类物理层任务与下游应用。

在模型结构上,提出了掩码去噪自编码器(MDAE)架构,并引入两阶段预训练策略,在保证高可靠通信需求的前提下加入置信度建模。模型采用MoE架构,实际推理参数量在大版本中为50.9M。同时,提出了信道恢复稀疏专家混合(CSI-SMoE)架构,并构建了规模达11.6B的超大异构空—时—频三维CSI数据集,数据来源涵盖标准化信道建模、射线追踪仿真以及真实场景测量。

实验结果表明,WiFo-2在不同信噪比条件下的信道重建性能达到SOTA水平,在频域预测等高难度任务中,相较于基于大语言模型微调的方法,频谱效率提升约20%,信道估计性能亦显著提升。基于NMSE指标的评估显示,误差可控制在2.8dB以内。在八类下游任务中,WiFo-2以单一模型实现了原本需要数百个专用小模型完成的功能,在性能提升的同时将模型参数总量降低约75%

消融实验进一步验证了模型各组成模块与数据规模对性能提升的贡献,并表明在当前任务设置下,数据规模扩展对性能提升的作用大于单纯增加模型参数。视觉辅助的车联网实验表明,WiFo-2在零样本条件下的性能可显著超过全样本训练的基线模型,进一步验证了其对SoM下游任务的赋能能力。

在系统实现层面,将无线传输基座模型首次部署至真实硬件平台,基于USRP收发系统与Orin计算平台,通过裁剪与量化实现单token推理时延约3.24ms,满足低时延通信需求。在复杂信道预测与估计场景中,相较传统插值与小模型方法,WiFo-2在稀疏导频条件下仍可保持稳定、高质量的视频传输。

在应用层面,基于WiFo物理层基座,进一步构建了面向具身智能任务的多模态交互模型WiPo,目标是以单一模型实现多模态感知信息的高效通用交互,突破传统模态分立设计所带来的通用性限制。WiPo采用模态专用预处理与模态通用编码相结合的架构,通过共享模块挖掘跨模态编码与压缩规律,在新数据集上仅需轻量化调整即可实现性能迁移。实验结果表明,WiPoBase版本参数量仅25.6M的情况下,通过少量Adapter调整即可适配此前未见过的数据集,展现出良好的通用多模态交互能力,其参数效率与迁移性能均优于传统仅调优顶层结构的方法。


四、总结

通信系统在实现物理层基座化之后,将在体系结构与功能形态上发生根本性变化。首先,通信链路与网络将真正迈向AI原生形态,这一转变使得“具身通信”成为可能。在这一框架下,未来的基站、终端设备不再是孤立运行的通信节点,而是能够与所处的物理环境形成闭环交互,通过感知、推理与决策实现自适应的观测—决策—行动过程,从而显著提升系统的灵活性与环境适应能力。

面向未来的具身智能体必然以网联形态存在,而非孤立运行。若通信系统仍仅被视为信息传输的“管道”,则难以与已经高度AI化、基座化的具身智能体系形成深度协同。当前无论是视觉—语言—导航,还是视觉—语言—动作范式,其核心能力已建立在AI原生与基座模型之上。在此背景下,通信系统若能够同步实现基座化与智能化,将使通信与具身智能在统一的AI原生框架下实现有效融合与相互赋能,从而为网联具身智能中通感紧耦合的系统设计与协同优化提供基础支撑,进一步推动AI化网联具身智能的系统化发展。

在研究与交流层面,围绕机器联觉方向,已依托ITU国际电联平台组织相关挑战赛,目前正处于报名阶段,通过开放竞赛的形式促进该方向的技术探索与方法创新。与此同时,还策划并组织了以“基座模型赋能AI原生无线通信、感知与边缘智能”为主题的专刊,期望通过持续的学术交流与成果分享,推动相关理论与应用研究的深入发展。

*本文根据作者所作报告速记整理而成