近日,特斯联比特实验室发布最新研究成果,提出了一种名为DREAM的全新方法,针对标签稀缺问题,通过解耦学习和双图对齐机制,提升2D图像与3D模型跨模态检索的准确性和效率。DREAM通过跨模态对齐与半监督学习机制,显著提升了空间数据的语义理解与关联能力,之于空间智能的发展意义重大,现已被人工智能领域国际权威会议AAAI(CCF-A)收录,题为DREAM:Decoupled Discriminative Learning with Bigraph-aware Alignment for Semi-Supervised 2D-3D Cross-modal Retrieval。
AAAI人工智能会议(AAAI Conference on Artificial Intelligence)由人工智能促进会(Association for the Advancement of Artificial Intelligence, AAAI)举办,是人工智能领域历史最悠久、内容覆盖最广的国际会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。

团队所提出的DREAM方法概览:DREAM 首先利用独立的编码器获取多模态表征,随后采用解耦式判别学习,为语义学习和负向学习分别计算可靠性分数以进行优化。此外,DREAM 构建一张二分图,在保持判别性的同时实现多模态语义对齐。(图表截取自论文)
该研究成果在半监督2D-3D跨模态检索中具有广泛现实应用前景,尤其适用于制造业、AR/VR内容生态、安防与智慧城市等标签获取昂贵、数据异构性高的场景。
▶ 智能制造与工业质检:工厂里扫描的3D工件点云数据量大但标注昂贵;DREAM可用少量已标注2D图纸/照片,在海量3D工件中快速检索缺陷件或匹配设计原型。
▶ AR/VR内容生态:用户上传一张2D概念草图,即可在平台的未标注3D模型库中秒级检索匹配模型;反之亦可把3D扫描快速对应到2D参考图,加速虚拟场景搭建。
▶ 安防与智慧城市:通过无人机或监控摄像头拍摄的2D影像,在大型未标注的3D城市点云/建筑模型库中定位可疑目标或匹配建筑,提升应急响应效率。
……
下为论文原文摘录。
随着大数据的爆发式增长,2D-3D跨模态检索受到越来越多的关注。该任务旨在通过一种模态的查询数据,检索另一种模态的相关数据。该论文研究了一个尚未充分探索但极具应用价值的问题——半监督2D-3D跨模态检索。在现实应用中,该任务往往面临严峻的标注稀缺困境。此外,不同模态之间巨大的异构鸿沟会进一步削弱模型从大量无标注数据中的学习效果。
为此,团队提出了一种名为DREAM(基于解耦判别学习与双图感知对齐)的全新方法。DREAM的核心在于将“标签预测”与“可靠性度量”两个过程解耦,以减少判别学习中过度自信的样本。具体而言,团队利用已标注样本进行标签传播,强化标签预测模块;同时引入可学习的可靠性度量模块,为预测标签赋予可信度评分。为缓解类别相关偏差,团队将可信度评分与类别自适应阈值进行比较,筛选高置信样本用于后续训练。对于未被选中的样本,团队估计其负标签,并借助软语义学习充分挖掘所有数据的信息价值。为进一步缩小模态差异,团队构建了一张连接跨模态相似样本的二分图,并在保留最多边的前提下进行聚类对齐学习。
在多个基准数据集上的大量实验表明,DREAM 显著优于现有最先进的方法。