AI CITY

产品与服务

媒体中心

关于我们

ENGLISH

NEWS
新闻

特斯联三篇论文被ECCV 2022收录

2022年12月15日

近期，全球计算机视觉三大顶会之一，欧洲计算机视觉国际会议（European Conference on Computer Vision，下称ECCV）在以色列特拉维夫落下帷幕。据大会官方统计，本届会议共有18，310位作者提交了6，773 篇论文，共5，804份有效投稿，最终1，645篇论文被接收，整体接收率为28%。国内科研机构及企业亦在ECCV 2022收获颇丰，特斯联科技集团首席科学家兼特斯联国际总裁邵岭博士及其团队共有三篇论文被会议收录，内容覆盖图像分割、无监督元学习、脑图像合成，等。

相关研究成果可广泛应用于交通、工业自动化、医疗等城市场景，以助力实现面向未来的城市更高效的管理及更便捷的服务。

1. 高精度二分图像分割

Highly Accurate Dichotomous Image Segmentation

二分图像分割（dichotomous image segmentation, DIS）是一项全新的任务，旨在从自然图像中分割出高度精确的对象。团队针对该任务进行了系统的研究。团队收集了首个大规模DIS数据集，称为DIS5K，其中包含5，470张高分辨率（例如，2K、4K及以上）图像，涵盖各种背景下的伪装的、显著的或精细的目标。DIS采用极细粒度的标签进行标注。此外，团队引入了一个简单的中间监督模型（intermediate supervision baseline, IS-Net），该基线使用特征级及掩码级指导来进行DIS模型训练。IS-Net在DIS5K上的表现优于多种前沿基线，使其成为一个通用的自学习监督网络以促进DIS的未来研究。此外，团队设计了一种全新的度量，命名为HCE（Human Correction Efforts）。HCE近似于纠正假正例和假负例所需的鼠标点击操作次数。HCE用于测量模型和实际应用之间的差距，从而可以补充现有的度量。最后，团队进行了最大规模的基准测试，评估了16个代表性分割模型，提供了关于对象复杂性的更深入的探讨，并展示了数个潜在的应用（例如，背景去除、艺术设计、3D重建），希望这些努力可以为学术界和工业界开辟出有前途的方向。

▲团队所提出的模型（左三）与四项前沿基准模型的质量对比

论文原文：https://link.springer.com/chapter/10.1007/978-3-031-19797-0_3

2. 基于聚类的伪标签用于无监督元学习的再思考

Rethinking Clustering-Based Pseudo-Labeling for Unsupervised Meta-Learning

无监督元学习的开创性方法CACTUs是一种基于聚类的伪标签方法。这种方法是模型不可知的，并能够与监督算法结合以从未标记的数据中学习。然而，该方法常受标签不一致或有限的多样性的影响，导致性能不佳。在此项研究中，团队证明了导致前述结果的核心原因在于嵌入空间中缺乏聚类友好属性。团队通过最小化类间与类内相似性比率来提供聚类友好的嵌入特征，从而解决这一问题，并通过全面的实验验证了所提出的方法。值得注意的是，尽管仅在嵌入空间中使用了一个简单的聚类算法（k-means）来获得伪标签，团队仍实现了结果的显著改善。此外，为了进一步缓解有限多样性的问题，团队采用了渐进式评估机制来获取更多样的样本。最终，团队所采用的方法同样是模型不可知的，可轻易地被集成到现有的监督方法中。为了证明方法的泛化能力，团队将其集成到两个有代表性的算法中：MAML和EP。在三个主要的小样本基准上的实验结果清楚表明，与最先进的模型相比，团队所提出的方法实现了显著的改善。值得注意的是，团队方法在两项任务中也优于相应的监督方法。

▲团队所提出的聚类友好嵌入特征及渐进式评估机制的框架

论文原文：https://link.springer.com/chapter/10.1007/978-3-031-20044-1_10

3. 具有可迁移的卷积稀疏编码网络的可泛化的脑图像合成

Generalized Brain Image Synthesis with Transferable Convolutional Sparse Coding Networks

设备间的高差异性和昂贵的脑成像检查成本一直是有效利用异构扫描方面的关键挑战。尽管深度学习模型在图像到图像转换（image-to-image translation）领域发展迅速，但由于脑成像的特定属性，目标脑数据并非总能获得。在此项研究中，团队提出了一种全新的可泛化的脑图像合成方法，该方法由可迁移的卷积稀疏编码网络（transferable convolutional sparse coding networks，TransCSCN）驱动，以解决缺乏可解释的跨模态医学图像表征学习的问题。所提出的方法经一系列数学处理直接转换特征，并藉此具备模仿机器般的具有解剖学意义的成像能力，从而在减少域差异的同时增强模型的可迁移性。具体而言，团队首先将全局归一化的特征嵌入到域差异度量中，来学习域不变性（domain-invariant）表征，然后最优地保留域特定（domain-specific）的几何特征以反映内在的图结构；并进一步惩罚它们的子空间不匹配以减少泛化误差。整个框架采用minimax setting，广泛的实验表明，所提出的方法在多个数据集上呈现出最先进的结果。