国际计算机视觉大会(International Conference on Computer Vision,ICCV)是计算机视觉领域的重要国际会议(CCF A类),将于2025年10月19日至23日在美国夏威夷举行。上海科技大学多篇成果入选本次会议,从探索人机共生的协同范式、到突破物理限制的视觉感知、再到赋能机器的智能决策,不仅展现了学术创新突破,也在科学成像、智能制造、自动驾驶、人机协作等场景中展现出巨大的应用潜力,为解决现实世界中的复杂问题提供了创新思路。
人机交互与协同智能
1. DexH2R: 人机交接中动态灵巧抓取的基准/A Benchmark for Dynamic Dexterous Grasping in Human-to-Robot Handover
人与灵巧手机器手之间的物品递接是人机协作中的基础性挑战,本研究首次提出了一个真实世界中的灵巧手人机递接数据集 DexH2R,涵盖了多样化的交互物体、动态运动过程、丰富的视觉信息以及详细的行为标注。基于此数据集进一步提出了动态递接解决方案 DynamicGrasp,还构建了一个涵盖安全性、准确性与可靠性的多维评估体系,以推动人-机器人递接研究的发展。
上海科技大学信息学院2023级研究生王尤卓与2024级研究生叶佳怡为论文共同第一作者,马月昕教授为论文通讯作者。
论文链接:https://arxiv.org/abs/2506.23152
代码链接:https://github.com/4DVLab/DexH2R
项目主页:https://dexh2r.github.io/
2. EvolvingGrasp: 通过高效偏好对齐实现进化式抓取生成/Evolutionary Grasp Generation via Efficient Preference Alignment
具备自主进化能力、能够越抓越稳的灵巧手,是实现通用具身智能进化道路上的关键突破。EvolvingGrasp 首次提出“进化式抓取生成”框架:通过Handpose-wise Preference Optimization(HPO)方法,使机械手能以仿生方式从成功与失败的抓取中持续学习。进一步结合 Physics-Aware Consistency Model,在实现30倍推理加速的同时严格保证抓取的物理可行性。该方法在四个公开数据集上均达到最优表现,并在ShadowHand真实机器人平台上验证了其在线微调能力,展现出“越抓越好”的进化特性。
该项研究由上海科技大学信息学院2025级硕士生朱宇飞与2024级硕士生钟奕鸣担任共同第一作者,信息学院马月昕教授和香港中文大学祝新革博士担任共同通讯作者。
论文链接:https://arxiv.org/pdf/2503.14329
代码链接:https://github.com/4DVLab/EvolvingGrasp
项目主页:https://evolvinggrasp.github.io/
3. Human-X:实时物理可行人机交互生成新范式/Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis
当前人机交互现有方法的“响应延迟”与“物理不一致”问题会显著降低用户体验并影响系统安全性。为此,研究团队提出了一种统一的实时交互合成框架 Human-X。在 Inter-X 和 InterHuman 等多个人-人交互数据集上的全面验证显示,其性能明显优于当前主流方法,在VR/AR、社交机器人、数字人交互等沉浸式人机协同场景中展现出广泛的应用潜力。
上海科技大学信息学院2024级硕士生季凯阳为论文第一作者,汪婧雅教授为通讯作者,2023级硕士生金子棽与2025级硕士生陈康奕也参与了本研究工作。
论文链接:https://iccv.thecvf.com/virtual/2025/poster/939
代码链接:https://github.com/humanx-interaction/Human-X-Interaction
4. ReAL-AD:迈向端到端自动驾驶中的类人推理/ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving
现有端到端自动驾驶方法通常依赖固定且稀疏的轨迹监督信号,难以充分捕捉人类驾驶员所具备的分层推理机制。研究提出了ReAL-AD(推理增强学习自动驾驶框架),基于“策略—决策—操作”三级人类认知模型构建自动驾驶决策系统,并融合视觉语言模型(VLM)以增强其在多层级上的态势感知与结构化推理能力。大量实验表明,集成该框架可显著提升自动驾驶系统的规划准确性与安全性,相比基线方法提升超过30%,同时增强了系统的可解释性,使其决策过程更贴近人类的分层推理模式。
信息学院科研助理陆宇航为论文第一作者,香港中文大学祝新革博士与上海科技大学信息学院马月昕教授为共同通讯作者。
论文链接:https://arxiv.org/pdf/2507.12499
项目主页:https://4dvlab.github.io/project_page/realad
智能感知与三维视觉重建
5. CryoFastAR: 轻松实现快速冷冻电镜从头重构/CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy
在冷冻电子显微镜(cryo-EM)等科学成像领域,从无序粒子图像中恢复姿态并进行三维重建,目前仍依赖于耗时的迭代优化流程,主要是由于极低的信噪比(SNR)和对比度传递函数(CTF)所引入的图像畸变等挑战。研究提出了首个专用于 cryo-EM 的几何基础模型CryoFastAR,直接从带噪声的 cryo-EM 图像中预测粒子姿态,实现快速的 ab initio 三维重构。结果表明,CryoFastAR 在合成与真实数据集上均达到了与传统迭代方法相当的重构质量,同时推理速度显著提升。
该论文的第一作者为上海科技大学信息学院2022级博士生张家恺,第二作者为2021级本科生周守琛,虞晶怡教授为通讯作者。
论文链接:https://arxiv.org/pdf/2506.05864
6. 基于连续几何表示的三维异常定位与修复新方法 / Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation
在高端装备智能质检领域,传统离散点云表达方法存在的几何细节丢失、异常定位不精确瓶颈,研究团队创新性地提出了PASDF方法。该研究采用连续、高精度的有符号距离场,并结合姿态自适应的对齐模块,能够实现对物体三维异常的精准定位和高质量自动修复。该方法在国际权威数据集Real3D-AD和Anomaly-ShapeNet上分别取得了80.2%和90.0%的检测准确率(O-AUROC),并大幅提升了异常区域的修复效果。
2023级硕士研究生郑博中、2024级硕士研究生甘锦业为共同第一作者,论文的合作者还包括2024级硕士研究生陈鑫涛、2022级硕士研究生李文峤,论文由创艺学院武颖娜研究员与倪娜副研究员共同指导完成。
论文链接: https://arxiv.org/abs/2505.24431
7. TransiT: 基于Transient Transformer的非视域视频成像/TransiT: Transient Transformer for Non-line-of-sight Videography
在非视线成像(NLOS)领域,实现高质量、高帧率的视频采集对自动驾驶、灾后搜救等任务具有重要意义。现有方法往往难以兼顾帧率与视频质量,研究提出了一种名为 TransiT 的瞬态Transformer架构。在真实采集系统中,TransiT 能够从每点曝光时间仅 0.4 毫秒、分辨率为 16×16 的稀疏瞬态数据中,重建出分辨率达 64×64、帧率为 10 fps 的高质量非视域视频。
上海科技大学信息学院2022级博士生李睿潜、2023级博士生沈思远和2022级研究生夏苏安为论文共同第一作者,虞晶怡教授、李实英副研究员为论文共同通讯作者。
论文链接: https://arxiv.org/abs/2503.11328
8. 一种基于异步轨迹的结构和运动线性N点求解器/A Linear N-Point Solver for Structure and Motion from Asynchronous Tracks
传统计算机视觉中的结构与运动估计方法通常基于同步数据假设,随着滚动快门相机和事件相机等异步传感技术的发展,这一假设在实际应用中往往不再成立。针对此,研究提出了一种统一的结构与线性运动估计方法,能够处理来自任意时间戳与任意视图的二维点对应。实验结果表明,该方法在多种数据模态下均优于现有技术,为异步视觉条件下的结构与运动估计提供了新的技术路径。
上海科技大学信息学院2023级博士生苏杭为论文第一作者,Laurent Kneip教授为通讯作者。信息学院Xavier Lagorce教授、2023级硕士生冯云龙和2022级本科生江攀峰也参与了本研究工作。
代码链接: https://github.com/suhang99/AsyncTrack-Motion-Solver
论文链接: https://arxiv.org/abs/2507.22733v1
视觉理解与智能决策
9. MP-ReID:多模态多平台的行人重识别数据集基准与/Multi-modal Multi-platform Person Re-Identification: Benchmark and Method
传统行人重识别(ReID)受限于单一模态静态摄像头的部署条件,难以有效应对真实世界的复杂场景。当城市安防系统中同时存在地面RGB摄像头、夜间红外设备及动态追踪无人机时,视角差异、光照变化与模态差异成为跨平台精准识别的主要挑战。研究推出MP-ReID——全球首个专为多模态、多平台行人重识别而构建的基准数据集。基于该基准库,团队进一步提出Uni-Prompt ReID框架,通过定制化提示机制动态适应不同模态与平台间的数据差异,在复杂场景下实现了显著优于现有最优方案的识别精度。
上海科技大学信息学院2022级硕士生哈睿暘为论文第一作者,汪婧雅教授为通讯作者。2023级博士生潘比康、2023级硕士生朱翌航也参与了研究工作。
代码及数据集链接: https://github.com/MP-ReID/mp-reid
论文链接: https://arxiv.org/abs/2503.17096
10. GeoDistill: 用于跨视角定位的几何引导的弱监督自蒸馏方法/Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
跨视图定位旨在通过对齐地面与航拍图像以估计相机位姿,是增强现实等大规模户外应用中的关键技术。现有方法普遍依赖于全监督学习,不仅需要昂贵真值位姿标注,在面对与训练数据存在分布差异的未知区域时,其定位性能往往显著下降。针对这一问题,研究团队提出了一种名为GeoDistill 的几何引导弱监督自蒸馏框架。实验结果表明,GeoDistill 能够显著提升现有定位框架的性能,尤其在更具挑战性的未见区域中表现出明显的优势。
上海科技大学信息学院2024级硕士生童少文为论文第一作者,师玉娇教授为通讯作者。
代码链接: https://github.com/tongshw/GeoDistill
论文链接: https://arxiv.org/pdf/2507.10935
11. 闭环迁移用于弱监督可供性定位/Closed-Loop Transfer for Weakly-supervised Affordance Grounding
人类在面对陌生对象时,往往能够通过观察他人与物体的交互行为,快速学习其使用方式。弱监督可供性定位(Weakly-supervised Affordance Grounding)任务正是受此启发。现有方法在交互场景复杂、尤其是人体严重遮挡目标区域的情况下,性能往往受限。为此团队提出一种新型闭环框架 LoopTrans,实现了跨视角的双向知识迁移与增强。实验结果表明在多个图像与视频基准上均取得了显著性能提升,充分验证了其跨任务与跨场景的强泛化能力。
上海科技大学信息学院2023级博士生唐嘉晋与2022级本科生卫正轩为共同第一作者,杨思蓓教授为通讯作者。
12. Sim-DETR:释放 DETR 在时间句子定位中的潜力/Sim-DETR: Unlock DETR for Temporal Sentence Grounding
时间句子定位(Temporal Sentence Grounding)是一项关键的视频理解任务,现有方法多基于检测Transformer(DETR)框架构建。但许多为提升DETR性能而设计的策略在该任务中不仅无效,甚至可能导致性能退化。本工作揭示了背后的两个主要原因:一是在语义相似的目标片段之间存在查询冲突;二是单个查询内部难以协调全局语义理解与局部定位需求。基于此,研究提出了一个简洁而高效的基线模型——Sim-DETR。实验表明,Sim-DETR在所有评价指标上均达到了最先进性能,不仅解决了时间句子定位中查询间与查询内的冲突问题,也为未来研究提供了一个强大而高效的基线模型。
上海科技大学信息学院2023级博士生唐嘉晋与2022级本科生卫正轩为共同第一作者,杨思蓓教授为通讯作者。
13. AMR: 增强片段检索:零依赖的两阶段学习/Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning
片段检索(Moment Retrieval)是实现自然语言与视觉信息交互的关键任务之一。然而,标注数据稀缺使得模型仅能学习到浅层的对应关系、相邻事件间过渡区域的边界模糊使得片段定位精度下降、模型在区分语义相近的细粒度动作时表现不佳等困境。为此,研究团队提出了一种无需外部依赖的增强型片段检索框架 AMR,在多个公开基准上取得了显著性能提升。实验结果验证了AMR 在应对边界模糊与细粒度语义区分问题上的有效性。
上海科技大学信息学院2022级本科生卫正轩与2023级博士生唐嘉晋为本文共同第一作者,杨思蓓教授为通讯作者。
14. 消除同源干扰:人物交互检测中的去偏见研究/No More Sibling Rivalry: Debiasing Human-Object Interaction Detection
检测Transformer(DETR)已被应用于人物交互(HOI)检测任务,显著提升了图像中“人-动作-物”三元组的定位与识别性能。其中一个关键问题——“有毒兄弟姐妹偏见”:在交互解码器的输入与输出端,大量相似但不相同的HOI三元组相互干扰甚至彼此竞争,严重阻碍了解码器的有效学习,导致一种矛盾现象——相似性越高,识别精度反而下降。针对此,研究提出了两个新的去偏见学习目标:“对比-校准”与“合并-拆分”,分别从输入与输出两个角度进行优化。实验结果表明,多种设置下其均显著优于基线模型(在HICO-Det数据集上mAP提升+9.18%)和当前最优模型(mAP提升+3.59%)。
上海科技大学信息学院2023级硕士生杨斌与2024级硕士生张宇麟为论文的共同第一作者,杨思蓓教授为论文通讯作者。
论文链接:https://arxiv.org/pdf/2509.00760
15. SMGDiff:基于扩散模型的实时可控足球动作生成/ Soccer Motion Generation using diffusion probabilistic models
针对足球运动场景中复杂的运动轨迹与高度动态的人物交互,研究团队提出了一种基于Diffusion 模型的两阶段实时足球动作生成框架 SMGDiff,该框架包括一个轨迹生成模块和一个动作生成模型:轨迹生成模块采用 one-step diffusion 策略高效生成多样化的人物运动轨迹;动作生成模型引入接触引导机制,并提出 Contact loss 以在 Diffusion 采样过程中优化球与脚之间的动态接触关系。本研究为实时、高动态的人物交互动作生成提供了新的技术思路。
上海科技大学信息学院2023级硕士研究生杨宏笛和2022级本科生李承阳为论文共同第一作者,许岚教授为通讯作者。
论文链接:https://arxiv.org/abs/2411.16216
项目主页:https://geekyoung.red/SMGDiff/