学术报告 - OpenSeed

2026.03.11

郑健青

医学影像分析正面临从单一器官诊断迈向多器官系统预测的关键转型瓶颈。现有方法多聚焦局部结构或单器官特征，难以刻画器官之间的相互作用与协同演变规律，因而无法有效揭示系统性疾病的共同致病机制。同时，近年来广泛应用的医学图像生成模型虽然在影像合成与数据增强方面表现突出，但其生成过程通常缺乏可解释性，难以建立从原始影像到生成结果之间具有生物学意义的映射关系，限制了模型在临床诊疗场景中的实际落地。本讲座将提出构建“虚拟解剖学数字孪生系统”，旨在建立跨器官、可计算且具备可解释性的关联建模框架。研究以解剖形变为核心表示，通过开发跨器官形变的配准网络，显式刻画器官结构变化及其空间耦合关系;进一步引入基于扩散机制的生成模型，在形变空间中模拟系统性疾病的渐进病理演化过程，从而将传统黑箱式图像生成转化为一系列具有明确解剖和病理含义的可解释生成步骤;同时训练面向多器官的形态学基础模型，系统提取器官相互作用的共性演变模式。

第29期

2026.01.14

高德宏

西北工业大学副教授

大语言模型和多模态大模型在通用领域表现卓越，但在高度专业化的垂直领域直接应用时，仍面临领域知识缺乏、理解粒度不足等挑战。本报告将介绍大语言模型和多模态大模型在电商领域的深度应用：通过多任务微调等技术深度优化电商场景下的语义相关性匹配与跨语言机器翻译; 通过跨模态对齐学习，深度融合理解商品视觉信息与文本描述，实现对款式、材质等属性的结构化解析; 基于大模型构建自主智能体系统，模拟人类决策流程自动完成智能搜索等复杂任务，推动电商应用向自主化与智能化演进。

第28期

2025.12.17

秦浩桐

瑞士苏黎世联邦理工学院博后研究员

人工智能(AI)正进入规模化时代，GPT-4等先进AI模型参数量已超数万亿参数。持续增长的规模为AI带来了非凡能力，但也带来了来自延迟、内存、能耗等方面的严峻效率挑战。我将介绍我们在“离散AI”(DiscreteAl)的系列工作，即通过极端离散化实现高效的AI/ML系统。这不仅需要通过极端离散化实现高效率，还需要突破有限、非连续表示空间中的表达和优化瓶颈。首先，我们利用信息理论指导AI的极端离散化过程; 进而，我们使AI模型架构在极端1比特离散化下准确表达; 此外，我们还通过提升数据质量和分布来改进AI的离散化过程。这套创新解决方案使离散Al能够高效、可持续且准确地运行。在未来，我们期待实现真实世界中的下一代离散Al，通过离散的思维、计算和理论促进AI的效率和可持续性。

第27期

2025.11.20

胡晓彬

新加坡国立大学Senior Research Fellow

以人为中心的数字内容生成与理解是人工智能领域从感知走向创造的关键前沿。尽管近年来深度生成模型(如GANs，and DiffusionModels)在视觉保真度上取得了巨大成就，但在面对复杂、动态、多模态的人类身份和行为时，现有系统仍面临三大核心挑战:身份鲁棒性、时空/跨模态一致性以及全面可靠的评估体系。现有方法在处理大角度、文本驱动或音画同步的生成任务时，往往难以持续保持身份特征或实现自然的跨模态动态。同时，缺乏针对人类中心任务的全面评估基准制约了多模态大模型的可靠性验证。本次讲座将深入探讨身份保真生成、高自然度人像动画的跨模态驱动，以及如何通过系统化的多模态人类中心理解，来衡量和推动 Multimodal Large LanguageModels和生成模型之间相辅相成的发展，最终目标是构建真正可信、能理解人类复杂性的数字生成理解内容系统。

第26期

2025.10.15

张言

德国Meshcapade公司tech lead 3DV2020最佳论文奖

人体运动系统建模旨在计算机中模拟人体的运动及其控制机制，从而复现和预测人体的运动过程，因此是游戏角色制作、人型机器人、具身智能、体育、医疗监护等领域共同的上游核心技术。本次报告从3D游戏角色驱动的应用出发，回顾经典技术方法的优缺点，介绍最新的研究成果，并进一步探讨如何采用AI技术赋予角色类人行为，从而实现从“游戏角色”到“交互式智能体”的进化。

第25期

2025.09.10

韩宗炎

MBZUAI研究员

在三维感知任务中，同时实现语义、实例和全景分割(UnifiedSegmentation)是实现完整场景理解的关键。然而，点云数据的稀疏性以及标注的高昂成本，极大限制了模型对类别与实例的判别能力。近年来，统一分割框架试图将多种分割任务整合于一个模型中，以提高整体效率和泛化能力，但仍普遍面临类别判别能力有限的问题。针对这一挑战，我们提出了一种新颖的多模态增强通用分割方法VDG-Uni3DSeg，该方法提出引入大语言模型生成的类别文本描述作为语义先验，并结合从互联网自动获取的参考图像作为视觉先验，构建丰富的外部知识表示。我们利用预训练的视觉语言模型(如CLIP)将这些先验信息编码为语义与图像查询，并在将其融合至点云特征中，从而提升模型的判别能力与空间一致性。与现有的依赖配对图像-点云数据的多模态方法不同，VDG-Uni3DSeg通过离线先验信息进行高效融合，降低了对精确图像-点云对齐的要求，提升了方法的灵活性与可扩展性。在多个权威数据集上，我们的方法在语义、实例和全景分割任务中均取得了领先性能。

第24期

2025.08.20

马嘉祺

MBZUAI研究员

近年来，各种应用中对图像复原在复杂场景下的通用性和实用性需求日益增加。但是，传统的单一退化复原方法通常仅针对噪声或模糊等某一类退化，已难以应对现实场景中多种退化类型的叠加和变化。统一图像复原(All-in-one Image Restoration)通过单一模型同时处理噪声、模糊、雨雾等多种退化，为图像复原任务提供了新的解决思路。比如，已出现的统一复原方法在多个标准数据集和真实拍摄场景中，效果均接近了以往针对单一退化的专用模型。尽管该方向取得了显著进展，但如何在模型设计和提示机制上进一步提升性能和泛化能力，仍有大量探索空间。本报告将聚焦统一图像复原模型的设计与优化策略，介绍我们在该领域的最新研究进展。报告针对不同退化类型与质量感知机制进行深入探索，展示模型在多重退化场景下的性能提升及其在真实应用中的广阔前景。

第23期

2025.07.30

孟彦达

英国埃克塞特大学助理教授

人工智能(AI)正在重塑医疗保健领域，尤其是在医学影像方面，其在提供精准诊断和解决复杂临床问题上的能力展现出革命性的潜力。然而，将原始数据转化为现实临床应用仍是一项艰巨挑战。医学影像数据集通常结构复杂、来源多样，常常存在类别不平衡、标注有限以及数据不一致等问题一一这些缺陷可能导致AI系统产生偏倚或表现不佳。本次报告将探讨应对这些挑战的可行解决方案，重点介绍如何通过临床专业知识、资源高效的学习方法以及应对跨人群差异的策略，增强AI医疗工具的可靠性。我还将探讨AI融合过程中的“人”的因素，强调直观设计、临床医生信任以及跨学科合作的重要性，以使最前沿的技术创新与医疗实践的现实需求相契合。归根结底，AI在医疗健康中的成功取决于能否有效连接两个世界:算法的技术卓越性与临床环境的复杂多变。只有将领域专业知识深度嵌入到AI系统的开发过程中，才能打造真正为临床医生和公共卫生专家所需的系统一一这些工具应是工作流程的助力，而非负担。

第22期

2025.07.09

谢星宇

新加坡国立大学研究员

近年来，大规模语言模型在多个领域实现突破，但其训练面临日益增长的算力与通信开销，亟需系统性的优化方法。本报告聚焦“大模型的高效训练与优化算法”，系统介绍我们在以下方向的研究进展: (1)针对大模型的高效优化算法，加速收敛并增强训练稳定性; (2)基于scalinglaw，构建训练前的超参数预测机制，实现性能与资源的最优权衡; (3)提出通信高效的低精度梯度训练方法，在保障精度的同时显著降低通信成本; (4)设计适用于张量并行的低精度通信方案，提升跨GPU训练和推理的扩展性与效率。报告将结合理论分析与实证结果，展示上述方法在主流大模型训练中的实际效果，并探讨其在更大规模预训练任务中的应用前景。

第21期

2025.06.18

周纵苇

约翰霍普金斯大学研究员

癌症是全球主要的死亡原因之一，但如果能在早期发现，其实是可以被有效治疗的。不过，无论是对人类还是计算机来说，早期发现都并不容易。虽然人工智能在识别医学图像中的细节、划分解剖结构和定位异常方面表现出色，甚至可以超越人类视觉，但这些算法的训练依赖于大规模的数据和全面的标注。在自然语言处理(比如GPT)、表征学习(比如MAE)以及图像分割(比如SAM)等领域，我们已经看到“规模”对AI进步的巨大推动力。然而，这一理念在医学影像领域仍相对少见，原因是数据和标注的获取本身就极具挑战。本次讲座将聚焦医学影像分析中必不可少的数据集与标注问题，尤其是针对癌早筛的应用，探讨如何构建真正有用的“身体地图”

第20期

2025.05.28

傅宇倩

INSAIT博士后

近年来，各类视觉基础模型层出不穷，极大推动了计算机视觉的发展。然而，这些模型在实际的下游视觉任务中，是否真正具备良好的泛化能力和可用性，仍然值得深入探讨。为了应对复杂多变的下游任务，本报告围绕“可泛化模型”的主题，从“跨域”、“开放词汇”、“跨视角”这几个角度出发，探索并揭示了现有模型的不足，并报告我们的几项最新研究: 1)针对跨域尤其是跨域小样本学习，我们将研究重点从传统分类任务扩展到目标检测，构建了首个跨域小样本目标检测数据集，并提出了一种轻量高效的学习方法; 2)针对跨域鲁棒性提升方面，面向自动驾驶场景，我们从多模态数据融合出发，增强模型在不同天气和光照条件下的适应能力; 3)针对开放词汇检测问题，我们构建了一个包含百万级标注的开放词汇遥感目标检测数据集，并提出首个面向该任务的开放词汇物体检测模型; 4)针对跨视角问题，我们聚焦Ego-Exo视角下的物体关系关联任务，提出了当前效果领先的跨视角物体关联模型。

第19期

2025.05.06

谢雨彤

MBZUAI助理教授

深度学习的突破为医学影像分析带来了革命性的变革。基于深度神经网络的方法能够自动学习影像数据中的复杂特征，实现疾病分类、病灶检测、影像分割等任务，并在多个医疗场景中展现出卓越性能。然而，医学影像数据具有专业性强、标注成本高、任务复杂多样等特点，加之多模态数据之间存在显著差异，使得相关技术在临床实际应用中仍面临诸多挑战。本报告将围绕上述关键问题，系统地介绍我们在深度学习驱动的医学影像分析方向上的探索与思考。内容涵盖从专病场景出发的定制化模型设计，到面向多任务、跨模态需求的通用分析框架，致力于构建高效、可迁移的通用医学影像分析模型，并展望未来的发展方向。

继续下滑，发现更多