快乐8选五复式的价格表

新闻动态你的位置:快乐8选五复式的价格表 > 新闻动态 > CausCell: 虚拟细胞进入“白盒时代”

CausCell: 虚拟细胞进入“白盒时代”

发布日期:2025-08-16 13:02    点击次数:118

编者按:在生命科学研究中,逼真且可解释的细胞模型一直备受期待。但现有的单细胞 AI 建模多依赖于深度神经网络等“黑盒”方法,难以解开高维组学数据背后的生物学因果机制。近日,微软亚洲研究院(上海)与同济大学合作在 《自然-通讯》(Nature Communications)杂志上发表了最新成果 CausCell。这一框架首次将结构因果模型与扩散模型深度融合,实现了细胞尺度的因果解耦表征与可控的反事实生成,为虚拟细胞构建提供了可解释、可泛化的“白盒”新路径。CausCell 不仅在多项指标上超越现有方法,还在小样本情境中揭示了衰老相关基因的生物学新发现,为生命科学数字化提供了全新思路。

本文转载自公众号 “BioArt”,原文标题《专家点评Nat Commun丨刘琦团队等发布虚拟细胞构建的AI“白盒”框架CausCell,探索虚拟细胞构建AI创新范式》

在生命科学的数字化进程中,构建高保真虚拟细胞(virtual cell)被视为“数字生物学”领域的圣杯。其中单细胞测序技术作为解析单细胞尺度生物学功能的一种关键技术手段,正深刻重塑现代生物学研究的格局。如何基于单细胞测序技术对于细胞进行有效表征,是虚拟细胞 AI 构建的核心问题。

领域内目前大量的工作均同质化聚焦于发展以传统生成式 AI(如 VAE、AutoEncoder-based)和单细胞大模型(foundation model)为主导的表征方法,但该类模型本质上基于深度神经网络和自编码器等“黑箱”表征,虽能从组学中提取隐含特征,但无法对细胞相互耦合的潜在因素(如细胞类型、细胞状态、内驱标志物,外在环境刺激响应)进行理解和识别。面对高维度、高噪声、生物学概念(Biological Concept)高度纠缠(Entanglement)的单细胞组学“戈耳狄之结”(注:源于佛律基亚传说,记载于宙斯神庙中的牛车绳结,是'缠绕不已、难以理清的问题'的经典隐喻),该类表征方法缺乏对潜在细胞生物学机制的可解释性和相关生物学因子的可操控性。尤其在建模细胞发育轨迹、疾病演化或空间-时间变化等复杂场景时,模型若无法识别和解耦潜在生物学概念(如感染状态、时间、处理方式等),将严重限制其模型后续的推理能力。

近日,同济大学生命科学与技术学院生物信息系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组联合微软亚洲研究院(上海)李东胜团队在 《自然-通讯》(Nature Communications)杂志上发表了题为 Causal disentanglement for single-cell representations and controllable counterfactual generation 的研究论文。该交叉团队首次发布基于因果解耦(Causal Disentanglement)的虚拟细胞构建 AI 框架 CausCell。

合作团队认为,以单细胞大模型等为主导的“黑盒”表征方式,可能并非是虚拟细胞 AI 构建的一种有效方式,领域内亟待探索虚拟细胞 AI 构建的创新范式。

CausCell 首次将结构因果模型(SCM)与扩散模型深度融合,提出一种实现细胞尺度因果解耦表征与反事实生成的虚拟细胞 AI 构建创新路径。这一路径突破传统单细胞“黑盒”表征瓶颈,不仅为虚拟细胞 AI 构建提供了可解释、可泛化的“白盒”表征新范式,更在小样本组学样本场景下成功识别出衰老相关基因,为虚拟细胞 AI 构建研究提供了一种有别于单细胞基础模型“黑盒”表征的创新路径。

Causal disentanglement for single-cell representations and controllable counterfactual generation

论文链接:

https://www.nature.com/articles/s41467-025-62008-1

在该虚拟细胞建模设计上,CausCell 将单细胞组学表征分解为可观测概念(如细胞类型、组织来源)与未解释概念(噪声、未知生物变异),该机制使得模型不仅可以有效解耦复杂生物概念,还可对每个细胞进行个性化控制与生成。

具体而言,CausCell 通过两大模块实现因果解耦表征:

(1)因果解耦模块:采用 SCM 层建模概念之间的因果关系,生成具有生物语义的内生嵌入;

(2)扩散生成模块:基于跨注意力机制的对解耦的归纳偏置优势,同时通过因果嵌入引导扩散生成过程,从而生成符合真实生物规律的样本(如图1所示)。

此外,为提升模型训练效率与解耦效果,研究团队设计了新的损失函数,综合引入证据下界(ELBO)损失项与不可解释概念独立性约束,确保潜变量间的清晰边界与表达精度。

总体而言,CausCell 所提供的虚拟细胞构建框架具备三大核心优势:

(1)可解释性(Explainability):模型借助因果有向无环图(cDAG),从潜在空间中恢复具备语义意义的生物学概念及其因果关系,大幅增强了模型对生物机制的解释能力;

(2)泛化性(Generalizability):不同于以往基于 VAE 的生成方法,CausCell 以扩散模型作为生成主干,具备强大的数据表达与泛化能力,能够实现高质量、稳定的单细胞组学样本生成;

(3)可控性(Controllability):模型可在保持因果一致性的前提下,对潜在概念空间进行有针对性的干预,从而实现对细胞状态的反事实模拟生成。

这一创新框架不仅提升了对单细胞组学数据的理解与利用能力,也为“虚拟细胞”建模提供了切实可行的一种“白盒”表征的创新技术路径。

图1:CausCell 框架图

为全面评估 CausCell 的解耦性能,研究团队同时构建了领域内首个系统性的虚拟细胞解耦表征的基准体系。选取五个真实生物数据集涵盖不同物种、组织和技术平台,并在“分布内(ID)”与“分布外(OOD)”两类场景中进行其表征性能测试。

结果显示:在解耦概念的预测准确率、聚类一致性、抗批次效应能力等多个维度上,CausCell 均显著优于相关具备一定解耦能力的计算模型(如 scDisInFact、Biolord、CPA 等);在生成质量评估中,CausCell 在趋势匹配、结构保持及标志基因保真度等方面不仅优于前述模型,也持平甚至超过主流的生成式模型(如 scVI、scGen)(如图2所示);更重要的是,CausCell 首次提供一种准确模拟因果干预效应的细胞虚拟生成路径,而细胞虚拟生成是虚拟细胞构建的重要应用需求。通过在疟原虫感染的时空肝脏数据集上所进行的虚拟干预实验表明:缺乏因果结构约束的模型所生成的虚拟细胞错误地显示高感染评分,而考虑因果结构约束的模型则准确反映"时间→感染→表型"的因果链。由此可见:传统不具备因果建模能力的模型生成的虚拟细胞在生物指标上表现出不符合生物学机制约束的失真行为,而因果一致性使反事实生成更符合生物学逻辑。

同时,在真实应用场景中,单细胞组学样本往往样本量有限、成本高昂,CausCell 具备的反事实生成能力在此情形下展现出潜力:在分析仅含2只小鼠/年龄组的脑衰老 MERFISH 数据时,通过年龄概念干预成功模拟不同年龄段细胞的转录变化趋势,复现已有结论,并进一步 de novo 识别出与衰老相关的免疫调节基因在纹状体小胶质细胞中特异性上调,其富集的T细胞激活通路提示该区域存在独特的免疫重塑机制,为理解神经退行性疾病提供了崭新视角。

图2:CausCell 性能测评

综上所述,本次由交叉团队联合发布的 CausCell 作为领域内首个融合结构因果建模与扩散生成机制的虚拟细胞建模的 AI “白盒”框架,不仅在虚拟细胞的解耦表征、反事实生成等关键任务上实现了方法路径的重要突破,更在实际应用中展现出可信的生物学洞察能力与泛化能力。其因果驱动的潜变量建模方式使得复杂生物概念得以被清晰分解与操控,显著提升了模型的可解释性与可控性;同时,扩散生成模型确保了生成数据的生物真实度与连续性表达;而在面对异质数据、分布外任务及小样本场景时,CausCell 仍能保持稳定而高质量的建模表现。CausCell 推动了虚拟细胞构建从“相关性建模”走向“因果性建模”的关键一步,也为后续构建具有可解释性与生成能力的“虚拟细胞”提供了一种创新性的方法路径。

专家点评

领域内当下对于虚拟细胞表征的研究大多聚焦于单细胞大模型驱动的相关“黑箱”模型开发,而刘琦教授团队与微软亚洲研究院联合开发的 CausCell 框架另辟蹊径,代表了虚拟细胞构建的AI路径从“黑箱”相关性建模向“白盒”因果性建模的一种可能的范式转变,同时也为理解细胞状态调控的底层逻辑提供了一种可解释、可操控的新方法。这一研究的重要意义可以体现在三个方面:

1. 因果解耦的理论突破:传统单细胞表征模型(如 VAE、基础模型等)受限于生物概念的纠缠性,难以解析细胞状态的内生驱动因素。CausCell 通过结构因果模型(SCM)显式建模细胞类型、环境响应等概念的因果关系,首次实现了单细胞数据的“机制可读”表征,这种解耦表征学习的能力为疾病机制研究提供了一种“可解释学习”的新视角。

2. 解耦与生成的理论融合:研究团队创新性地结合因果图的结构约束和扩散模型的生成优势,尝试去解决生物样本生成质量与生物学合理性难以兼顾的重要挑战。其反事实生成模块可精准模拟干预效应,相比传统生成模型(如scVI)更符合生物学逻辑,这为生成符合生物学底层逻辑的虚拟细胞提供了可行的方法路径。

3. 小样本场景下的生物知识挖掘:在单细胞数据稀缺的现实挑战下,CausCell 通过因果归纳偏置显著降低对样本数量的依赖。例如在脑衰老研究中,仅需少量样本即可复现已知规律并发现新基因,这一特性对面向罕见病等小样本场景下的生物知识挖掘提供了一种切实有效的计算模型和工具。

未来,此类因果框架将有望拓展至器官模型、疾病网络等复杂系统建模以及时空动态挖掘(如发育轨迹重构)。该研究所发展的这种创新性的“因果+生成”的研究范式,将进一步推动虚拟细胞构建的 AI 技术革新,同时也为数据驱动的生物学研究突破“黑盒” AI 桎梏提供了一种可行的新思路。

——陈洛南

上海交通大学讲席教授

专家点评

近年来,单细胞组学数据的爆炸式增长为揭示生物学机制提供了前所未有的机遇。然而,从如此高维且复杂的数据中获取可解释、可控的细胞表示,仍然是研究中的难点。传统的深度生成模型(如变分自编码器,VAE)虽可处理高维数据,但在结果的可解释性和生成的可控性方面存在明显局限,尤其是在推断外部条件或实验扰动下的细胞状态时,缺乏足够的灵活性。

刘琦团队和微软亚洲研究院合作针对上述问题进行了深入的思考和探索,提出了一种值得关注的新方法:将解缠学习(disentangled learning)与扩散模型(diffusion model)相结合,并引入结构因果模型(structural causal model),首次在单细胞建模中实现了因果结构与扩散过程的融合。该设计使模型在提取细胞嵌入时能够捕捉特定概念的细胞表示,并能基于概念层级的因果关系灵活调整细胞状态,从而实现虚拟细胞的反事实生成。其主要贡献可概括为以下三个方面:

1. 提升了可解释性与可控性:因果结构的引入使生成的细胞嵌入空间能够清晰地区分概念因素,避免了传统变分自编码器中由纠缠潜变量带来的不透明性。

2. 新颖的反事实生成能力:该模型能够合成原始数据中不存在的细胞类型或条件组合。例如,它可以模拟药物对未测量组织的作用的虚拟细胞,有助于预测实验结果并优化研究设计。

3. 为小样本研究和生物信号挖掘提供新工具:反事实生成可增强稀缺数据场景的建模能力,并帮助研究人员识别被噪声或数据不足所掩盖的生物学模式。

综合来看,这项研究为单细胞状态的表征与生成提供了一种新方法,不仅显著增强了生成模型的可解释性,也为研究人员探索生物系统响应、进行数据增强及指导实验设计等方面提供了有价值的工具。这项针对单细胞表征学习的创新探索展现出广阔的应用前景,值得该领域研究者进一步关注和深入研究。)

——夏铮

Associate Professor, OHSU School of Medicine, U.S.



Powered by 快乐8选五复式的价格表 @2013-2022 RSS地图 HTML地图

top