Contextualizing biological perturbation experiments through language

作者: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter

发布时间: 2025-03-03

来源: arxiv

研究方向: 生物信息学,机器学习,生物实验分析

主要内容

该研究提出了一种名为PERTURBQA的基准,用于评估机器学习模型在分析生物实验数据方面的能力。该基准通过问答的形式,要求模型对生物实验结果进行推理和分析,例如预测基因表达的变化和基因集富集等。

主要贡献

1. 提出了PERTURBQA基准,用于评估机器学习模型在生物实验数据分析方面的能力。

2. 开发了SUMMER框架,该框架基于大型语言模型(LLM)和生物知识图谱,在PERTURBQA基准上取得了优异的性能。

3. 强调了语言模型在捕捉复杂生物关系和解释实验结果方面的潜力。

研究方法

1. 构建了一个包含五个真实数据集的PERTURBQA基准,用于评估模型的性能。

2. 开发了SUMMER框架,该框架包括三个步骤:特征提取、检索和问答。

3. 使用LLM来生成基因的文本描述,并检索相关的实验结果。

4. 通过问答的方式引导LLM进行推理,以回答关于生物实验结果的问题。

实验结果

SUMMER在PERTURBQA基准上取得了优异的性能,优于现有的基线方法。此外,SUMMER还能够生成比基线方法更准确和更具有解释性的基因集描述。

未来工作

未来的工作将集中于改进SUMMER框架,提高其在生物实验数据分析方面的性能。此外,还将探索将SUMMER应用于其他生物学领域,例如药物发现和疾病研究。