Contextualizing biological perturbation experiments through language

作者: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter

发布时间: 2025-03-03

来源: arxiv

研究方向: 生物信息学，机器学习，生物实验分析

主要内容

该研究提出了一种名为PERTURBQA的基准，用于评估机器学习模型在分析生物实验数据方面的能力。该基准通过问答的形式，要求模型对生物实验结果进行推理和分析，例如预测基因表达的变化和基因集富集等。

1. 提出了PERTURBQA基准，用于评估机器学习模型在生物实验数据分析方面的能力。

2. 开发了SUMMER框架，该框架基于大型语言模型（LLM）和生物知识图谱，在PERTURBQA基准上取得了优异的性能。

3. 强调了语言模型在捕捉复杂生物关系和解释实验结果方面的潜力。

1. 构建了一个包含五个真实数据集的PERTURBQA基准，用于评估模型的性能。

2. 开发了SUMMER框架，该框架包括三个步骤：特征提取、检索和问答。

3. 使用LLM来生成基因的文本描述，并检索相关的实验结果。

4. 通过问答的方式引导LLM进行推理，以回答关于生物实验结果的问题。

SUMMER在PERTURBQA基准上取得了优异的性能，优于现有的基线方法。此外，SUMMER还能够生成比基线方法更准确和更具有解释性的基因集描述。

未来的工作将集中于改进SUMMER框架，提高其在生物实验数据分析方面的性能。此外，还将探索将SUMMER应用于其他生物学领域，例如药物发现和疾病研究。