Matrix Factorization for Inferring Associations and Missing Links
作者: Ryan Barron, Maksim E. Eren, Duc P. Truong, Cynthia Matuszek, James Wendelberger, Mary F. Dorn, Boian Alexandrov
发布时间: 2025-03-07
来源: arxiv
研究方向: 网络分析、链接预测、矩阵分解
主要内容
本文提出了一种基于矩阵分解的链接预测方法,旨在通过分析现有网络中的模式和关系来识别网络中未观察到的潜在连接。该方法结合了自动模型确定和不确定性量化,以提高预测的准确性和可靠性。
主要贡献
1. 提出了三种新的链接预测方法(WNMFk、BNMFk和RNMFk),以及结合逻辑分解的集成变体。
2. 证明了将逻辑分解作为集成组件添加到WNMFk、BNMFk和RNMFk中可以改善蛋白质-蛋白质相互作用(PPI)数据集中的缺失链接预测。
3. 采用k-means聚类和Otsu阈值选择用于布尔矩阵分解。
4. 比较了WNMFk、BNMFk和RNMFk在布尔和非布尔设置下的性能,以评估它们在预测正确矩阵秩和识别缺失链接方面的准确性。
5. 强调了选择适当秩的重要性,以改善布尔和高斯分布的合成数据集中的链接预测。
6. 分析了数据稀疏性对链接预测性能的影响。
7. 引入了一个不确定性量化(UQ)框架,为链接预测方法提供拒绝选项,以提高整体准确性。
8. 展示了如何通过减少覆盖率来提高整体准确性,覆盖率是指模型拒绝做出决定的样本比例。
9. 提供了一个用户友好的Python库T-ELF,该库实现了提出的方法,并支持多进程、GPU加速和高性能计算(HPC)环境以处理大规模计算。
研究方法
1. 非负矩阵分解(NMF)
2. 逻辑矩阵分解(LMF)
3. 非负矩阵分解与NMFk)
4. 加权自动模型确定(非负矩阵分解(WNMFk)
5. 布尔非负矩阵分解(BNMFk)
6. 推荐非负矩阵分解(RNMFk)
7. 集成方法
8. Otsu阈值选择
9. k-means聚类
10. 不确定性量化(UQ)
11. 布尔扰动
12. 布尔聚类
实验结果
在三个合成数据集和五个真实世界蛋白质-蛋白质相互作用网络数据集上对提出的方法进行了评估。实验结果表明,与LMF和对称LMF(symLMF)相比,提出的方法在预测性能方面有所改进。此外,实验还强调了秩选择的重要性,并证明了不确定性量化在提高预测可靠性方面的好处。
未来工作
未来工作将集中在以下方面:探索更复杂的集成策略,以进一步提高预测性能;研究如何将提出的方法应用于其他类型的网络,例如社交网络和知识图谱;开发更有效的不确定性量化方法,以进一步提高预测的可靠性。