Enhanced Multi-Tuple Extraction for Alloys: Integrating Pointer Networks and Augmented Attention

作者: Mengzhe Hei, Zhouran Zhang, Qingbao Liu, Yan Pan, Xiang Zhao, Yongqian Peng, Yicong Ye, Xin Zhang, Shuxin Bai

发布时间: 2025-03-11

来源: arxiv

研究方向: AI for materials

主要内容

本文针对科学文献中多组元提取的挑战,提出了一种结合指针网络和增强注意力机制的新型框架,以提高从多主元素合金中提取机械性能信息的准确性。

主要贡献

1. 提出了一种新的多组元提取框架,结合MatSciBERT和指针网络进行实体提取,并使用跨实体和内部实体注意力机制进行实体分配。

2. 构建了一个包含255个句子的语料库,其中包含从多主元素合金的机械性能文献中提取的多种数量的组元。

3. 在具有1、2、3和4个组元的多个数据集上进行了严格实验,F1分数分别达到0.963、0.947、0.848和0.753,证明了模型的有效性。

4. 与四个大型语言模型相比,该模型在提示回答框架中表现更好。

研究方法

1. MatSciBERT

2. 指针网络

3. 跨实体注意力机制

4. 内部实体注意力机制

5. 实体分配模型

6. 数据集划分

实验结果

在具有1、2、3和4个组元的数据集上,模型的F1分数分别达到0.963、0.947、0.848和0.753,在随机选择的数据集上达到0.854。模型在实体提取和分配任务中均表现出优异的性能,优于大型语言模型。

未来工作

未来研究将探索以下方面:使用更高级的注意力机制和模型结构,处理更复杂的文本结构;将模型应用于其他材料领域,以扩展其应用范围;开发自动数据标注方法,以降低标注成本和提高效率。