WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval

作者: Michael Dinzinger, Laura Caspari, Kanishka Ghosh Dastidar, Jelena Mitrović, Michael Granitzer

发布时间: 2025-03-03

来源: arxiv

研究方向: 多语言信息检索和问答系统

主要内容

WebFAQ项目旨在构建一个大规模的多语言问答数据集，用于信息检索和问答系统的研究与开发。

1. 构建了一个包含96百万自然问答对的多语言问答数据集，覆盖75种语言。

2. 基于WebFAQ数据集创建了20个单语检索基准，并使用高级过滤技术确保数据质量。

3. 利用WebFAQ数据集对预训练的语言模型进行微调，显著提高了检索性能。

4. 构建了一个包含1.5百万对齐问答的1001种语言对的翻译质量较高的双语语料库。

1. 从Common Crawl数据中提取FAQ风格的schema.org标注。

2. 使用fastText进行语言检测，对问答对进行语言分类。

3. 使用XLM-RoBERTa进行主题和问题类型分类。

4. 使用语义相似性搜索进行近重复检测。

5. 使用Jina进行语义一致性过滤。

6. 使用LaBSE和GEMBA进行双语语料库的构建和翻译质量评估。

实验结果表明，WebFAQ数据集能够显著提高检索性能，并且对其他多语言检索基准也有积极影响。

进一步研究如何利用WebFAQ数据集改进多语言信息检索和问答系统的性能，以及如何扩展数据集以包含更多语言和主题。