WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval
作者: Michael Dinzinger, Laura Caspari, Kanishka Ghosh Dastidar, Jelena Mitrović, Michael Granitzer
发布时间: 2025-03-03
来源: arxiv
研究方向: 多语言信息检索和问答系统
主要内容
WebFAQ项目旨在构建一个大规模的多语言问答数据集,用于信息检索和问答系统的研究与开发。
主要贡献
1. 构建了一个包含96百万自然问答对的多语言问答数据集,覆盖75种语言。
2. 基于WebFAQ数据集创建了20个单语检索基准,并使用高级过滤技术确保数据质量。
3. 利用WebFAQ数据集对预训练的语言模型进行微调,显著提高了检索性能。
4. 构建了一个包含1.5百万对齐问答的1001种语言对的翻译质量较高的双语语料库。
研究方法
1. 从Common Crawl数据中提取FAQ风格的schema.org标注。
2. 使用fastText进行语言检测,对问答对进行语言分类。
3. 使用XLM-RoBERTa进行主题和问题类型分类。
4. 使用语义相似性搜索进行近重复检测。
5. 使用Jina进行语义一致性过滤。
6. 使用LaBSE和GEMBA进行双语语料库的构建和翻译质量评估。
实验结果
实验结果表明,WebFAQ数据集能够显著提高检索性能,并且对其他多语言检索基准也有积极影响。
未来工作
进一步研究如何利用WebFAQ数据集改进多语言信息检索和问答系统的性能,以及如何扩展数据集以包含更多语言和主题。