Weak Supervision for Improved Precision in Search Systems

作者: Sriram Vasudevan

发布时间: 2025-03-11

来源: arxiv

研究方向: 搜索引擎优化、弱监督学习、深度学习

主要内容

本文提出了一种基于弱监督学习的方法,旨在通过推断查询-文档对的质历来提高大规模搜索引擎的精确度。该方法结合了领域知识、有限的标注数据和自动化标签函数,以生成高质量的训练数据,从而在不牺牲大量标注工作的情况下,提升搜索系统的性能。

主要贡献

1. 提出了一种新的弱监督学习技术,通过领域知识和有限的标注数据生成高质量训练数据。

2. 通过结合标注数据和自动化标签函数,实现了大规模数据点的有效标注。

3. 设计了一个分布式、可扩展的弱监督系统,并将其成功部署到生产环境中。

4. 改进了学习到排名模型的精确度,同时保持了用户参与度的性能。

研究方法

1. 使用自动化标签函数(Label Functions, LFs)对数据进行标注。

2. 采用基于概率的生成模型对LF输出进行聚合。

3. 将弱监督标签用于学习到排名模型的训练,以提高精确度。

4. 使用Apache Spark和TensorFlow进行分布式计算和模型训练。

实验结果

实验结果表明,该方法在离线评估中显著提高了搜索模型的NDCG@10指标,同时在在线部署中也实现了业务目标,即提高了搜索的精确度。

未来工作

未来工作将包括使LF可用于在线服务,增强弱标签器的性能,并探索使用大型语言模型作为LF的潜力。