Improving customer service with automatic topic detection in user emails

作者: Bojana Bašaragin, Darija Medvecki, Gorana Gojić, Milena Oparnica, Dragiša Mišković

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理(NLP)在客户服务领域的应用

主要内容

该研究提出了一种基于BERTopic的NLP管道,用于提高塞尔维亚电信公司Telekom Srbija的客户服务效率。该管道通过自动检测和标记用户电子邮件的主题,实现了对客户服务电子邮件的自动分类。

主要贡献

1. 开发了一种基于BERTopic的NLP管道,用于自动检测和标记电子邮件主题。

2. 实现了对客户服务电子邮件的自动分类,提高了客户服务效率。

3. 该管道适用于多种语言,特别是低资源和高形态的语言。

4. 将BERTopic应用于实际客户服务场景,证明了其在客户服务领域的有效性。

研究方法

1. 数据预处理:包括脚本标准化、小写化、标点符号和特殊字符移除、短文档移除、重复文档移除、结束语移除、匿名化占位符移除、长文档移除等。

2. 模型训练:使用BERTopic进行无监督主题建模,包括嵌入提取、降维、聚类和主题表示创建。

3. 模型输出修改:通过手动分组将72个原始主题减少到12个预定义的主题。

4. 评估:通过评估处理速度和主题分配的正确性来评估模型性能。

实验结果

实验结果表明,该模型在处理速度和主题分配的正确性方面表现良好。处理速度平均为0.0521秒/封邮件,加权平均F1分数为0.96。

未来工作

未来工作将包括改进管道以更准确地分配每封邮件的多个主题,并处理超过当前128个标记限制的消息。