Fine-tuning BERT with Bidirectional LSTM for Fine-grained Movie Reviews Sentiment Analysis

作者: Gibson Nkhata, Susan Gauch, Usman Anjum, Justin Zhan

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理（NLP）和情感分析（SA）

主要内容

本文研究了利用预训练的BERT模型结合双向长短期记忆网络（BiLSTM）进行电影评论的情感分析。该研究旨在提高二元和细粒度情感分类的准确性，并通过数据增强和整体情感极性计算来增强模型性能。

主要贡献

1. 将BERT与BiLSTM结合，在电影评论的情感分析中实现二元和细粒度情感分类，并取得了超越现有最佳模型（SOTA）的准确率。

2. 改进了数据增强技术，以增强模型在细粒度情感分类中的性能。

3. 基于BERT+BiLSTM的输出向量计算预测评论的整体情感极性。

4. 比较和评估了实验结果，包括与SOTA模型的比较，使用基准数据集。

5. 提出了一个启发式算法来计算从BERT+BiLSTM输出向量预测的评论的整体极性。

6. 针对不同分类任务（二元、三分类、四分类和五分类）进行了模型调整和评估。

研究方法

1. 预训练语言模型（BERT）

2. 双向长短期记忆网络（BiLSTM）

3. 模型微调

4. 数据增强（SMOTE和NLPAUG）

5. 整体情感极性计算

6. 启发式算法

实验结果

在IMDb、SST-2、SST-5和Amazon等基准数据集上进行的实验表明，该模型在二元分类中达到了97.67%的准确率，超过了SOTA模型。在五分类任务中，模型在SST-5和Amazon-5数据集上分别达到了59.48%和69.68%的准确率。此外，通过数据增强和整体情感极性计算，模型性能得到了进一步提升。

未来工作

探索将数据增强技术应用于转换后的BERT特征的有效策略，以克服转换过程中语义信息的损失。研究不同句子成分对情感预测的贡献，以揭示句子结构对情感分析的影响。探索使用其他预训练语言模型（如RoBERTa和GPT）来进一步提升情感分析的准确性和性能。