LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

作者: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci

发布时间: 2025-03-03

来源: arxiv

研究方向: 语音识别(ASR)

主要内容

本文提出了一种名为LITEASR的自动语音识别(ASR)编码器压缩方法,通过低秩近似技术显著降低了推理成本,同时保持了转录准确性。该方法利用了中间激活的强低秩特性,通过PCA对少量校准数据进行分析,将线性变换近似为低秩矩阵乘法链,并进一步优化了自注意力机制以在降低的维度上工作。

主要贡献

1. 引入了LITEASR,一种使用激活值低秩近似的ASR编码器压缩方法。

2. 展示了该方法在准确性和效率之间达到Pareto最优平衡的全面评估。

研究方法

1. 分析激活的低秩特性。

2. 使用PCA提取主成分并近似线性变换。

3. 优化自注意力机制以在降低的维度上工作。

4. 实现专用的GPU内核以加速注意力分数和输出的计算。

实验结果

LITEASR将Whisper large-v3的编码器大小压缩了约40%,执行速度提高了约1.4倍,同时准确性损失可以忽略不计。在更高效的配置中,模型大小可以减少到原来的不到一半,同时提供更好的准确性。

未来工作

探索其他架构,如Conformer,以提供进一步的压缩机会;评估在低资源语言和特定领域应用中的性能;研究隐私、监控或大规模部署中固有的偏差问题。