LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

作者: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci

发布时间: 2025-03-03

来源: arxiv

研究方向: 语音识别（ASR）

主要内容

本文提出了一种名为LITEASR的自动语音识别（ASR）编码器压缩方法，通过低秩近似技术显著降低了推理成本，同时保持了转录准确性。该方法利用了中间激活的强低秩特性，通过PCA对少量校准数据进行分析，将线性变换近似为低秩矩阵乘法链，并进一步优化了自注意力机制以在降低的维度上工作。

1. 引入了LITEASR，一种使用激活值低秩近似的ASR编码器压缩方法。

2. 展示了该方法在准确性和效率之间达到Pareto最优平衡的全面评估。

1. 分析激活的低秩特性。

2. 使用PCA提取主成分并近似线性变换。

3. 优化自注意力机制以在降低的维度上工作。

4. 实现专用的GPU内核以加速注意力分数和输出的计算。

LITEASR将Whisper large-v3的编码器大小压缩了约40%，执行速度提高了约1.4倍，同时准确性损失可以忽略不计。在更高效的配置中，模型大小可以减少到原来的不到一半，同时提供更好的准确性。

探索其他架构，如Conformer，以提供进一步的压缩机会；评估在低资源语言和特定领域应用中的性能；研究隐私、监控或大规模部署中固有的偏差问题。