LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation
作者: Keisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci
发布时间: 2025-03-03
来源: arxiv
研究方向: 语音识别(ASR)
主要内容
本文提出了一种名为LITEASR的自动语音识别(ASR)编码器压缩方法,通过低秩近似技术显著降低了推理成本,同时保持了转录准确性。该方法利用了中间激活的强低秩特性,通过PCA对少量校准数据进行分析,将线性变换近似为低秩矩阵乘法链,并进一步优化了自注意力机制以在降低的维度上工作。
主要贡献
1. 引入了LITEASR,一种使用激活值低秩近似的ASR编码器压缩方法。
2. 展示了该方法在准确性和效率之间达到Pareto最优平衡的全面评估。
研究方法
1. 分析激活的低秩特性。
2. 使用PCA提取主成分并近似线性变换。
3. 优化自注意力机制以在降低的维度上工作。
4. 实现专用的GPU内核以加速注意力分数和输出的计算。
实验结果
LITEASR将Whisper large-v3的编码器大小压缩了约40%,执行速度提高了约1.4倍,同时准确性损失可以忽略不计。在更高效的配置中,模型大小可以减少到原来的不到一半,同时提供更好的准确性。
未来工作
探索其他架构,如Conformer,以提供进一步的压缩机会;评估在低资源语言和特定领域应用中的性能;研究隐私、监控或大规模部署中固有的偏差问题。