Unified Kernel-Segregated Transpose Convolution Operation
作者: Vijay Srinivas Tida, Md Imran Hossen, Liqun Shan, Sai Venkatesh Chilukoti, Sonya Hsu, Xiali Hei
发布时间: 2025-03-03
来源: arxiv
研究方向: 深度学习模型优化,特别是GANs中的转置卷积层
主要内容
本文提出了一种名为统一内核分割的转置卷积操作优化方法,旨在减少计算开销和内存使用,提高GANs中转置卷积层的效率。
主要贡献
1. 引入了一种优化算法,使用统一内核分割机制来最小化计算开销和内存使用。
2. 分析了该方法在多个数据集上的性能,并展示了显著的内存节省。
3. 通过消融研究,验证了该方法在GANs转置卷积层上的性能提升。
4. 实现了该方法在EB-GAN模型中的转置卷积层,并展示了显著的内存节省效果。
研究方法
1. 统一内核分割机制
2. 消融研究
3. 实验分析
实验结果
实验结果表明,该方法在NVIDIA RTX GPU(Intel Xeon CPU)上实现了2.02×(3.89×)的平均计算速度提升,同时显著减少了内存使用。
未来工作
未来研究可以探索减少额外指令和存储四个子内核大小的数组的方法,以进一步优化性能。此外,可以研究将该方法应用于其他类型的卷积操作,如扩张卷积和矩阵乘法卷积。