DeepGEMM：一个高性能矩阵乘法库，助力深度学习高效计算

DeepGEMM是OpenSeek团队开源的一个高性能矩阵乘法库，旨在通过优化FP8（8位浮点数）数据类型来提高计算效率和能效。该库支持普通和混合专家（MoE）分组GEMM运算，并且采用CUDA编写，无需安装过程中的编译，通过轻量级的即时编译（JIT）模块在运行时编译所有内核。

1、高效性：

DeepGEMM在Hopper GPU上性能高达1350+ FP8 TFLOPS，相比普通GEMM中矩阵运算速度可提升2倍以上。

在分组GEMM中，连续布局和掩码布局下的速度可提升1.2倍。

2、细粒度缩放：

支持细粒度缩放功能，适用于不同规模的模型训练和推理。

3、兼容性：

专为FP8数据类型设计，支持低精度计算，同时保持与高精度计算相当的精度。

4、易用性：

代码简洁，核心函数只有一个kernel函数，大约300行代码，便于理解和使用。

5、硬件加速：

通过CUDA编写，利用GPU的并行计算能力，显著提高矩阵乘法的计算效率。

6、应用场景：

适用于深度学习模型的训练和推理，特别是在需要高效计算和低延迟的应用场景中。

1、FP8数据类型：DeepGEMM利用FP8数据类型进行计算，减少了内存占用和计算资源消耗，同时保持较高的计算精度。

2、即时编译（JIT）** ：通过JIT模块在运行时编译内核，避免了安装过程中的编译步骤，提高了开发效率。

3、混合专家（MoE）支持：支持MoE分组GEMM运算，适用于大规模模型的训练和推理。

M	N	K	Computation	Memory bandwidth	Speedup
64	2112	7168	206 TFLOPS	1688 GB/s	2.7x
64	24576	1536	289 TFLOPS	2455 GB/s	1.7x
64	32768	512	219 TFLOPS	2143 GB/s	1.8x
64	7168	16384	336 TFLOPS	2668 GB/s	1.4x
64	4096	7168	287 TFLOPS	2320 GB/s	1.4x
64	7168	2048	295 TFLOPS	2470 GB/s	1.7x
128	2112	7168	352 TFLOPS	1509 GB/s	2.4x
128	24576	1536	535 TFLOPS	2448 GB/s	1.6x
128	32768	512	358 TFLOPS	2103 GB/s	1.5x
128	7168	16384	645 TFLOPS	2604 GB/s	1.4x
128	4096	7168	533 TFLOPS	2221 GB/s	2.0x
128	7168	2048	510 TFLOPS	2277 GB/s	1.7x
4096	2112	7168	1058 TFLOPS	527 GB/s	1.1x
4096	24576	1536	990 TFLOPS	786 GB/s	1.0x
4096	32768	512	590 TFLOPS	1232 GB/s	1.0x
4096	7168	16384	1358 TFLOPS	343 GB/s	1.2x
4096	4096	7168	1304 TFLOPS	500 GB/s	1.1x
4096	7168	2048	1025 TFLOPS	697 GB/s	1.1x