性能调优演示¶
本部分在 H800 PCIe(SM90a,114 个 SM)上对三个鳄霸 GEMM 内核进行迭代优化。每个内核均以连续工作日志的形式撰写:从正确的基线出发,对照硬件上限进行测量,每次只改一处,重新测量,并说明每项优化为何有效。
在深入阅读之前,请先浏览 环境搭建:TimerOption、TFLOPS 与硬件效率,了解计时与效率的计算方式——后续案例均使用同一套测量框架。
稠密 GEMM FP16¶
半精度矩阵乘法从 208 → 382 TFLOPS(+83%),与 cuBLAS 持平。分块几何、流水线深度、split-output 1p2c,以及 WN=168 的占用率断崖。
稀疏 GEMM:FP16 与 E4M3¶
结构化 2:4 稀疏 GEMM,规模 4096 × 8192 × 8192。FP16:368 → 655 TFLOPS(+78%)。E4M3:671 → 1127 TFLOPS(+68%)。元数据传递、.co 与 .cu 的边界,以及三阶段不连续性。
块缩放 GEMM FP8¶
带每块缩放的 FP8 E4M3:397 → 621 TFLOPS(+56%)。TMA 与缩放累加的重叠、N256 分块、L2 提升与缩放预取。