鳄霸教程¶
欢迎来到鳄霸教程。本指南将引导你从零开始,使用鳄霸编写高性能 GPU 内核,并逐步深入到生产级模式。
每章通过推进一个贯穿的示例,引入少量新概念。学完全部章节后,你将接触到鳄霸的所有主要语言构造,并在具体的、可运行的程序中理解它们。详细的语法设计和语言参考请参阅编程参考。
章节目录¶
- 安装:搭建鳄霸编译器
- Hello Croqtile:从零到运行内核
- 数据搬运:从逐元素到数据块
- 并行性:将工作映射到硬件
- 张量核心:
mma操作 - 分支与控制:Warp 角色与持久内核
- 同步:流水线、事件与双缓冲
- 高级数据搬运:TMA、Swizzle 与不规则访问
- C++ 互操作:内联代码与预处理器
- 调试与诊断:打印、RTTI 与 GDB
前置要求¶
- 基本的 C++ 知识(函数、指针、数组)
- 熟悉 GPU 编程概念(线程、线程块、共享内存)
- 可用的鳄霸编译器(参见第 0 章)