鳄霸好在哪里?¶
鳄霸(Croqtile)是面向高性能 GPU 及 DSA 内核编写的 C++ 嵌入式 DSL。你在 .co 文件中编写鳄霸函数,与现有 C++ 代码并存,编译器将其转译为高效的目标代码(目前为 CUDA,更多后端计划中),并可与 CUDA、CuTe 以及任何 C++ 库完全互操作。
四大设计支柱使鳄霸区别于原生 CUDA、CuTe 或 Triton。
易于使用¶
你操作的是张量和分块(tile),而非裸缓冲区和指针。DMA 传输、内存分配和同步——在 CUDA 中需要数十行样板代码——在鳄霸中只需一条 dma.copy ... => ... 语句,代码量约为等价 CUDA 代码的 40%。每个构造都编译为与手写相同的 PTX:零开销抽象,无运行时负担,无隐式分配。
编译期安全¶
跨 7 个编译器模块共 353 项编译期诊断检查,在 GPU 执行之前即可捕获形状不匹配、分块错误和 DMA 违规。在开发构建中,1,319 个运行时断言守护每一次传输和内存访问。二者共同消除了整类需要 cuda-memcheck 和数小时 printf 调试才能定位的 bug。
动态形状¶
一等的符号维度允许你只编写一次内核,即可在任意形状上运行而无需重新编译。编译器自动推导 packed-K、元数据列、网格维度和共享内存大小。静态与运行时内存统一管理——无需模板元编程,无需样板代码。
天生适合 AI 调优¶
紧凑、结构化的语法使整个内核可容纳在 AI 上下文窗口中(30–60 行 vs CUDA/CuTe 的数百行)。结构化的错误信息和完善的 CLI 参数文档使自主代理能够自行编译、分析和迭代,无需人工干预。在实际使用中,AI 代理在单次会话中将 FP16 矩阵乘法从 671 提升至 1,127 TFLOPS。