跳转至

鳄霸好在哪里?

鳄霸(Croqtile)是面向高性能 GPU 及 DSA 内核编写的 C++ 嵌入式 DSL。你在 .co 文件中编写鳄霸函数,与现有 C++ 代码并存,编译器将其转译为高效的目标代码(目前为 CUDA,更多后端计划中),并可与 CUDA、CuTe 以及任何 C++ 库完全互操作。

四大设计支柱使鳄霸区别于原生 CUDA、CuTe 或 Triton。

易于使用

你操作的是张量和分块(tile),而非裸缓冲区和指针。DMA 传输、内存分配和同步——在 CUDA 中需要数十行样板代码——在鳄霸中只需一条 dma.copy ... => ... 语句,代码量约为等价 CUDA 代码的 40%。每个构造都编译为与手写相同的 PTX:零开销抽象,无运行时负担,无隐式分配。

编译期安全

跨 7 个编译器模块共 353 项编译期诊断检查,在 GPU 执行之前即可捕获形状不匹配、分块错误和 DMA 违规。在开发构建中,1,319 个运行时断言守护每一次传输和内存访问。二者共同消除了整类需要 cuda-memcheck 和数小时 printf 调试才能定位的 bug。

动态形状

一等的符号维度允许你只编写一次内核,即可在任意形状上运行而无需重新编译。编译器自动推导 packed-K、元数据列、网格维度和共享内存大小。静态与运行时内存统一管理——无需模板元编程,无需样板代码。

天生适合 AI 调优

紧凑、结构化的语法使整个内核可容纳在 AI 上下文窗口中(30–60 行 vs CUDA/CuTe 的数百行)。结构化的错误信息和完善的 CLI 参数文档使自主代理能够自行编译、分析和迭代,无需人工干预。在实际使用中,AI 代理在单次会话中将 FP16 矩阵乘法从 671 提升至 1,127 TFLOPS。