鳄霸好在哪里？¶

鳄霸（Croqtile）是面向高性能 GPU 及 DSA 内核编写的 C++ 嵌入式 DSL。你在 .co 文件中编写鳄霸函数，与现有 C++ 代码并存，编译器将其转译为高效的目标代码（目前为 CUDA，更多后端计划中），并可与 CUDA、CuTe 以及任何 C++ 库完全互操作。

四大设计支柱使鳄霸区别于原生 CUDA、CuTe 或 Triton。

易于使用¶

你操作的是张量和分块（tile），而非裸缓冲区和指针。DMA 传输、内存分配和同步——在 CUDA 中需要数十行样板代码——在鳄霸中只需一条 dma.copy ... => ... 语句，代码量约为等价 CUDA 代码的 40%。每个构造都编译为与手写相同的 PTX：零开销抽象，无运行时负担，无隐式分配。

编译期安全¶

跨 7 个编译器模块共 353 项编译期诊断检查，在 GPU 执行之前即可捕获形状不匹配、分块错误和 DMA 违规。在开发构建中，1,319 个运行时断言守护每一次传输和内存访问。二者共同消除了整类需要 cuda-memcheck 和数小时 printf 调试才能定位的 bug。

动态形状¶

一等的符号维度允许你只编写一次内核，即可在任意形状上运行而无需重新编译。编译器自动推导 packed-K、元数据列、网格维度和共享内存大小。静态与运行时内存统一管理——无需模板元编程，无需样板代码。

天生适合 AI 调优¶

紧凑、结构化的语法使整个内核可容纳在 AI 上下文窗口中（30–60 行 vs CUDA/CuTe 的数百行）。结构化的错误信息和完善的 CLI 参数文档使自主代理能够自行编译、分析和迭代，无需人工干预。在实际使用中，AI 代理在单次会话中将 FP16 矩阵乘法从 671 提升至 1,127 TFLOPS。