Skip to content
shijiashuai edited this page Mar 9, 2026 · 2 revisions

CUDA Kernel Academy Wiki

欢迎来到 CUDA Kernel Academy 的开发 Wiki!

本 Wiki 用于记录项目的架构决策、调试经验、性能调优笔记等内部开发文档。

项目概览

CUDA Kernel Academy 包含 4 个递进式子项目:

# 子项目 方向 构建系统
01 SGEMM Tutorial 矩阵乘法优化 Makefile
02 TensorCraft Core Header-only 核心抽象库 CMake
03 HPC Advanced 高性能计算进阶 CMake + Benchmark
04 Inference Engine 深度学习推理引擎 CMake + pybind11

已知架构差异

以下差异是有意为之(各子项目独立演进),但开发时需注意。

  • Tensor 实现 — 三套独立实现:02-tensorcraft (tensor.hpp)、03-hpc (tensor.cuh)、04-inference (tensor.h)
  • CUDA_CHECK 宏 — 三处独立定义,语义略有不同
  • common/ 库 — 02 引用 core/ 头文件(磁盘上不存在),03 有自己的 common/ 实际实现
  • 依赖 — GoogleTest v1.14.0, Google Benchmark v1.8.3, pybind11, nanobind, CUTLASS v3.5.0

页面索引

Clone this wiki locally