HyperAI
Command Palette
Search for a command to run...
Triton 编译器教程
简介
Triton 是一种用于并行编程的语言和编译器,旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在 GPU 硬件上以最大吞吐量运行。
本项目是一套完整的 Triton 学习教程,涵盖了从基础到高级的各个方面,包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。
目录
1. 基础操作教程
1.1 向量相加
- 01-vector-add.cn.ipynb – 向量加法入门教程,介绍 Triton 基本编程模型
2. 核心算子教程
2.1 融合 Softmax (Fused Softmax)
- 02-fused-softmax.cn.ipynb – 融合 Softmax 操作,学习内核融合和缩减操作
2.2 矩阵乘法
- 03-matrix-multiplication.cn.ipynb – 高性能矩阵乘法实现
2.3 层标准化 (Layer Normalization)
- 05-layer-norm.cn.ipynb – 层标准化算子实现
3. 高级特性教程
3.1 低内存 Dropout
- 04-low-memory-dropout.cn.ipynb – 内存优化的 Dropout 实现
3.2 融合注意力 (Fused Attention)
- 06-fused-attention.cn.ipynb – Transformer 注意力机制的融合实现
3.3 Libdevice 外部函数
- 07-extern-functions.cn.ipynb – 使用 tl_extra.libdevice 外部函数库
3.4 分组 GEMM (Grouped GEMM)
- 08-grouped-gemm.cn.ipynb – 分组通用矩阵乘法实现
3.5 持续 FP8 矩阵乘法
- 09-persistent-matmul.cn.ipynb – FP8 精度的矩阵乘法优化
3.6 块缩放矩阵乘法
- 10-block-scaled-matmul.cn.ipynb – 块缩放矩阵乘法实现
参考资源
该教程由社区用户贡献,仅供交流学习使用。如内容涉及侵权,请联系邮箱 support@hyper.ai 以便及时审查和下架。