Triton会议将于2024年9月17日再次在加利福尼亚州弗里蒙特举行！

如果您有兴趣参加，请填写此表格。

`文档`	`每日构建版本`

Triton

这是Triton的开发仓库，Triton是一种用于编写高效自定义深度学习原语的语言和编译器。Triton的目标是提供一个开源环境，以比CUDA更高的生产力编写快速代码，同时比其他现有的领域特定语言（DSL）具有更高的灵活性。

该项目的基础在以下MAPL2019出版物中有所描述：Triton：用于平铺神经网络计算的中间语言和编译器。如果您使用Triton，请考虑引用这项工作！

官方文档包含安装说明和教程。另请参阅这些第三方Triton谜题，所有这些都可以使用Triton解释器运行——无需GPU。

快速安装

您可以通过pip安装Triton的最新稳定版本：

pip install triton

二进制轮子适用于CPython 3.8-3.12和PyPy 3.8-3.9。

以及最新的每日构建版本：

pip install -U --index-url https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/Triton-Nightly/pypi/simple/ triton-nightly

从源代码安装

git clone https://github.com/triton-lang/triton.git;
cd triton;

pip install ninja cmake wheel; # 构建时依赖
pip install -e python

或使用虚拟环境：

git clone https://github.com/triton-lang/triton.git;
cd triton;

python -m venv .venv --prompt triton;
source .venv/bin/activate;

pip install ninja cmake wheel; # 构建时依赖
pip install -e python

使用自定义LLVM构建

Triton使用LLVM为GPU和CPU生成代码。通常，Triton构建会下载预构建的LLVM，但您也可以从源代码构建LLVM并使用它。

LLVM没有稳定的API，因此Triton构建不会在任意LLVM版本上工作。

找出Triton构建所针对的LLVM版本。查看cmake/llvm-hash.txt以查看当前版本。例如，如果它说： 49af6502c6dcb4a7f7520178bd14df396f78240c

这意味着您拥有的Triton版本针对LLVM 49af6502进行构建。
在此修订版本上git checkout LLVM。可选择对LLVM进行额外修改。

构建LLVM。例如，您可能运行

$ cd $HOME/llvm-project  # 您的LLVM克隆。
$ mkdir build
$ cd build
$ cmake -G Ninja -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_ASSERTIONS=ON ../llvm -DLLVM_ENABLE_PROJECTS="mlir;llvm" -DLLVM_TARGETS_TO_BUILD="host;NVPTX;AMDGPU"
$ ninja

拿点零食，这需要一段时间。

如上所述构建Triton，但设置以下环境变量。

# 根据需要修改以指向您的LLVM构建。
$ export LLVM_BUILD_DIR=$HOME/llvm-project/build

$ cd <triton安装>
$ LLVM_INCLUDE_DIRS=$LLVM_BUILD_DIR/include \
  LLVM_LIBRARY_DIR=$LLVM_BUILD_DIR/lib \
  LLVM_SYSPATH=$LLVM_BUILD_DIR \
  pip install -e python

构建技巧

将TRITON_BUILD_WITH_CLANG_LLD=true设置为环境变量，以使用clang和lld。特别是lld可以加快构建速度。
设置TRITON_BUILD_WITH_CCACHE=true以使用ccache进行构建。
设置TRITON_HOME=/some/path以更改存储Triton缓存的.triton目录的位置，以及构建期间存储下载内容的位置。默认情况下，这是用户的主目录。可以随时更改。
在pip install命令中传递--no-build-isolation以加快空操作构建的速度。如果不这样做，每次调用pip install都会使用不同的cmake符号链接，这会迫使ninja重新构建大多数.a文件。
vscode智能感知在确定如何构建Triton的C++时存在一些困难（可能是因为在我们的构建中，用户不直接调用cmake，而是使用setup.py）。按照以下方式教会vscode如何编译Triton。
- 进行本地构建。
- 获取构建生成的compile_commands.json文件的完整路径： find python/build -name 'compile_commands.json | xargs readlink -f'
- 在vscode中，安装 C/C++ 扩展，然后打开命令面板（Mac上为Shift + Command + P，Windows/Linux上为Shift + Ctrl + P），并打开C/C++: Edit Configurations (UI)。
- 打开"高级设置"，并将compile_commands.json的完整路径粘贴到"编译命令"文本框中。

运行测试

目前没有一种一站式的方法来运行所有Triton测试，但您可以按照以下步骤进行：

# 一次性设置。注意我们必须重新安装本地Triton，因为torch会用公共版本覆盖它。
$ pip install scipy numpy torch pytest lit pandas matplotlib && pip install -e python

# 使用本地GPU运行Python测试。
$ python3 -m pytest python/test/unit

# 移动到构建目录。用完整路径填充<...>，例如
# `cmake.linux-x86_64-cpython-3.11`。
$ cd python/build/cmake<...>

# 运行C++单元测试。
$ ctest -j32

# 运行lit测试。
$ lit test

你可能会发现创建一个指向构建目录的符号链接并让本地git忽略它很有帮助。

$ ln -s python/build/cmake<...> build
$ echo build >> .git/info/exclude

然后你可以用以下命令重新构建并运行lit。

$ ninja -C build && ( cd build ; lit test )

黑客技巧

关于如何调试Triton前端的详细说明，请参考这个教程。以下包括在Triton后端进行黑客攻击的额外技巧。

有用的环境变量

MLIR_ENABLE_DUMP=1 在Triton运行的每个MLIR传递之前转储IR，适用于所有内核。使用 MLIR_ENABLE_DUMP=kernelName 只为特定内核转储。
LLVM_IR_ENABLE_DUMP=1 在LLVM IR上运行的每个传递之前转储IR。
TRITON_INTERPRET=1 使用Triton解释器而不是在GPU上运行。你可以在内核代码中插入Python断点！
TRITON_ENABLE_LLVM_DEBUG=1 向LLVM传递 -debug，将大量调试信息打印到标准输出。如果这太嘈杂，可以只运行 TRITON_LLVM_DEBUG_ONLY 来限制输出。

另一种减少输出噪音的方法是运行 LLVM_IR_ENABLE_DUMP=1，提取感兴趣的LLVM传递之前的IR，然后单独运行LLVM的 opt，可能在命令行中传递 -debug-only=foo。
TRITON_LLVM_DEBUG_ONLY=<逗号分隔> 相当于LLVM的 -debug-only 命令行选项。这将LLVM调试输出限制在特定的传递或组件名称（在LLVM和Triton中使用 #define DEBUG_TYPE 指定），以使调试输出不那么嘈杂。TRITON_LLVM_DEBUG_ONLY 允许指定一个或多个逗号分隔的值（例如 TRITON_LLVM_DEBUG_ONLY="tritongpu-remove-layout-conversions" 或 TRITON_LLVM_DEBUG_ONLY="tritongpu-remove-layout-conversions,regalloc"）。
USE_IR_LOC={ttir,ttgir} 重新解析IR，使得位置信息将是带有特定扩展名的IR文件的行号，而不是Python文件的行号。这可以提供从IR到llir/ptx的直接映射。当与性能工具一起使用时，它可以提供IR指令的细分。
TRITON_PRINT_AUTOTUNING=1 在自动调优完成后打印出每个内核的最佳自动调优配置和总耗时。
DISABLE_LLVM_OPT 如果在解析为Bool时其值为true，将禁用make_llir和make_ptx的llvm优化。否则，它将被解析为禁用llvm优化的标志列表。一个用例是 DISABLE_LLVM_OPT="disable-lsr" 循环强度降低已知会对某些寄存器压力较大的内核造成高达10%的性能变化。
TRITON_ALWAYS_COMPILE=1 强制编译内核，无论缓存是否命中。
MLIR_ENABLE_TIMING 转储每个MLIR传递的计时信息。
LLVM_ENABLE_TIMING 转储每个LLVM传递的计时信息。
TRITON_DEFAULT_FP_FUSION 覆盖允许fp融合（mul+add->fma）的默认行为。
MLIR_ENABLE_REMARK 启用作为备注发出的性能警告。