Taskflow
Taskflow 帮助您使用现代 C++ 快速编写并行和异构任务程序
为什么选择 Taskflow?
在处理复杂的并行工作负载时,Taskflow 比许多现有的任务编程框架更快、更具表现力,并且更容易集成。
Taskflow 让您能够快速实现任务分解策略,结合了常规和不规则的计算模式,并配合高效的工作窃取调度器来优化您的多线程性能。
Taskflow 支持条件任务,让您能够在相互依赖的任务之间快速做出控制流决策,实现循环和条件,这在使用现有工具时往往很难实现。
Taskflow 可组合。您可以通过组合模块化和可重用的块来创建大型并行图,这些块在单独的范围内更容易优化。
Taskflow 支持异构任务,让您能够利用 CPU-GPU 协同计算的能力来加速各种科学计算应用。
Taskflow 提供了用于分析 Taskflow 程序所需的可视化和工具。
我们致力于为并行计算领域的学术和工业研究项目提供可信赖的开发支持。查看谁在使用 Taskflow以及用户对我们的评价:
- "Taskflow 是我见过的最简洁的任务 API。" Damien Hocking @Corelium Inc
- "Taskflow 有一个非常简单和优雅的任务接口。性能扩展也非常好。" Glen Fraser
- "Taskflow 让我能够以智能的方式处理并行处理。" Hayabusa @Learning
- "Taskflow 仅仅几个小时的编码就提高了我们图形引擎的吞吐量。" Jean-Michaël @KDAB
- "开源并行编程库最佳海报奖。" Cpp Conference 2018
- "开源软件竞赛二等奖。" ACM 多媒体会议 2019
查看快速演示并访问文档以了解更多关于 Taskflow 的信息。 技术细节可参考我们的 [IEEE TPDS 论文][TPDS21]。
开始您的第一个 Taskflow 程序
以下程序(simple.cpp
)创建了四个任务
A
、B
、C
和 D
,其中 A
在 B
和 C
之前运行,D
在 B
和 C
之后运行。
当 A
完成时,B
和 C
可以并行运行。
在 Compiler Explorer (godbolt) 上实时尝试!
#include <taskflow/taskflow.hpp> // Taskflow 是仅头文件的库
int main(){
tf::Executor executor;
tf::Taskflow taskflow;
auto [A, B, C, D] = taskflow.emplace( // 创建四个任务
[] () { std::cout << "TaskA\n"; },
[] () { std::cout << "TaskB\n"; },
[] () { std::cout << "TaskC\n"; },
[] () { std::cout << "TaskD\n"; }
);
A.precede(B, C); // A 在 B 和 C 之前运行
D.succeed(B, C); // D 在 B 和 C 之后运行
executor.run(taskflow).wait();
return 0;
}
Taskflow 是仅头文件的库,无需安装。 要编译程序,请克隆 Taskflow 项目并 告诉编译器包含 头文件。
~$ git clone https://github.com/taskflow/taskflow.git # 只需克隆一次
~$ g++ -std=c++20 examples/simple.cpp -I. -O2 -pthread -o simple
~$ ./simple
TaskA
TaskC
TaskB
TaskD
可视化您的第一个 Taskflow 程序
Taskflow 自带一个内置的分析器, TFProf, 让您能够在易于使用的基于 Web 的界面中分析和可视化 taskflow 程序。
# 运行程序时启用环境变量 TF_ENABLE_PROFILER
~$ TF_ENABLE_PROFILER=simple.json ./simple
~$ cat simple.json
[
{"executor":"0","data":[{"worker":0,"level":0,"data":[{"span":[172,186],"name":"0_0","type":"static"},{"span":[187,189],"name":"0_1","type":"static"}]},{"worker":2,"level":0,"data":[{"span":[93,164],"name":"2_0","type":"static"},{"span":[170,179],"name":"2_1","type":"static"}]}]}
]
# 将分析 json 数据粘贴到 https://taskflow.github.io/tfprof/
除了执行图外,您还可以将图导出为 DOT 格式, 并使用多个免费的 GraphViz 工具进行可视化。
// 通过 std::cout 将 taskflow 图导出为 DOT 格式
taskflow.dump(std::cout);
表达任务图并行性
Taskflow 为用户提供了静态和动态任务图构建能力, 使其能够在嵌入图内控制流的任务图中表达端到端的并行性。
创建子流图
Taskflow 支持动态任务,让您可以从任务的执行中创建子流图
以实现动态并行性。
以下程序在任务 B
中生成一个任务依赖图。
tf::Task A = taskflow.emplace([](){}).name("A");
tf::Task C = taskflow.emplace([](){}).name("C");
tf::Task D = taskflow.emplace([](){}).name("D");
tf::Task B = taskflow.emplace([] (tf::Subflow& subflow) {
tf::Task B1 = subflow.emplace([](){}).name("B1");
tf::Task B2 = subflow.emplace([](){}).name("B2");
tf::Task B3 = subflow.emplace([](){}).name("B3");
B3.succeed(B1, B2); // B3 在 B1 和 B2 之后运行
}).name("B");
A.precede(B, C); // A 在 B 和 C 之前运行
D.succeed(B, C); // D 在 B 和 C 之后运行
在任务图中集成控制流
Taskflow 支持条件任务,让您能够在相互依赖的任务之间 快速做出控制流决策,以在端到端任务图中实现循环 和条件。
tf::Task init = taskflow.emplace([](){}).name("init");
tf::Task stop = taskflow.emplace([](){}).name("stop");
// 创建一个返回随机二进制值的条件任务
tf::Task cond = taskflow.emplace(
[](){ return std::rand() % 2; }
).name("cond");
init.precede(cond);
// 创建一个反馈循环 {0: cond, 1: stop}
cond.precede(cond, stop);
将任务卸载到 GPU
Taskflow 支持 GPU 任务,让您能够利用 CPU-GPU 协同计算的能力,使用 CUDA 加速各种科学计算应用。
__global__ void saxpy(size_t N, float alpha, float* dx, float* dy) {
int i = blockIdx.x*blockDim.x + threadIdx.x;
if (i < n) {
y[i] = a*x[i] + y[i];
}
}
tf::Task cudaflow = taskflow.emplace([&](tf::cudaFlow& cf) {
// 数据复制任务
tf::cudaTask h2d_x = cf.copy(dx, hx.data(), N).name("h2d_x");
tf::cudaTask h2d_y = cf.copy(dy, hy.data(), N).name("h2d_y");
tf::cudaTask d2h_x = cf.copy(hx.data(), dx, N).name("d2h_x");
tf::cudaTask d2h_y = cf.copy(hy.data(), dy, N).name("d2h_y");
// 带有启动 saxpy 内核参数的内核任务
tf::cudaTask saxpy = cf.kernel(
(N+255)/256, 256, 0, saxpy, N, 2.0f, dx, dy
).name("saxpy");
saxpy.succee
<p align="center"><img src="https://yellow-cdn.veclightyear.com/2b54e442/776d5f51-defc-4154-bdfa-61c85b1c7379.svg"></p>
## 启动异步任务
Taskflow 支持*异步*任务。
您可以异步启动任务以动态探索任务图并行性。
```cpp
tf::Executor executor;
// 直接从执行器创建异步任务
std::future<int> future = executor.async([](){
std::cout << "异步任务返回1\n";
return 1;
});
executor.silent_async([](){ std::cout << "异步任务不返回\n"; });
// 创建具有动态依赖关系的异步任务
tf::AsyncTask A = executor.silent_dependent_async([](){ printf("A\n"); });
tf::AsyncTask B = executor.silent_dependent_async([](){ printf("B\n"); }, A);
tf::AsyncTask C = executor.silent_dependent_async([](){ printf("C\n"); }, A);
tf::AsyncTask D = executor.silent_dependent_async([](){ printf("D\n"); }, B, C);
executor.wait_for_all();
执行 Taskflow
执行器提供了几种线程安全的方法来运行 taskflow。
您可以运行一次 taskflow、多次运行或直到满足停止条件为止。
这些方法是非阻塞的,返回 tf::Future<void>
让您查询执行状态。
// 运行 taskflow 一次
tf::Future<void> run_once = executor.run(taskflow);
// 等待此次运行完成
run_once.get();
// 运行 taskflow 四次
executor.run_n(taskflow, 4);
// 运行 taskflow 五次
executor.run_until(taskflow, [counter=5](){ return --counter == 0; });
// 阻塞执行器直到所有提交的 taskflow 完成
executor.wait_for_all();
利用标准并行算法
Taskflow 定义了算法,让您可以使用标准 C++ 语法快速表达常见的并行模式, 例如并行迭代、并行归约和并行排序。
// 标准并行 CPU 算法
tf::Task task1 = taskflow.for_each( // 并行将每个元素赋值为100
first, last, [] (auto& i) { i = 100; }
);
tf::Task task2 = taskflow.reduce( // 并行归约一系列项
first, last, init, [] (auto a, auto b) { return a + b; }
);
tf::Task task3 = taskflow.sort( // 并行排序一系列项
first, last, [] (auto a, auto b) { return a < b; }
);
// 标准并行 GPU 算法
tf::cudaTask cuda1 = cudaflow.for_each( // 在 GPU 上将每个元素赋值为100
dfirst, dlast, [] __device__ (auto i) { i = 100; }
);
tf::cudaTask cuda2 = cudaflow.reduce( // 在 GPU 上归约一系列项
dfirst, dlast, init, [] __device__ (auto a, auto b) { return a + b; }
);
tf::cudaTask cuda3 = cudaflow.sort( // 在 GPU 上排序一系列项
dfirst, dlast, [] __device__ (auto a, auto b) { return a < b; }
);
此外,Taskflow 提供了可组合的图形构建块,让您能够 高效实现常见的并行算法,如并行流水线。
// 创建一个流水线,通过三个串行阶段传播五个令牌
tf::Pipeline pl(num_parallel_lines,
tf::Pipe{tf::PipeType::SERIAL, [](tf::Pipeflow& pf) {
if(pf.token() == 5) {
pf.stop();
}
}},
tf::Pipe{tf::PipeType::SERIAL, [](tf::Pipeflow& pf) {
printf("阶段 2: 输入缓冲区[%zu] = %d\n", pf.line(), buffer[pf.line()]);
}},
tf::Pipe{tf::PipeType::SERIAL, [](tf::Pipeflow& pf) {
printf("阶段 3: 输入缓冲区[%zu] = %d\n", pf.line(), buffer[pf.line()]);
}}
);
taskflow.composed_of(pl)
executor.run(taskflow).wait();
支持的编译器
要使用 Taskflow,您只需要一个支持 C++17 的编译器:
- GNU C++ 编译器至少 v8.4 版本,使用 -std=c++17
- Clang C++ 编译器至少 v6.0 版本,使用 -std=c++17
- Microsoft Visual Studio 至少 v19.27 版本,使用 /std:c++17
- AppleClang Xcode 版本至少 v12.0,使用 -std=c++17
- Nvidia CUDA 工具包和编译器 (nvcc) 至少 v11.1 版本,使用 -std=c++17
- Intel C++ 编译器至少 v19.0.1 版本,使用 -std=c++17
- Intel DPC++ Clang 编译器至少 v13.0.0 版本,使用 -std=c++17 和 SYCL20
Taskflow 适用于 Linux、Windows 和 Mac OS X。
尽管 %Taskflow 主要支持 C++17,但您可以通过 -std=c++20
启用 C++20 编译
以实现更好的性能,这得益于新的 C++20 特性。
了解更多关于 Taskflow 的信息
访问我们的项目网站和文档 以了解更多关于 Taskflow 的信息。要参与其中:
- 查看发布说明以了解最新版本
- 阅读cookbook中的逐步教程
- 在 GitHub issues 上提交问题
- 在参考文献中了解我们的技术细节
- 在 YouTube 上观看我们的技术讲座
我们致力于支持并行和异构计算领域的学术和工业研究项目的可信开发。 如果您正在使用 Taskflow,请引用我们在 2021 年 IEEE TPDS 上发表的以下论文:
- Tsung-Wei Huang, Dian-Lun Lin, Chun-Xun Lin, and Yibo Lin, "Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing System," IEEE Transactions on Parallel and Distributed Systems (TPDS), vol. 33, no. 6, pp. 1303-1320, June 2022
更重要的是,我们感谢所有 Taskflow 贡献者以及 以下赞助 Taskflow 项目的组织!
许可证
Taskflow 采用 MIT 许可证。 您完全可以自由地重新分发您从 Taskflow 衍生的作品。