DecisionTree.jl

决策树(CART)和随机森林算法的Julia实现

由Ben Sadeghi (@bensadeghi)创建和开发。现由JuliaAI组织维护。

可通过以下方式获得：

AutoMLPipeline.jl - 使用简单表达式创建复杂的机器学习管道结构
CombineML.jl - 一个异构集成学习包
MLJ.jl - Julia的机器学习框架
ScikitLearn.jl - scikit-learn API的Julia实现

回归

预剪枝（最大深度，最小叶子大小）
多线程bagging（随机森林）
交叉验证（n折）
支持数值特征

注意：如果标签/目标是Array{Float}类型，则表示为回归问题

安装

您可以使用Julia的包管理器安装DecisionTree.jl

Pkg.add("DecisionTree")

ScikitLearn.jl API

DecisionTree.jl支持ScikitLearn.jl接口和算法（交叉验证、超参数调优、管道等）

可用模型：DecisionTreeClassifier, DecisionTreeRegressor, RandomForestClassifier, RandomForestRegressor, AdaBoostStumpClassifier。查看每个模型的帮助（例如在REPL中输入?DecisionTreeRegressor）以获取更多信息

分类示例

加载DecisionTree包

using DecisionTree

分离Fisher's Iris数据集的特征和标签

features, labels = load_data("iris")    # 另请参见"adult"和"digits"数据集

# 加载的数据类型为Array{Any}
# 将它们转换为具体类型以获得更好的性能
features = float.(features)
labels   = string.(labels)

剪枝树分类器

# 训练深度受限的分类器
model = DecisionTreeClassifier(max_depth=2)
fit!(model, features, labels)
# 打印树的结构，深度为5个节点（可选）
print_tree(model, 5)
# 应用学习的模型
predict(model, [5.9,3.0,5.1,1.9])
# 获取每个标签的概率
predict_proba(model, [5.9,3.0,5.1,1.9])
println(get_classes(model)) # 返回predict_proba输出列的排序
# 运行3折交叉验证
# 请参阅ScikitLearn.jl的安装说明
using ScikitLearn.CrossValidation: cross_val_score
accuracy = cross_val_score(model, features, labels, cv=3)

此外，请查看这些分类和回归笔记本。

原生API

分类示例

决策树分类器

# 训练完整树分类器
model = build_tree(labels, features)
# 剪枝树：合并纯度合计>=90%的叶子（默认：100%）
model = prune_tree(model, 0.9)
# 打印树的结构，深度为5个节点（可选）
print_tree(model, 5)
# 应用学习的模型
apply_tree(model, [5.9,3.0,5.1,1.9])
# 将模型应用于所有样本
preds = apply_tree(model, features)
# 生成混淆矩阵，以及准确率和kappa分数
DecisionTree.confusion_matrix(labels, preds)
# 获取每个标签的概率
apply_tree_proba(model, [5.9,3.0,5.1,1.9], ["Iris-setosa", "Iris-versicolor", "Iris-virginica"])
# 运行剪枝树的3折交叉验证
n_folds=3
accuracy = nfoldCV_tree(labels, features, n_folds)

# 分类参数集及其默认值
# pruning_purity: 用于后剪枝的纯度阈值（默认：1.0，不剪枝）
# max_depth: 决策树的最大深度（默认：-1，无最大值）
# min_samples_leaf: 每个叶子所需的最小样本数（默认：1）
# min_samples_split: 分裂所需的最小样本数（默认：2）
# min_purity_increase: 分裂所需的最小纯度增加（默认：0.0）
# n_subfeatures: 随机选择的特征数（默认：0，保留所有）
# 关键字rng: 要使用的随机数生成器或种子（默认Random.GLOBAL_RNG）
n_subfeatures=0; max_depth=-1; min_samples_leaf=1; min_samples_split=2
min_purity_increase=0.0; pruning_purity = 1.0; seed=3

model    =   build_tree(labels, features,
                        n_subfeatures,
                        max_depth,
                        min_samples_leaf,
                        min_samples_split,
                        min_purity_increase;
                        rng = seed)

accuracy = nfoldCV_tree(labels, features,
                        n_folds,
                        pruning_purity,
                        max_depth,
                        min_samples_leaf,
                        min_samples_split,
                        min_purity_increase;
                        verbose = true,
                        rng = seed)

随机森林分类器

# 训练随机森林分类器
# 使用2个随机特征，10棵树，每棵树使用0.5比例的样本，最大树深度为6
模型 = 构建森林(标签, 特征, 2, 10, 0.5, 6)
# 应用学习到的模型
应用森林(模型, [5.9,3.0,5.1,1.9])
# 获取每个标签的概率
应用森林概率(模型, [5.9,3.0,5.1,1.9], ["鸢尾花-山鸢尾", "鸢尾花-杂色鸢尾", "鸢尾花-维吉尼亚鸢尾"])
# 再添加7棵树
模型 = 构建森林(模型, 标签, 特征, 2, 7, 0.5, 6)
# 进行3折交叉验证，每次分割使用2个随机特征
折数=3; 子特征数=2
准确率 = N折交叉验证森林(标签, 特征, 折数, 子特征数)

# 分类参数集及其默认值
# 子特征数: 每次分割随机考虑的特征数（默认: -1，即特征总数的平方根）
# 树木数: 要训练的树的数量（默认: 10）
# 部分采样: 每棵树训练使用的样本比例（默认: 0.7）
# 最大深度: 决策树的最大深度（默认: 无限制）
# 叶子最小样本数: 每个叶子节点至少需要的样本数（默认: 5）
# 分割最小样本数: 进行分割所需的最小样本数（默认: 2）
# 最小纯度增益: 进行分割所需的最小纯度增益（默认: 0.0）
# 关键字 rng: 使用的随机数生成器或种子（默认 Random.GLOBAL_RNG）
#              多线程森林必须使用`Int`类型的种子
子特征数=-1; 树木数=10; 部分采样=0.7; 最大深度=-1
叶子最小样本数=5; 分割最小样本数=2; 最小纯度增益=0.0; 种子=3

模型    =   构建森林(标签, 特征,
                    子特征数,
                    树木数,
                    部分采样,
                    最大深度,
                    叶子最小样本数,
                    分割最小样本数,
                    最小纯度增益;
                    rng = 种子)

准确率 = N折交叉验证森林(标签, 特征,
                        折数,
                        子特征数,
                        树木数,
                        部分采样,
                        最大深度,
                        叶子最小样本数,
                        分割最小样本数,
                        最小纯度增益;
                        verbose = true,
                        rng = 种子)

自适应提升决策树桩分类器

# 训练自适应提升树桩，使用7次迭代
模型, 系数 = 构建自适应提升树桩(标签, 特征, 7);
# 应用学习到的模型
应用自适应提升树桩(模型, 系数, [5.9,3.0,5.1,1.9])
# 获取每个标签的概率
应用自适应提升树桩概率(模型, 系数, [5.9,3.0,5.1,1.9], ["鸢尾花-山鸢尾", "鸢尾花-杂色鸢尾", "鸢尾花-维吉尼亚鸢尾"])
# 进行3折交叉验证，使用7次迭代的提升树桩
迭代次数=7; 折数=3
准确率 = N折交叉验证树桩(标签, 特征,
                        折数,
                        迭代次数;
                        verbose = true)

回归示例

n, m = 10^3, 5
特征 = randn(n, m)
权重 = rand(-2:2, m)
标签 = 特征 * 权重

回归树

# 训练回归树
模型 = 构建树(标签, 特征)
# 应用学习到的模型
应用树(模型, [-0.9,3.0,5.1,1.9,0.0])
# 进行3折交叉验证，返回决定系数(R^2)数组
折数 = 3
r2 = N折交叉验证树(标签, 特征, 折数)

# 回归参数集及其默认值
# 剪枝纯度: 用于后剪枝的纯度阈值（默认: 1.0，不剪枝）
# 最大深度: 决策树的最大深度（默认: -1，无限制）
# 叶子最小样本数: 每个叶子节点至少需要的样本数（默认: 5）
# 分割最小样本数: 进行分割所需的最小样本数（默认: 2）
# 最小纯度增益: 进行分割所需的最小纯度增益（默认: 0.0）
# 子特征数: 随机选择的特征数（默认: 0，保留所有特征）
# 关键字 rng: 使用的随机数生成器或种子（默认 Random.GLOBAL_RNG）
子特征数 = 0; 最大深度 = -1; 叶子最小样本数 = 5
分割最小样本数 = 2; 最小纯度增益 = 0.0; 剪枝纯度 = 1.0 ; 种子=3

模型 = 构建树(标签, 特征,
              子特征数,
              最大深度,
              叶子最小样本数,
              分割最小样本数,
              最小纯度增益;
              rng = 种子)

r2 =  N折交叉验证树(标签, 特征,
                   折数,
                   剪枝纯度,
                   最大深度,
                   叶子最小样本数,
                   分割最小样本数,
                   最小纯度增益;
                   verbose = true,
                   rng = 种子)

回归随机森林

# 训练回归森林，使用2个随机特征，10棵树，
# 每个叶子平均5个样本，每棵树使用0.7比例的样本
模型 = 构建森林(标签, 特征, 2, 10, 0.7, 5)
# 应用学习到的模型
应用森林(模型, [-0.9,3.0,5.1,1.9,0.0])
# 对回归森林进行3折交叉验证，每次分割使用2个随机特征
子特征数=2; 折数=3
r2 = N折交叉验证森林(标签, 特征, 折数, 子特征数)

# 回归构建森林()参数集及其默认值
# 子特征数: 每次分割随机考虑的特征数（默认: -1，即特征总数的平方根）
# 树木数: 要训练的树的数量（默认: 10）
# 部分采样: 每棵树训练使用的样本比例（默认: 0.7）
# 最大深度: 决策树的最大深度（默认: 无限制）
# 叶子最小样本数: 每个叶子节点至少需要的样本数（默认: 5）
# 分割最小样本数: 进行分割所需的最小样本数（默认: 2）
# 最小纯度增益: 进行分割所需的最小纯度增益（默认: 0.0）
# 关键字 rng: 使用的随机数生成器或种子（默认 Random.GLOBAL_RNG）
#              多线程森林必须使用`Int`类型的种子
子特征数=-1; 树木数=10; 部分采样=0.7; 最大深度=-1
叶子最小样本数=5; 分割最小样本数=2; 最小纯度增益=0.0; 种子=3

模型 = 构建森林(标签, 特征,
                子特征数,
                树木数,
                部分采样,
                最大深度,
                叶子最小样本数,
                分割最小样本数,
                最小纯度增益;
                rng = 种子)

r2 = nfoldCV_forest(labels, features,
     n_folds,
     n_subfeatures,
     n_trees,
     partial_sampling,
     max_depth,
     min_samples_leaf,
     min_samples_split,
     min_purity_increase;
     verbose = true,
     rng = seed)

保存模型

可以使用 JLD2.jl 包将模型保存到磁盘并重新加载。

using JLD2
@save "model_file.jld2" model

请注意，尽管支持 Array{Any} 类型的特征和标签，但强烈建议将数据转换为显式类型（例如使用 float.(), string.() 等）。这可以显著提高模型训练和预测的执行时间，并大大减小保存模型的大小。

MLJ.jl API

要在 MLJ 中使用 DecisionTree.jl 模型，首先确保 MLJ.jl 和 MLJDecisionTreeInterface.jl 都在你的 Julia 环境中。例如，要在一个全新的环境中安装：

using Pkg
Pkg.activate("my_fresh_mlj_environment", shared=true)
Pkg.add("MLJ")
Pkg.add("MLJDecisionTreeInterface")

每个模型的详细使用说明可以通过 doc 方法获得。例如：

using MLJ
doc("DecisionTreeClassifier", pkg="DecisionTree")

可用的模型有：AdaBoostStumpClassifier、DecisionTreeClassifier、DecisionTreeRegressor、RandomForestClassifier、RandomForestRegressor。

特征重要性

以下方法为所有模型提供特征重要性的度量：impurity_importance、split_importance、permutation_importance。查询文档字符串以获取详细信息。

可视化

可以使用其原生接口的 print_tree 函数来可视化 DecisionTree 模型（示例见上文"分类示例"部分）。

此外，还实现了一个使用 AbstractTrees.jl 的抽象层，旨在促进不依赖于 DecisionTree 任何实现细节的可视化。更多信息请查看 src/abstract_trees.jl 中的文档和 [wrap](https://github.com/JuliaAI/DecisionTree.jl/blob/dev/@ref-function，它为 DecisionTree 模型创建了这个层。

除此之外，AbstractTrees.jl 还带有自己的 print_tree 实现。

在出版物中引用此包

DOI:

BibTeX 条目：

@software{ben_sadeghi_2022_7359268,
  author       = {Ben Sadeghi and
                  Poom Chiarawongse and
                  Kevin Squire and
                  Daniel C. Jones and
                  Andreas Noack and
                  Cédric St-Jean and
                  Rik Huijzer and
                  Roland Schätzle and
                  Ian Butterworth and
                  Yu-Fong Peng and
                  Anthony Blaom},
  title        = {{DecisionTree.jl - CART决策树和随机森林算法的Julia实现}},
  month        = nov,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {0.11.3},
  doi          = {10.5281/zenodo.7359268},
  url          = {https://doi.org/10.5281/zenodo.7359268}
}