⏳ tiktoken

tiktoken 是一个快速的 BPE 分词器，用于 OpenAI 的模型。

import tiktoken
enc = tiktoken.get_encoding("o200k_base")
assert enc.decode(enc.encode("hello world")) == "hello world"

# 获取与 OpenAI API 中特定模型对应的分词器：
enc = tiktoken.encoding_for_model("gpt-4o")

可以从 PyPI 安装 tiktoken 的开源版本：

pip install tiktoken

分词器 API 文档在 tiktoken/core.py 中。

使用 tiktoken 的示例代码可以在 OpenAI Cookbook 中找到。

性能

tiktoken 比同类的开源分词器快 3-6 倍：

性能测试使用 1GB 文本和 GPT-2 分词器进行，使用了 tokenizers==0.13.2、transformers==4.24.0 和 tiktoken==0.2.0 中的 GPT2TokenizerFast。

获取帮助

请在问题追踪器中发布问题。

如果你在 OpenAI 工作，请确保查看内部文档或随时联系 @shantanu。

BPE 到底是什么？

语言模型看到的文本不像你我看到的那样，它们看到的是一系列数字（称为标记）。字节对编码（BPE）是将文本转换为标记的一种方法。它有几个理想的特性：

可逆且无损，因此可以将标记转换回原始文本
适用于任意文本，即使是不在分词器训练数据中的文本
压缩文本：标记序列比原始文本对应的字节短。实际上，平均每个标记对应约 4 个字节。
尝试让模型看到常见的子词。例如，"ing" 在英语中是常见的子词，所以 BPE 编码通常会将 "encoding" 分割成像 "encod" 和 "ing" 这样的标记（而不是例如 "enc" 和 "oding"）。因为模型会在不同的上下文中反复看到 "ing" 标记，这有助于模型泛化并更好地理解语法。

tiktoken 包含一个教育性的子模块，如果你想了解更多关于 BPE 的细节，它会更友好，包括帮助可视化 BPE 过程的代码：

from tiktoken._educational import *

# 在少量文本上训练 BPE 分词器
enc = train_simple_encoding()

# 可视化 GPT-4 编码器如何编码文本
enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
enc.encode("hello world aaaaaaaaaaaa")

扩展 tiktoken

你可能希望扩展 tiktoken 以支持新的编码。有两种方法可以做到这一点。

创建你想要的 Encoding 对象，然后简单地传递它。

cl100k_base = tiktoken.get_encoding("cl100k_base")

# 在生产环境中，直接加载参数而不是访问私有属性
# 在 openai_public.py 中可以找到特定编码的参数示例
enc = tiktoken.Encoding(
    # 如果你要更改特殊标记集，请确保使用不同的名称
    # 名称应该清楚地表明预期的行为。
    name="cl100k_im",
    pat_str=cl100k_base._pat_str,
    mergeable_ranks=cl100k_base._mergeable_ranks,
    special_tokens={
        **cl100k_base._special_tokens,
        "<|im_start|>": 100264,
        "<|im_end|>": 100265,
    }
)

使用 tiktoken_ext 插件机制将你的 Encoding 对象注册到 tiktoken。

只有当你需要 tiktoken.get_encoding 找到你的编码时，这才有用，否则请选择方法 1。

要做到这一点，你需要在 tiktoken_ext 下创建一个命名空间包。

按照以下方式布局你的项目，确保省略 tiktoken_ext/__init__.py 文件：

my_tiktoken_extension
├── tiktoken_ext
│   └── my_encodings.py
└── setup.py

my_encodings.py 应该是一个包含名为 ENCODING_CONSTRUCTORS 变量的模块。这是一个字典，从编码名称映射到一个不接受参数并返回可以传递给 tiktoken.Encoding 的参数的函数，用于构造该编码。例子可以参见 tiktoken_ext/openai_public.py。详细信息请参见 tiktoken/registry.py。

你的 setup.py 应该类似这样：

from setuptools import setup, find_namespace_packages

setup(
    name="my_tiktoken_extension",
    packages=find_namespace_packages(include=['tiktoken_ext*']),
    install_requires=["tiktoken"],
    ...
)