llama-tokenizer-js

项目介绍：llama-tokenizer-js

llama-tokenizer-js 是一个专为 LLaMA 模型设计的 JavaScript 分词器，适用于 LLaMA 1 和 LLaMA 2，并可在浏览器及 Node.js 环境中运行，现也支持 TypeScript。其主要用途是在客户端准确计算令牌数。

功能特色

简单易用：llama-tokenizer-js 没有任何依赖，其代码和数据封装在一个单独的文件中。
广泛的兼容性：适配大多数 LLaMA 模型。
优化的性能：采用高效的 BPE（字节对编码）实现，运行时间得到优化。
紧凑的文件体积：在压缩和 gzip 处理前，大小为 670KiB，通过二进制格式和 base64 编码实现数据压缩。

如何导入

推荐的导入方式是通过 npm 安装并以 ES6 模块导入：

npm install llama-tokenizer-js

import llamaTokenizer from 'llama-tokenizer-js';
console.log(llamaTokenizer.encode("Hello world!").length);

替代方法包括通过 <script> 标签加载或在 CommonJS 项目中异步导入。

使用说明

一旦模块被导入，可以使用它进行编码或解码操作。不支持训练。在浏览器中使用时，llama-tokenizer-js 会污染全局命名空间。

编码示例：

llamaTokenizer.encode("Hello world!");
// 输出为: [1, 15043, 3186, 29991]

解码示例：

llamaTokenizer.decode([1, 15043, 3186, 29991]);
// 输出为: 'Hello world!'

需要注意的是，编码时默认会添加特定的“句首”令牌和空格，解码时也期望如此，这会影响令牌的计数。

测试

可以通过以下命令运行测试：

llamaTokenizer.runTests();

测试套件虽小，但能很好地覆盖不同的边界情况。在浏览器和 Node 环境中均可运行测试。

与其他方案的比较

llama-tokenizer-js 是第一个可以在浏览器客户端运行的 LLaMA JavaScript 分词器。相比其他不兼容的分词器（如 OpenAI 的），它无需依赖网络请求来计算令牌数，从而避免了延迟问题。

兼容性说明

分词器使用 SentencePiece Byte-Pair Encoding，与大多数基于 Facebook 提供的 LLaMA 检查点（模型权重）训练的模型兼容。对于从零训练的 LLaMA 模型（如 OpenLLaMA）不兼容。

项目的维护者

这个分词器由 belladore.ai 开发，得到了 xenova、blaze2004、imoneoi 和 ConProgramming 的贡献。

以上就是 llama-tokenizer-js 的全面介绍，该项目为在客户端进行高效的 LLaMA 令牌计数提供了简便的解决方案。

项目介绍：llama-tokenizer-js

功能特色

如何导入

使用说明

测试

与其他方案的比较

兼容性说明

项目的维护者

编辑推荐精选

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

iTerms

SimilarWeb流量提升

Sora2视频免费生成

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

讯飞文书

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号