llama-zip

llama-zip是一个无损压缩工具,它利用用户提供的大语言模型(LLM)作为算术编码器的概率模型。这使得llama-zip能够在结构化或自然语言文本上实现高压缩率,因为对于模型高度确信的标记只需要很少的比特来编码。通过使用滑动上下文窗口,llama-zip不受LLM上下文长度的限制,可以压缩任意长度的字符串。此外,通过使用Unicode私用区的码点来编码无效的UTF-8字节,llama-zip不仅限于文本输入,还可以处理任意二进制数据,尽管与文本输入相比压缩率会降低。

交互模式演示:Lorem Ipsum文本

压缩性能

下表比较了llama-zip在Calgary语料库的文本文件(以及llama-zip自身的源代码llama_zip.py)上达到的压缩率与其他流行或高性能压缩工具的压缩率。压缩率通过将未压缩输入的字节数除以压缩输出的字节数来计算,因此更高的值表示更有效的压缩。

对于llama-zip,在两种上下文长度下对两个LLM进行了基准测试,窗口重叠率保持在25%(更多信息请参见选项):

Phi-3.1-mini-128k-instruct (Q4_K_M)
- 8192标记上下文长度(表中为"phi-8k")
- 32768标记上下文长度(表中为"phi-32k")
Llama-3.1-8B (Q4_K_M)
- 8192标记上下文长度(表中为"llama-8k")
- 32768标记上下文长度(表中为"llama-32k")

对于其他工具,使用了它们提供的最高压缩级别。

文件	llama‑zip (llama‑8k)	llama‑zip (llama‑32k)	llama‑zip (phi‑32k)	llama‑zip (phi‑8k)	cmix	paq8px	paq8pxd	zpaq	brotli	bzip2	lzma	xz	zstd	gzip
bib	15.001	<ins>13.577</ins>	10.473	9.920	5.633	5.668	5.590	4.611	3.920	4.051	3.641	3.636	3.485	3.171
book1	8.745	<ins>8.278</ins>	7.087	6.997	4.209	4.192	4.204	3.823	2.999	3.305	2.942	2.941	2.904	2.460
book2	12.250	<ins>11.852</ins>	10.682	10.108	5.381	5.346	5.325	4.649	3.696	3.880	3.598	3.596	3.514	2.963
news	9.976	<ins>9.350</ins>	8.395	7.935	4.542	4.531	4.494	3.817	3.338	3.180	3.173	3.171	3.073	2.610
paper1	<ins>12.577</ins>	12.869	10.442	10.072	4.264	4.302	4.212	3.572	3.439	3.211	3.083	3.074	3.017	2.867
paper2	<ins>12.370</ins>	12.460	10.787	10.561	4.180	4.208	4.135	3.679	3.308	3.283	3.020	3.015	2.982	2.769
progc	<ins>13.802</ins>	14.002	10.714	10.188	4.439	4.438	4.352	3.495	3.409	3.158	3.162	3.151	3.096	2.968
progl	20.429	<ins>20.228</ins>	14.733	14.054	7.497	7.464	7.347	5.554	5.116	4.599	4.801	4.787	4.728	4.432
progp	<ins>20.438</ins>	21.888	16.722	15.450	7.705	7.665	7.508	5.348	4.998	4.611	4.792	4.772	4.724	4.414
trans	<ins>12.523</ins>	13.497	11.746	9.776	8.650	8.484	8.409	6.597	6.083	5.235	5.628	5.613	5.417	4.949
llama_zip.py	29.083	29.083	<ins>23.383</ins>	<ins>23.383</ins>	4.904	4.976	4.689	3.018	3.980	3.508	3.608	3.552	3.633	3.542

每个文件的最佳压缩器以粗体显示,第二佳以下划线标注。列按所有文件上达到的平均压缩率排序,整体表现更好的压缩器列在左侧。

这些结果表明,llama-zip可以显著优于传统压缩工具,至少在测试的LLM和文件上是如此。但请注意,超过某个点后,增加上下文长度可能不会带来更好的压缩率,这一点从Llama 3.1在8k标记上下文长度下的平均表现优于32k标记上下文长度就可以看出。由于内存和时间限制,未测试超过32k标记的上下文长度。

安装

git clone https://github.com/alexbuz/llama-zip.git
cd llama-zip
pip3 install .

LLM下载

要使用llama-zip,您必须下载一个与llama.cpp兼容的LLM,例如Llama 3.1 8B。确保下载量化版本(在Hugging Face的"Files and versions"标签中列出的.gguf文件之一),且小到足以适合您系统的内存。

命令行使用

llama-zip <llm_path> [选项] <模式> [输入]

模式

llama-zip支持三种操作模式:

压缩模式(由-c或--compress标志指定):要压缩的字符串可以作为参数提供或通过stdin管道输入。压缩输出将写入stdout。
解压模式(由-d或--decompress标志指定):压缩的字符串可以作为参数提供或通过stdin管道输入。解压输出将写入stdout。
交互模式(由-i或--interactive标志指定):显示一个提示,用户可以输入要压缩或解压的字符串。当输入base64编码的字符串时,它将被视为表示压缩数据并进行解压;否则,它将被压缩。每次压缩或解压操作后,会提示用户输入另一个字符串。要退出交互模式,请按Ctrl+C。
- **注意:**如果您想压缩一个完全由base64字符组成的字符串(即字母、数字、+和/,没有任何其他符号或空格),您必须直接使用压缩模式,因为交互模式假定base64编码的字符串是要解压的,如果输入不是来自压缩操作,将会产生无意义的输出。或者,如果您不介意将额外字符与字符串一起压缩,可以在字符串末尾添加一个非base64字符(如空格)。

选项

-f，--compressed-format：压缩数据的格式。可以设置为binary（非交互模式下的默认值）或base64（交互模式下的默认值和唯一支持的格式）。
-w，--window-overlap：当压缩的字符串长度超过模型的最大上下文长度时，前一个上下文窗口的结尾和下一个窗口的开始之间重叠的标记数。可以指定为模型上下文长度的百分比或固定的标记数。默认值为0%，意味着上下文窗口在填满时完全清空。较高的值可以提高压缩比，但会减慢压缩和解压缩速度。注意，在解压缩时，窗口重叠必须设置为与压缩时相同的值，以重建原始字符串。
--n-ctx：用作模型上下文长度的标记数。必须小于或等于模型的最大上下文长度。如果设置为0（默认值），则将使用模型的最大上下文长度。注意，在解压缩时，上下文长度必须设置为与压缩时相同的值，以重建原始字符串。
--n-gpu-layers：卸载到GPU的模型层数。这可以显著加快压缩和解压缩速度，特别是对于较大的模型。如果设置为-1（默认值），则所有层都将被卸载。更多信息请参见llama.cpp仓库。在实践中，压缩和解压缩时应卸载相同数量的层。
--use-mlock：强制系统将整个模型保留在内存中。这对较大的模型可能有用，但如果模型太大，可能会导致系统内存不足。默认禁用。

示例

压缩

压缩文件：

llama-zip /path/to/llm.gguf -c < input.txt > compressed.llzp

压缩字符串并以base64格式打印压缩输出：

llama-zip /path/to/llm.gguf -f base64 -c "The quick brown fox jumps over the lazy dog."

解压缩

解压缩文件：

llama-zip /path/to/llm.gguf -d < compressed.llzp > output.txt

解压缩base64编码的压缩字符串：

llama-zip /path/to/llm.gguf -f base64 -d BASE64_STRING

交互模式

启动交互模式会话：
```
llama-zip /path/to/llm.gguf -i
```

Colab笔记本

API使用

LlamaZip类可以用于以编程方式压缩和解压缩数据。compress方法接受一个bytes对象并返回另一个包含压缩数据的bytes对象。decompress方法接受一个包含压缩数据的bytes对象并返回原始未压缩数据。

from llama_zip import LlamaZip

# 初始化压缩器
compressor = LlamaZip(model_path="/path/to/model.gguf")

# 压缩一些数据
original = b"The quick brown fox jumps over the lazy dog."
compressed = compressor.compress(original)
assert len(compressed) < len(original)

# 解压缩数据
decompressed = compressor.decompress(compressed)
assert decompressed == original

LlamaZip构造函数还接受n_ctx、n_gpu_layers和use_mlock参数，这些参数对应于相同名称的CLI选项。window_overlap参数可以直接传递给compress和decompress方法，以指定该特定操作的窗口重叠。

限制

**速度：**压缩和解压缩速度受LLM推理速度的限制。这使得llama-zip比传统压缩工具明显慢。然而，对于某些用例，llama-zip实现的压缩比可能会证明这种速度上的权衡是合理的。
**可移植性：**llama-zip在压缩和解压缩过程中需要相同的LLM行为。然而，llama-zip用于LLM推理的后端llama.cpp目前不保证确定性行为。这限制了llama-zip压缩输出的可移植性，因为即使使用相同的模型，它也可能无法在不同的系统上解压缩。在实践中，行为还会因卸载到GPU的层数不同而有所不同，所以在压缩和解压缩时，除了窗口重叠（--window-overlap）和上下文长度（--n-ctx）选项外，--n-gpu-layers选项也应设置为相同的值。
**二进制压缩：**由于依赖LLM进行预测，llama-zip最适合压缩主要由文本组成的输入。虽然llama-zip可以通过使用Unicode私有使用区域的码点来编码无效的UTF-8字节来处理二进制数据，但它可能无法在这种数据上达到高压缩比，可能产生比原始输入更大的压缩输出。