Mistral-Small-Instruct-2409-bnb-4bit

Mistral-Small-Instruct-2409-bnb-4bit 项目介绍

项目背景

Mistral-Small-Instruct-2409-bnb-4bit 是一个经过特别调优的机器学习模型，具有独特的功能与高效的性能表现。该模型基于22亿参数，支持函数调用，具有长达128k的序列长度。该项目旨在提供更快更高效的模型部署解决方案，并支持多种模型的微调和推理任务。

产品功能

高效微调

该项目提供了一系列免费易用的Google Colab笔记本，用户只需要上传数据集并点击“全运行”，即可得到一个经过微调的模型，这些模型支持导出至GGUF、vLLM或者上传到Hugging Face。不同模型的性能表现如下：

Llama-3.1 8b：速度提升2.4倍，内存节省58%
Phi-3.5 (mini)：速度提升2倍，内存节省50%
Gemma-2 9b：速度提升2.4倍，内存节省58%
Mistral 7b：速度提升2.2倍，内存节省62%
TinyLlama：速度提升3.9倍，内存节省74%
DPO - Zephyr：速度提升1.9倍，内存节省19%

使用示例

vLLM（推荐使用）

建议结合vLLM库来实现生产环境级别的推理管道。确保安装vLLM >= v0.6.1.post1，并在控制台进行以下操作：

pip install --upgrade vllm
pip install --upgrade mistral_common

还可通过现成的docker 镜像快速上手。

离线使用

以下是一个简单的离线使用代码示例：

from vllm import LLM
from vllm.sampling_params import SamplingParams

model_name = "mistralai/Mistral-Small-Instruct-2409"
sampling_params = SamplingParams(max_tokens=8192)

llm = LLM(model=model_name, tokenizer_mode="mistral", config_format="mistral", load_format="mistral")
prompt = "How often does the letter r occur in Mistral?"
messages = [{"role": "user", "content": prompt}]
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

服务器模式

通过在服务器和客户端间建立连接，可以实现更高效的资源利用：

启动服务器：

vllm serve mistralai/Mistral-Small-Instruct-2409 --tokenizer_mode mistral --config_format mistral --load_format mistral

需要注意的是，运行Mistral-Small模型单个GPU至少需要44 GB的显存。如需分配至多设备，请添加参数 --tensor_parallel=2。

客户端请求：

curl --location 'http://<your-node-url>:8000/v1/chat/completions' --header 'Content-Type: application/json' --header 'Authorization: Bearer token' --data '{ "model": "mistralai/Mistral-Small-Instruct-2409", "messages": [ { "role": "user", "content": "How often does the letter r occur in Mistral?" } ] }'