ONNX Runtime generate() API

使用ONNX Runtime运行Llama、Phi、Gemma和Mistral。

该API为您提供了一种简单、灵活且高性能的方式在设备上运行LLM。

它为ONNX模型实现了生成式AI循环，包括预处理和后处理、使用ONNX Runtime进行推理、logits处理、搜索和采样，以及KV缓存管理。

您可以调用高级generate()方法一次性生成所有输出，或者逐个标记流式输出。

详细文档请参见https://onnxruntime.ai/docs/genai。

支持矩阵	当前支持	开发中	规划中
模型架构	Gemma <br/> Llama * <br/> Mistral + <br/>Phi（语言 + 视觉）<br/>Qwen <br/>	Whisper	Stable diffusion
API	Python <br/>C# <br/>C/C++ <br/> Java ^	Objective-C
平台	Linux <br/> Windows <br/>Mac ^ <br/>Android ^		iOS
架构	x86 <br/> x64 <br/> Arm64 ^
硬件加速	CUDA<br/>DirectML<br/>	QNN <br/> ROCm	OpenVINO
功能		交互式解码 <br/> 自定义（微调）	推测性解码

* Llama模型架构支持类似的模型系列，如CodeLlama、Vicuna、Yi等。

+ Mistral模型架构支持类似的模型系列，如Zephyr。

^ 需要从源代码构建

安装

请参见https://onnxruntime.ai/docs/genai/howto/install

Python中Phi-3的示例代码

下载模型

huggingface-cli download microsoft/Phi-3-mini-4k-instruct-onnx --include cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4/* --local-dir .

安装API

pip install numpy
pip install --pre onnxruntime-genai

运行模型

import onnxruntime_genai as og

model = og.Model('cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4')
tokenizer = og.Tokenizer(model)
tokenizer_stream = tokenizer.create_stream()
 
# 默认将最大长度设置为合理的值，
# 否则它将被设置为整个上下文长度
search_options = {}
search_options['max_length'] = 2048

chat_template = '<|user|>\n{input} <|end|>\n<|assistant|>'

text = input("输入：")
if not text:
   print("错误，输入不能为空")
   exit

prompt = f'{chat_template.format(input=text)}'

input_tokens = tokenizer.encode(prompt)

params = og.GeneratorParams(model)
params.set_search_options(**search_options)
params.input_ids = input_tokens
generator = og.Generator(model, params)

print("输出：", end='', flush=True)

try:
   while not generator.is_done():
     generator.compute_logits()
     generator.generate_next_token()

     new_token = generator.get_next_tokens()[0]
     print(tokenizer_stream.decode(new_token), end='', flush=True)
except KeyboardInterrupt:
    print("  --按下control+c，中止生成--")

print()
del generator