Ministral-8B-Instruct-2410

Ministral-8B-Instruct-2410项目介绍

Ministral-8B-Instruct-2410是一个由Mistral AI推出的语言模型项目，旨在提升本地智能的性能，为设备端和边缘计算场景提供服务。该项目包括两款顶尖的模型，即Ministral 3B和Ministral 8B。这两款模型基于高级训练技术，具备多种语言和编码能力，适用于不同的研究和应用场合。

项目背景

Ministral-8B-Instruct-2410的模型由Mistral AI在Mistral Research License（研究许可）的指导下发布，该许可主要允许模型在非商业的研究目的下使用。感兴趣的用户可联系Mistral AI获取商业许可。

Ministral 8B 核心特性

许可类型: Mistral Research License
训练方法: 使用128k上下文窗口与交错滑动窗口注意力机制训练
多语言与编码数据: 广泛训练于多语言及代码数据集之上
支持功能调用
词汇量: 131k，使用V3-Tekken分词器

基本指令模板 (V3-Tekken)

<s>[INST]用户消息[/INST]助手回复</s>[INST]新用户消息[/INST]

Ministral 8B 模型架构

特性	值
架构	密集型Transformer
参数数量	8,019,808,256
层数	36
头数	32
维度	4096
KV头(GQA)	8
隐藏层维度	12288
头维度	128
词汇表大小	131,072
上下文长度	128k
注意力模式	不规则 (128k,32k,32k,32k)

性能基准

基础模型

知识与常识

模型	MMLU	AGIEval	Winogrande	Arc-c	TriviaQA
Mistral 7B Base	62.5	42.5	74.2	67.9	62.5
Llama 3.1 8B Base	64.7	44.4	74.6	46.0	60.2
Ministral 8B Base	<u>65.0</u>	<u>48.3</u>	<u>75.3</u>	<u>71.9</u>	<u>65.5</u>