suzume-llama-3-8B-japanese-gguf

Suzume-Llama-3-8B-Japanese-GGUF项目介绍

项目概述

Suzume-Llama-3-8B-Japanese-GGUF是一个专门为日语对话而优化的语言模型。这个项目基于Llama 3的模型进行细致调优。Llama 3模型在英语语言基准测试中表现卓越，但其训练数据主要以英语为主。因此，该模型可能会倾向于用英语回答，即使是在日语的提示下。为了克服这一限制，开发者对Llama 3进行细化，特别是用近3,000个日语对话进行训练，从而使该模型拥有Llama 3的智能同时具有用日语对话的能力。

如何使用

用户可以通过LM Studio进行访问和使用。具体操作指南可以参见这里。在LM Studio中搜索“lightblue/suzume-llama-3-8B-japanese-gguf”即可使用该模型。

评估结果

Suzume-Llama-3-8B模型被认为是在7/8B级别的LLM中表现最好的模型之一，特别是在多种日语语言基准测试中。

训练数据

模型的训练数据来自以下三个主要来源：

megagonlabs/instruction_ja - 669次对话
- 该数据集由近700个对话构成，最初取自于翻译版本的kunishou/hh-rlhf-49k-ja。
openchat/openchat_sharegpt4_dataset（仅日语对话） - 167次对话
- 数据来源为人和GPT-4之间的对话。
lightblue/tagengo-gpt4（仅日语提示） - 2,482次对话
- 从lmsys/lmsys-chat-1m中抽取约2,500个多样化的日语提示，随后使用GPT-4进行回应。

训练配置

模型的训练配置如下：

基础模型：meta-llama/Meta-Llama-3-8B-Instruct
模型类型：LlamaForCausalLM
分词器类型：AutoTokenizer
序列长度：8192
优化器：paged_adamw_8bit
学习率：1e-5
使用的架构版本：axolotl 0.4.0
以及其他多种优化和配置参数

详细的训练配置和参数设置可以通过项目的axolotl配置了解。

训练结果

在模型训练期间，不同的epoch和步骤下，训练损失和验证损失不断下降，显示了模型的逐步优化和收敛。其中，训练损失从1.303降至1.0221，验证损失从1.2664降至0.9555。

如何引用

在引用该模型时，请引述相关的论文：Tagengo: A Multilingual Chat Dataset。

@article{devine2024tagengo,
  title={Tagengo: A Multilingual Chat Dataset},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.12612},
  year={2024}
}