FuseAI

大型语言模型的知识融合

<img src="https://yellow-cdn.veclightyear.com/835a84d5/ca7487e9-b4fe-4447-836c-db3b5e7b126f.svg" alt="版本"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6f5dbceb-4a1f-4b17-8e7e-a579a51acb98.svg" alt="许可证"> <img src="https://img.shields.io/github/stars/fanqiwan/FuseLLM?color=yellow" alt="星标"> <img src="https://img.shields.io/github/issues/fanqiwan/FuseLLM?color=red" alt="问题"> <h4> |<a href="https://arxiv.org/abs/2401.10491"> 📑 FuseLLM论文 @ICLR2024 </a> | <a href="https://arxiv.org/abs/2408.07990"> 📑 FuseChat技术报告 </a> | <a href="https://huggingface.co/FuseAI"> 🤗 HuggingFace仓库 </a> | <a href="https://github.com/fanqiwan/FuseLLM"> 🐱 GitHub仓库 </a> | </h4> <p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6b7c242a-abd5-4de9-97e4-aafedc66440e.png" width="95%"> <br> </p> </div>

新闻

FuseChat [MT-Bench上最先进的7B LLM]

2024年8月16日: 🔥🔥🔥🔥 我们更新了FuseChat技术报告并发布了FuseChat-7B-v2.0，它是六个具有不同架构和规模的著名对话LLM的融合，包括OpenChat-3.5-7B、Starling-LM-7B-alpha、NH2-Solar-10.7B、InternLM2-Chat-20B、Mixtral-8x7B-Instruct和Qwen1.5-Chat-72B。FuseChat-7B-v2.0在MT-Bench上实现了7.38的平均性能（使用GPT-4-0125-Preview作为评判LLM），与Mixtral-8x7B-Instruct相当，并接近GPT-3.5-Turbo-1106。
2024年3月13日: 🔥🔥🔥 我们发布了FuseChat-7B的HuggingFace Space，现在就来试试吧！
2024年2月26日: 🔥🔥 我们发布了FuseChat-7B-VaRM，它是三个具有不同架构和规模的著名对话LLM的融合，包括NH2-Mixtral-8x7B、NH2-Solar-10.7B和OpenChat-3.5-7B。FuseChat-7B-VaRM在MT-Bench上实现了8.22的平均性能，超越了多个强大的对话LLM，如Starling-7B、Yi-34B-Chat和Tulu-2-DPO-70B，甚至超过了GPT-3.5（3月版）、Claude-2.1，并接近Mixtral-8x7B-Instruct。
2024年2月25日: 🔥 我们发布了FuseChat-Mixture，这是一个全面的训练数据集，涵盖了不同的风格和能力，包括人工编写和模型生成的内容，涉及通用指令遵循和特定技能。

FuseLLM [超越Llama-2-7B]

2024年1月22日: 🔥 我们发布了FuseLLM-7B，它是三个具有不同架构的开源基础LLM的融合，包括Llama-2-7B、OpenLLaMA-7B和MPT-7B。

引用

如果您引用了与FuseLLM相关的模型、代码、数据或论文，请引用以下论文：

@inproceedings{wan2024knowledge,
  title={Knowledge Fusion of Large Language Models},
  author={Fanqi Wan and Xinting Huang and Deng Cai and Xiaojun Quan and Wei Bi and Shuming Shi},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024},
  url={https://openreview.net/pdf?id=jiDsk12qcz}
}

如果您引用了与FuseChat相关的模型、代码、数据或论文，请引用以下论文：

@article{wan2024fusechat,
  title={FuseChat: Knowledge Fusion of Chat Models},
  author={Fanqi Wan and Longguang Zhong and Ziyi Yang and Ruijun Chen and Xiaojun Quan},
  journal={arXiv preprint arXiv:2408.07990},
  year={2024}
}