最强开源模型Llama3.1只坚持了一天,就被Mistral新模型踢馆了

Ray

出大事了,开源大模型界出大事了!

Meta前脚刚发布了“最强模型” Llama 3.1 405B,Mistral后脚就来踢馆,发布 Mistral Large 2,参数123B。

Image

Mistral的 Large 2 模型的参数不到 Llama 3.1三分之一,难道是梁静茹给它的勇气来踢馆吗?

别着急,让我们来通过测试数据来对比一下。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

Image

数据对比

一、代码编写

Mistral的AI 最大的优势就是代码的编写,在这一点上那肯定是不能输给 Llama 3.1 的。

Mistral Large 2 支持包括Python、Java、C、C++、JavaScript和Bash在内的 80多种 编程语言,吸取Codestral 、Codestral Mamba经验,表现远超之前的Mistral Large。

Image

通过对比我们不难看出,在 Human Eval基准 上,Mistral Large 2 的代码生成能力只是略逊于GPT-4o,完爆 Llama 3.1

而在 MBPP 基准上,Llama 3.1 也算是找回场子,不论是 405B 还是 70B 都优于 Mistral Large 2

Image

而在 MultiPL-E多种编程语言基准 上,Mistral Large 2 更是多方面超越 Llama 3.1 405B,直逼GPT4o。

Mistral Large 2 还增加了 函数调用能力

Image

可以看到在这一能力上 Mistral Large 2 稳坐 冠军宝座,甚至干掉了GPT4o。

二、推理能力

数学推理也是困扰大模型已久的难题之一,这次 Llama 3.1Mistral Large 2 在数学推理方面也是进步极大。

Image

可以看到,在 GSM8K(8-shot)基准Llama 3.1 405B 几乎是处于 最高水平,而 Mistral Large 2 也是 名列前茅

在MATH(0-shot,无CoT)基准Mistral Large 2 水平仅次于GPT4o,Llama 3.1 405B位列第三

三、多语言文本指令优化

Mistral Large 2 具有 128k 上下文窗口。预训练版本的 MMLU 能达到 84.0%

Image

昨天发布的 Llama 3.1 针对八种不同语言进行了文本指令优化,但其中偏偏没有 中文,使得 Llama 3.1 中文水平极差。

但这次 Mistral Large 2 带上了,包括中文在内,还支持英语、日语、韩语、法语等 数十种语言

据测试,在 多语言MMLU 上,Mistral Large 2 的平均性能 明显优于Llama 3.1 70b(高6.3%),与 Llama 3 405B 相当(低0.4%)。

Image

四、指令遵循和对齐

Image

可以看出, Large2Wild Bench和Arena Hard 上的表现都非常出色,处于顶尖状态,优于 Llama 3.1

Image

avatar
0
0
0
相关项目
Project Cover

Ollama

Ollama 提供丰富的大型语言模型选择,包括 Llama 3.1、Phi 3、Mistral、Gemma 2 等,适用于 macOS、Linux 和 Windows 进行高效的语言处理任务。平台支持用户按需自定义模型,并提供便捷的下载服务。

Project Cover

unsloth

Unsloth提供高效AI模型调优方案,能将处理速度提升2倍,内存消耗降低60%。支持多种NVIDIA GPU型号,并适用于Llama 3.1、Mistral及Gemma等多种模型,全程无需更换硬件。易于操作的免费笔记本特别适合AI初学者。探索我们的网站,体验这一领先技术。

Project Cover

nano-llama31

nano-llama31是一个轻量级的Llama 3.1架构实现,无需额外依赖。该项目聚焦8B基础模型,提供训练、微调和推理功能。相比Meta官方和Hugging Face的版本,代码更为精简。目前正在开发中,已支持Tiny Stories数据集的微调。未来计划增加混合精度训练、分布式数据并行等功能,并考虑扩展到更大规模的Llama 3模型。

Project Cover

huggingface-llama-recipes

本项目提供了一系列实用工具和指南,帮助开发者快速掌握Llama 3.1模型。内容涵盖本地推理、API调用、模型量化和微调等关键主题,并包含相关代码示例。此外,项目还介绍了Llama Guard和Prompt Guard安全模型的应用,以及其他高级用例。项目资源适合不同经验水平的开发者,为探索和应用Llama 3.1模型提供了有价值的参考。

Project Cover

Llama-3.1-405B

Llama 3.1是Meta开发的多语言大型语言模型系列,提供8B、70B和405B三种规模。模型采用优化的Transformer架构,支持128k上下文长度,使用分组查询注意力机制提升推理效率。经指令微调后,可用于多语言对话等场景,在行业基准测试中表现出色。支持8种语言,适用于商业和研究用途,如助手式聊天和自然语言生成等任务。

Project Cover

Llama-3.1-8B-Instruct

Llama-3.1-8B-Instruct是Meta开发的多语言大规模语言模型,支持8种语言的对话和自然语言生成。模型采用优化的Transformer架构,具有128K上下文长度,可用于商业和研究领域的文本及代码生成等任务。该模型遵循Llama 3.1社区许可,用户应确保合规使用。

Project Cover

Meta-Llama-3.1-8B-Instruct-bnb-4bit

Meta-Llama-3.1-8B-Instruct是一款开源的大语言模型微调框架,能以2.4倍的速度和58%更少的内存微调Llama 3.1等模型。支持Llama 3.1、Gemma 2和Mistral等多种模型,提供Google Colab笔记本便于使用。该框架适用于商业和研究领域,支持多语言处理,具有128K上下文长度。其优化设计显著提升了模型微调效率,为开发者和研究人员提供了强大的工具。

Project Cover

Llama-3.1-8B

Llama-3.1-8B是Meta公司推出的多语言大型语言模型,采用优化的Transformer架构,支持128K超长上下文。该模型在8种语言中进行预训练和指令微调,在通用对话和多语言任务上表现优异。Llama-3.1-8B适用于助手式聊天、自然语言生成等商业和研究场景,并提供自定义商业许可证。用户在遵守使用政策的前提下可广泛应用该模型。

Project Cover

petals

Petals项目让用户能够在家中或通过Google Colab运行Llama 3.1、Mixtral、Falcon和BLOOM等大型语言模型。通过分布式网络托管模型层,推理速度可提升至10倍。用户可以微调模型以满足特定任务需求,并且支持隐私保护和私人群组设置。该项目依赖社区共享GPU资源,提供详细的教程和支持,帮助用户快速上手并充分利用其功能。

最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号