评估基准工具与资源集合 - 实用AI评测指南

相关项目相关文章

Swallow-7b-instruct-v0.1

Swallow-7b-instruct-v0.1

日本语言数据评估基准

Swallow模型优化日语处理能力，提升多任务表现

Llama-3.1-Swallow-8B-Instruct-v0.1

Llama-3.1-Swallow-8B-Instruct-v0.1

大语言模型开源项目

基于Llama 3.1的日英双语大语言模型

Meta-Llama-3.1-8B-Instruct-quantized.w4a16

Meta-Llama-3.1-8B-Instruct-quantized.w4a16

评估基准vLLM

基于LLaMA 3.1的INT4量化指令模型

ToolQA

ToolQA

ToolQA大语言模型

评估工具增强型大语言模型的开源数据集

Awesome-Code-LLM

Awesome-Code-LLM

代码生成大语言模型

代码生成领域的前沿研究与顶级模型概览

granite-code-models

granite-code-models

Granite Code Models代码生成

支持116种编程语言的开源代码生成模型家族

HalluQA

HalluQA

HalluQA大型语言模型

中文大语言模型幻觉评估基准

MMBench

MMBench

MMBench多模态模型

全面评估多模态大模型能力的基准测试

bigcodebench

bigcodebench

BigCodeBench代码生成

高难度代码生成基准测试评估LLM编程能力

ALCE

ALCE

ALCE大语言模型

增强大语言模型生成引用文本的基准工具

T2I-CompBench

T2I-CompBench

T2I-CompBench++文本生成图像

组合式文本到图像生成的全面评估基准

open-instruct

open-instruct

模型微调语言模型

开源指令微调大语言模型的完整工具集

awesome-foundation-model-leaderboards

awesome-foundation-model-leaderboards

基础模型评估基准

基础模型评估榜单和工具的综合汇总

探索AI的无限可能

访问

AI工具导航精选AI信息

推荐工具精选

TRAE编程

TRAE编程

AI辅助编程，代码自动修复

扣子-AI办公

扣子-AI办公

职场AI，就用扣子

码上飞

码上飞

零代码AI应用开发平台

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘镜

讯飞绘镜

描述即创作，短视频轻松生成

iTerms

iTerms

企业专属的AI法律顾问

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信公众号二维码

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号