评估基准工具与资源集合 - 实用AI评测指南

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

ToolQA是一个专为评估工具增强型大语言模型(LLMs)而设计的开源数据集。它涵盖8个真实场景,提供两个难度级别的问题,旨在测试LLMs使用外部工具回答具有挑战性问题的能力。

ToolQA大语言模型数据集工具增强评估基准Github开源项目
Awesome-Code-LLM: 代码大语言模型研究的精选资源列表

Awesome-Code-LLM: 代码大语言模型研究的精选资源列表

探索代码大语言模型的前沿进展:从预训练到评估,一站式了解顶尖研究与实践资源

代码生成大语言模型人工智能评估基准预训练Github开源项目
Granite代码模型:IBM开源的强大代码智能基础模型

Granite代码模型:IBM开源的强大代码智能基础模型

IBM发布了Granite系列代码模型,这是一组专为代码生成任务设计的开源基础模型,涵盖了3B到34B参数的多种规模,在多项代码智能任务中达到了最先进的性能水平。

Granite Code Models代码生成指令微调开源模型评估基准Github开源项目
HalluQA: 评估中文大语言模型的幻觉现象

HalluQA: 评估中文大语言模型的幻觉现象

HalluQA是一个专门用于评估中文大语言模型幻觉问题的基准数据集。它包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、习俗和社会现象。通过对24个大型中文语言模型的广泛实验,HalluQA揭示了当前模型在处理幻觉问题上的不足,为未来的模型改进提供了重要参考。

HalluQA大型语言模型中文幻觉评估基准问答任务Github开源项目
MMBench: 全面评估多模态模型能力的基准测试

MMBench: 全面评估多模态模型能力的基准测试

MMBench是一个创新的多模态基准测试,旨在全面评估大型视觉语言模型的多模态理解能力。它通过精心设计的数据集和评估策略,为模型开发提供了更细粒度、更客观的评估方法。

MMBench多模态模型评估基准视觉语言模型循环评估Github开源项目
BigCodeBench: 一个评估大型语言模型代码生成能力的基准测试

BigCodeBench: 一个评估大型语言模型代码生成能力的基准测试

BigCodeBench是一个易用的代码生成基准测试,旨在通过实用且具有挑战性的编程任务来评估大型语言模型在更真实场景下的编程能力。

BigCodeBench代码生成评估基准大语言模型编程能力Github开源项目
ALCE: 让大语言模型生成带引用的文本

ALCE: 让大语言模型生成带引用的文本

本文介绍了普林斯顿大学研究团队开发的ALCE项目,该项目旨在使大语言模型能够生成带有准确引用的文本。文章详细阐述了ALCE的背景、功能、数据集、评估方法以及基线模型的实现,为自然语言处理领域的研究者和开发者提供了宝贵的参考。

ALCE大语言模型自动引用文本生成评估基准Github开源项目
T2I-CompBench: 开创文本到图像生成的新纪元

T2I-CompBench: 开创文本到图像生成的新纪元

T2I-CompBench是一个全面的开放世界组合文本到图像生成基准,包含6000个组合文本提示,涵盖3个类别和6个子类别。该基准旨在评估和提升AI模型在生成复杂、连贯场景时的能力,推动文本到图像生成技术的发展。

T2I-CompBench++文本生成图像评估基准组合能力AI模型Github开源项目
Open-Instruct: 开放指令语言模型训练项目

Open-Instruct: 开放指令语言模型训练项目

Open-Instruct是一个开源项目,旨在对流行的预训练语言模型进行指令微调,以提高其遵循指令的能力。该项目提供了统一格式的指令数据集、最新的微调技术以及全面的评估基准。

模型微调语言模型开源项目AI训练评估基准Github
深入探讨基础模型排行榜:一场人工智能评估的革命

深入探讨基础模型排行榜:一场人工智能评估的革命

本文深入探讨了基础模型排行榜的发展现状、重要性及未来趋势,全面介绍了主流排行榜的类型、特点和评估方法,并分析了排行榜对人工智能发展的深远影响。

基础模型评估基准排行榜人工智能机器学习Github开源项目