模型评估工具大全:精选AI工具与项目指南

JudgeLM

JudgeLM

JudgeLM大语言模型

大语言模型开放场景高效评估技术

langtest

langtest

LangTest语言模型测试

开源工具助力语言模型全面测试与优化

RePlay

RePlay

RePlay推荐系统

全周期推荐系统开发与评估框架

checklist

checklist

CheckListNLP

全面评估NLP模型行为的测试框架

Scale AI

Scale AI

AI工具AI应用

领先的AI训练数据和模型开发服务提供商

LastMile AI

LastMile AI

AI工具RAG

全面的生成式AI开发工具集,加速应用从原型到生产

yet-another-applied-llm-benchmark

yet-another-applied-llm-benchmark

LLM基准测试模型评估

基于真实场景的大语言模型能力评估基准

genai-quickstart-pocs

genai-quickstart-pocs

Amazon Bedrock生成式AI

Amazon Bedrock生成式AI应用示例集

LLMBox

LLMBox

LLMBox大语言模型

全面的大型语言模型训练与评估框架

pyllms

pyllms

PyLLMs语言模型

多模型连接和性能评估的Python语言模型库

BIG-bench

BIG-bench

BIG-bench语言模型

评估大型语言模型能力的开放基准

bigcode-evaluation-harness

bigcode-evaluation-harness

代码生成评估框架

开源代码生成模型评估框架

Parameter-Efficient-Transfer-Learning-Benchmark

Parameter-Efficient-Transfer-Learning-Benchmark

V-PETL Bench参数高效迁移学习

统一视觉参数高效迁移学习评测基准

lazypredict

lazypredict

Lazy Predict机器学习

自动化机器学习模型评估工具

TinyLlama

TinyLlama

TinyLlama语言模型

3万亿token训练的小型1.1B参数语言模型

SAM-Med2D

SAM-Med2D

SAM-Med2D医学图像分割

医学图像分割新突破 SAM-Med2D模型

uncertainty-calibration

uncertainty-calibration

预估校准机器学习

深度学习预测校准技术的前沿研究与实践应用

DeepSeek-MoE

DeepSeek-MoE

DeepSeekMoE大语言模型

创新MoE架构打造高效大规模语言模型

TACO

TACO

TACO代码生成

推动算法代码生成模型发展的新基准数据集

Awesome-Multimodal-Large-Language-Models

Awesome-Multimodal-Large-Language-Models

多模态大语言模型视觉语言模型

多模态大语言模型研究资源与最新进展汇总