模型评估工具大全:精选AI工具与项目指南

JudgeLM

JudgeLM

Github开源项目

大语言模型开放场景高效评估技术

langtest

langtest

AI偏见检测Github

开源工具助力语言模型全面测试与优化

RePlay

RePlay

RePlayGithub

全周期推荐系统开发与评估框架

checklist

checklist

开源项目NLP

全面评估NLP模型行为的测试框架

Scale AI

Scale AI

数据引擎AI应用

领先的AI训练数据和模型开发服务提供商

LastMile AI

LastMile AI

AI工具提示工程

全面的生成式AI开发工具集,加速应用从原型到生产

yet-another-applied-llm-benchmark

yet-another-applied-llm-benchmark

开源项目数据流DSL

基于真实场景的大语言模型能力评估基准

genai-quickstart-pocs

genai-quickstart-pocs

Amazon BedrockGithub

Amazon Bedrock生成式AI应用示例集

LLMBox

LLMBox

训练管道Github

全面的大型语言模型训练与评估框架

pyllms

pyllms

Github语言模型

多模型连接和性能评估的Python语言模型库

BIG-bench

BIG-bench

任务创建Github

评估大型语言模型能力的开放基准

bigcode-evaluation-harness

bigcode-evaluation-harness

多语言支持开源项目

开源代码生成模型评估框架

Parameter-Efficient-Transfer-Learning-Benchmark

Parameter-Efficient-Transfer-Learning-Benchmark

参数高效迁移学习Github

统一视觉参数高效迁移学习评测基准

lazypredict

lazypredict

开源项目机器学习

自动化机器学习模型评估工具

TinyLlama

TinyLlama

TinyLlamaGithub

3万亿token训练的小型1.1B参数语言模型

SAM-Med2D

SAM-Med2D

数据集Github

医学图像分割新突破 SAM-Med2D模型

uncertainty-calibration

uncertainty-calibration

开源项目Github

深度学习预测校准技术的前沿研究与实践应用

DeepSeek-MoE

DeepSeek-MoE

MoE架构Github

创新MoE架构打造高效大规模语言模型

TACO

TACO

TACOGithub

推动算法代码生成模型发展的新基准数据集

Awesome-Multimodal-Large-Language-Models

Awesome-Multimodal-Large-Language-Models

多模态大语言模型开源项目

多模态大语言模型研究资源与最新进展汇总