模型评估工具大全：精选AI工具与项目指南

JudgeLM

Github开源项目

大语言模型开放场景高效评估技术

langtest

AI偏见检测Github

开源工具助力语言模型全面测试与优化

RePlay

RePlayGithub

全周期推荐系统开发与评估框架

checklist

开源项目NLP

全面评估NLP模型行为的测试框架

Scale AI

数据引擎AI应用

领先的AI训练数据和模型开发服务提供商

LastMile AI

AI工具提示工程

全面的生成式AI开发工具集，加速应用从原型到生产

yet-another-applied-llm-benchmark

开源项目数据流DSL

基于真实场景的大语言模型能力评估基准

genai-quickstart-pocs

Amazon BedrockGithub

Amazon Bedrock生成式AI应用示例集

LLMBox

训练管道Github

全面的大型语言模型训练与评估框架

pyllms

Github语言模型

多模型连接和性能评估的Python语言模型库

BIG-bench

任务创建Github

评估大型语言模型能力的开放基准

bigcode-evaluation-harness

多语言支持开源项目

开源代码生成模型评估框架

Parameter-Efficient-Transfer-Learning-Benchmark

参数高效迁移学习Github

统一视觉参数高效迁移学习评测基准

lazypredict

开源项目机器学习

自动化机器学习模型评估工具

TinyLlama

TinyLlamaGithub

3万亿token训练的小型1.1B参数语言模型

SAM-Med2D

数据集Github

医学图像分割新突破 SAM-Med2D模型

uncertainty-calibration

开源项目Github

深度学习预测校准技术的前沿研究与实践应用

DeepSeek-MoE

MoE架构Github

创新MoE架构打造高效大规模语言模型

TACO

TACOGithub

推动算法代码生成模型发展的新基准数据集

Awesome-Multimodal-Large-Language-Models

多模态大语言模型开源项目

多模态大语言模型研究资源与最新进展汇总

4 5 6 7

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com