评估AI工具精选：优化决策的实用指南

dclm

DataComp-LM大语言模型

大型语言模型训练与评估的开源综合框架

evaluate

Evaluate指标

多框架兼容的机器学习评估工具库

AutoKG

AutoKG知识图谱

大型语言模型在知识图谱构建与推理中的应用研究

LongMem

LongMem语言模型

为语言模型赋予长期记忆能力

Awesome-LLM-Uncertainty-Reliability-Robustness

LLM不确定性

大语言模型的不确定性、可靠性和鲁棒性研究资源集

simple-evals

language models评估

开源轻量级语言模型评估库展示AI性能数据

llm-hallucination-survey

幻觉大语言模型

大语言模型幻觉问题研究综述

sage

SAGE拼写纠正

多语言拼写纠正与文本增强工具包

promptbench

PromptBench评估

大语言模型的评估与理解综合工具包

Quantus

Quantus神经网络

神经网络解释的定量评估工具箱

lighteval

LightEvalLLM

轻量级LLM评估框架，支持多任务处理与复杂模型配置

alpaca_eval

开源项目AlpacaEval

精确且成本低的指令追随语言模型自动评估工具

bocoel

BoCoEL贝叶斯优化

贝叶斯优化用于评估大型语言模型的开源工具

LESS

LESS数据选择

选择有影响力的数据进行有针对性的指令调整

bench

BenchLLM

LLM性能评估与工作流标准化工具

LongBench

LongBench长文本理解

双语长文本理解多任务评估

prometheus-eval

Prometheus-EvalBiGGen-Bench

前沿的大语言模型生成任务评估工具

voicefixer_main

VoiceFixer语音恢复

语音修复框架，支持严重退化和历史语音的恢复

LLM-eval-survey

大型语言模型自然语言处理

汇集了涵盖自然语言处理、逻辑推理、机器翻译等领域关于大型语言模型（LLMs）的全面评估研究与资源

ignite

PyTorch-Ignite神经网络

PyTorch工具库，专为简化神经网络训练与评估设计

1 2 3 4

探索AI的无限可能

访问

AI工具导航精选AI信息

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com