评估AI工具精选:优化决策的实用指南

dclm

dclm

DataComp-LM大语言模型

大型语言模型训练与评估的开源综合框架

evaluate

evaluate

Evaluate指标

多框架兼容的机器学习评估工具库

AutoKG

AutoKG

AutoKG知识图谱

大型语言模型在知识图谱构建与推理中的应用研究

LongMem

LongMem

LongMem语言模型

为语言模型赋予长期记忆能力

Awesome-LLM-Uncertainty-Reliability-Robustness

Awesome-LLM-Uncertainty-Reliability-Robustness

LLM不确定性

大语言模型的不确定性、可靠性和鲁棒性研究资源集

simple-evals

simple-evals

language models评估

开源轻量级语言模型评估库 展示AI性能数据

llm-hallucination-survey

llm-hallucination-survey

幻觉大语言模型

大语言模型幻觉问题研究综述

sage

sage

SAGE拼写纠正

多语言拼写纠正与文本增强工具包

promptbench

promptbench

PromptBench评估

大语言模型的评估与理解综合工具包

Quantus

Quantus

Quantus神经网络

神经网络解释的定量评估工具箱

lighteval

lighteval

LightEvalLLM

轻量级LLM评估框架,支持多任务处理与复杂模型配置

alpaca_eval

alpaca_eval

开源项目AlpacaEval

精确且成本低的指令追随语言模型自动评估工具

bocoel

bocoel

BoCoEL贝叶斯优化

贝叶斯优化用于评估大型语言模型的开源工具

LESS

LESS

LESS数据选择

选择有影响力的数据进行有针对性的指令调整

bench

bench

BenchLLM

LLM性能评估与工作流标准化工具

LongBench

LongBench

LongBench长文本理解

双语长文本理解多任务评估

prometheus-eval

prometheus-eval

Prometheus-EvalBiGGen-Bench

前沿的大语言模型生成任务评估工具

voicefixer_main

voicefixer_main

VoiceFixer语音恢复

语音修复框架,支持严重退化和历史语音的恢复

LLM-eval-survey

LLM-eval-survey

大型语言模型自然语言处理

汇集了涵盖自然语言处理、逻辑推理、机器翻译等领域关于大型语言模型(LLMs)的全面评估研究与资源

ignite

ignite

PyTorch-Ignite神经网络

PyTorch工具库,专为简化神经网络训练与评估设计