评估AI工具精选:优化决策的实用指南

awesome-LLM-resourses

awesome-LLM-resourses

大语言模型LLM

中文大语言模型全面资源汇总 数据处理到评估应有尽有

GermanWordEmbeddings

GermanWordEmbeddings

词嵌入德语

开源德语词向量训练与评估工具包

elliot

elliot

ELLIOT推荐系统

推荐系统评估框架 简化实验流程提高研究可重复性

Leaderboard

Leaderboard

语音识别基准测试

多语言语音识别基准测试平台 促进ASR系统评估

athina-evals

athina-evals

AthinaAI

AI团队评估和实验的开源工具集

tree-diffusion

tree-diffusion

Tree Diffusion模型权重

基于扩散模型的语法树生成框架

llm-data-creation

llm-data-creation

大语言模型数据创建

大型语言模型驱动的自动数据生成框架

cbtm

cbtm

c-BTM语言模型

无监督领域发现技术扩展专家语言模型

Pros and Cons

Pros and Cons

AI工具优缺点

高效直观的决策分析工具

Propwrite

Propwrite

AI工具Propwrite

智能房地产报告生成与评估工具

Finetune

Finetune

AI工具Finetune

AI-人类协作解决方案推动评估与学习领域发展

Laminar

Laminar

AI工具调试

专业LLM应用开发和调试工具平台

CritiqueLLM

CritiqueLLM

CritiqueLLM大语言模型

大型语言模型输出评估的智能批评生成框架

chain-of-hindsight

chain-of-hindsight

Chain of Hindsight语言模型

基于人类反馈优化语言模型的开源框架

uptrain

uptrain

UpTrainLLM应用

开源平台评估优化LLM应用

T-Eval

T-Eval

T-Eval大语言模型

分步骤评估大语言模型工具使用能力的基准测试框架

BotChat

BotChat

BotChat BenchmarkLLM

创新评估大语言模型多轮对话能力的基准

advprompter

advprompter

AdvPrompterLLM

自适应对抗提示技术优化大语言模型表现

EvaluationPapers4ChatGPT

EvaluationPapers4ChatGPT

ChatGPT大语言模型

ChatGPT等大型语言模型评估资源库

mteb

mteb

MTEB文本嵌入

多任务文本嵌入模型评估基准