模型评估工具大全:精选AI工具与项目指南

AlbedoBase

AlbedoBase

模型评估AI模型

Diffusers库模型管理和部署框架

e5-base-v2

e5-base-v2

模型评估Sentence Transformers

多任务训练的自然语言处理模型

opus-mt-fr-en

opus-mt-fr-en

opus-mt-fr-enGithub

基于OPUS数据集的法英神经机器翻译模型

Ethnicity_Test_v003

Ethnicity_Test_v003

模型图像分类

AutoTrain训练的多族裔分类模型准确率达79.6%

bge-large-en

bge-large-en

向量检索模型

英文句子嵌入模型在多种NLP任务中展现优异性能

GIST-all-MiniLM-L6-v2

GIST-all-MiniLM-L6-v2

模型评估文本相似度

多语言句子相似度和特征提取模型

gte-small

gte-small

模型Github

轻量级句子嵌入模型支持多种自然语言处理应用

stella_en_400M_v5

stella_en_400M_v5

模型Github

性能卓越的英语句子相似度计算模型

Qwen2-0.5B

Qwen2-0.5B

模型评估Huggingface

阿里巴巴推出的高性能开源大语言模型

gte-large

gte-large

模型评估Sentence Transformers

大型语言模型在句子相似度和多任务评估中的应用

DeBERTa-v3-base-mnli-fever-anli

DeBERTa-v3-base-mnli-fever-anli

模型多任务学习

基于DeBERTa-v3的多数据集训练自然语言推理模型

bge-large-en-v1.5

bge-large-en-v1.5

模型Github

高性能英语嵌入模型助力文本相似度和信息检索

ms-marco-MiniLM-L-4-v2

ms-marco-MiniLM-L-4-v2

模型评估Cross-Encoder

MS Marco跨编码器模型优化信息检索和段落排序效率

llama3_it_ultra_list_and_bold500

llama3_it_ultra_list_and_bold500

自然语言处理Transformers

Transformers库预训练模型概览

gpt4-with-calc

gpt4-with-calc

GPT-4数值计算

GPT-4数值计算能力增强技术探索

presidio-research

presidio-research

PresidioPII检测

开源PII检测与评估工具包助力隐私保护

pattern_classification

pattern_classification

机器学习模式分类

机器学习和模式分类资源集合

RecSysDatasets

RecSysDatasets

推荐系统数据集

推荐系统公开数据集汇总及处理工具

AutoQuant

AutoQuant

AutoCatBoostRegression机器学习

开源自动化机器学习工具包

llm-comparator

llm-comparator

LLM Comparator可视化工具

交互式可视化工具对比分析大语言模型性能