精选AI数据集工具和项目大集合

xlm-roberta-large-ner-hrl

xlm-roberta-large-ner-hrl

Huggingface开源项目

十种多语言命名实体识别模型,覆盖高资源语言

opus-mt-da-de

opus-mt-da-de

Huggingface开源项目

基于Transformer架构的丹麦语-德语机器翻译模型

suzume-llama-3-8B-japanese-gguf

suzume-llama-3-8B-japanese-gguf

数据集Github

专注日语对话优化的Llama 3微调模型

led-large-book-summary

led-large-book-summary

数据集Github

探索BookSum数据集带来的长文档摘要新挑战

magnum-v4-27b-gguf

magnum-v4-27b-gguf

Claude 3细致调优

改进的文本生成语言模型

Mistral-7B-SlimOrca

Mistral-7B-SlimOrca

数据集开源项目

SlimOrca实现高效性能的Mistral-7B文本生成模型

Llama-3-Lumimaid-8B-v0.1-OAS-GGUF-IQ-Imatrix

Llama-3-Lumimaid-8B-v0.1-OAS-GGUF-IQ-Imatrix

数据集Github

Llama-3新版本增强模型转换准确性

e5-base-sts-en-de

e5-base-sts-en-de

e5-base语义文本相似度

基于E5微调的德语文本语义相似度模型

cloudy-large-zh

cloudy-large-zh

Huggingface排序重排

支持多任务评估的高级句子相似性和特征提取模型

banglat5_nmt_en_bn

banglat5_nmt_en_bn

文本处理Huggingface

BanglaT5英孟双向神经机器翻译模型

Bespoke-MiniCheck-7B

Bespoke-MiniCheck-7B

Llama-3.1-Bespoke-MiniCheck-7B模型性能

文档核实模型的优化技术与高质量数据策展效果

pythia-1b-deduped

pythia-1b-deduped

HuggingfaceEleutherAI

Pythia模型家族为大规模语言模型的可解释性研究提供了全面支持

news-category-classification-distilbert

news-category-classification-distilbert

数据集Github

使用21万条HuffPost头条数据训练的新闻分类模型

roberta-base-finetuned-jd-binary-chinese

roberta-base-finetuned-jd-binary-chinese

文本分类开源项目

精准中文文本分类的先进模型

Wizard-Vicuna-30B-Uncensored-GGUF

Wizard-Vicuna-30B-Uncensored-GGUF

开源项目GGUF

多平台兼容的高效AI模型格式

JaColBERTv2.5

JaColBERTv2.5

数据集开源项目

优化资源应用的日语信息检索模型

Replete-Coder-Llama3-8B-GGUF

Replete-Coder-Llama3-8B-GGUF

量化Replete-Coder-Llama3-8B

基于llama.cpp优化的高效量化方法提升文本生成性能

small-e-czech-finetuned-ner-wikiann

small-e-czech-finetuned-ner-wikiann

数据集Github

捷克语命名实体识别模型精细化

SecureBERT_Plus

SecureBERT_Plus

SecureBERT+机器学习

网络安全领域的增强版语言模型

Llama-2-7B-32K-Instruct

Llama-2-7B-32K-Instruct

数据集Llama-2-7B-32K-Instruct

长上下文对话模型,支持自定义微调和高效推理