
精准中文文本分类的先进模型
本文介绍了5个中文RoBERTa-Base分类模型,这些模型由UER-py和TencentPretrain进行微调,基于用户评论与新闻文章的数据集实现精准分类。文章详细解释了模型的使用方法,并提供下载链接,同时概述了在腾讯云上进行的微调过程及优化参数,确保最佳性能。
roberta-base-finetuned-jd-binary-chinese是一个经过微调的中文RoBERTa-Base文本分类模型。此模型属于一组由UER-py微调的五个中文RoBERTa-Base分类模型之一。这些模型的相关技术细节在本文中进行了介绍。此外,模型还可以通过TencentPretrain进行微调,这个工具继承了UER-py的功能,支持参数超过十亿的模型,并将其扩展为一个多模态预训练框架。
这些模型可以从UER-py的模型库页面下载,也可以通过以下链接从HuggingFace平台获取:
用户可以通过以下Python代码示例,直接使用模型进行文本分类:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese') tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese') text_classification = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer) text_classification("北京上个月召开了两会")
模组会返回一个包含分类标签及其相应得分的列表。
对于此项目,使用了五个中文文本分类数据集。JD full、JD binary和Dianping数据集由不同情感极性的用户评论组成;而Ifeng和Chinanews则由不同主题类别的新闻文章的首段组成。这些数据是由Glyph项目收集的,更多细节可参阅相关论文。
模型在Tencent Cloud上使用UER-py进行了微调。在预训练模型chinese_roberta_L-12_H-768的基础上进行了三轮训练,每轮训练使用512的序列长度。在每个周期结束时,模型会在开发集上达到最佳性能时保存。所有模型使用相同的超参数设置。
这里是一个微调的示例代码:
python3 finetune/run_classifier.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \ --vocab_path models/google_zh_vocab.txt \ --train_path datasets/glyph/chinanews/train.tsv \ --dev_path datasets/glyph/chinanews/dev.tsv \ --output_model_path models/chinanews_classifier_model.bin \ --learning_rate 3e-5 --epochs_num 3 --batch_size 32 --seq_length 512
最后,模型转换为HuggingFace的格式:
python3 scripts/convert_bert_text_classification_from_uer_to_huggingface.py --input_model_path models/chinanews_classifier_model.bin \ --output_model_path pytorch_model.bin \ --layers_num 12
通过本文档的详细介绍,希望读者能够对roberta-base-finetuned-jd-binary-chinese项目有一个清晰全面的认识,同时在情感分析或新闻分类任务中有效地应用该模型。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备 上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI 论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号