公众号文章:文本分类之Text-CNN/RNN/RCNN算法原理及工程实现
公众号文章:一篇文章带你走进词向量并掌握Word2Vec
此仓库是基于Tensorflow2.3的文本分类任务,通过直接配置可支持:
日期 | 版本 | 描述 |
---|---|---|
2018-12-01 | v1.0.0 | 初始仓库 |
2020-10-20 | v2.0.0 | 重构项目 |
2020-10-26 | v2.1.0 | 加入F1、Precise、Recall分类指标,计算方式支持macro、micro、average、binary |
2020-11-26 | v2.3.1 | 加入focal loss用于改善标签分布不平衡的情况 |
2020-11-19 | v2.4.0 | 增加每个类别的指标,重构指标计算逻辑 |
2021-03-02 | v2.5.0 | 使用Dataset替换自己写的数据加载器来加载数据 |
2021-03-15 | v3.0.0 | 支持仅使用TextCNN/TextRCNN进行数据训练(基于词粒度的token,使用随机生成的Embedding层) |
2021-03-16 | v3.1.0 | 支持取用Word2Vec的词向量后接TextCNN/TextRCNN进行数据训练;在log中打印配置 |
2021-03-17 | v3.1.1 | 根据词频过滤一部分频率极低的词,不加入词表 |
2021-04-25 | v3.1.6 | 通过配置可选GPU和CPU进行训练 |
2021-06-17 | v3.2.0 | 增加字粒度的模型训练预测 |
2021-09-27 | v3.3.0 | 增加测试集的批量测试 |
2021-11-01 | v4.0.0 | 增加对抗训练,目前支持FGM和PGD两种方式;增加Bert微调分类训练;更换demo数据集 |
2021-11-24 | v4.2.0 | 增加Transformer模型做文本分类、增加对比学习方法r-drop |
2022-04-22 | v5.0.0 | 批量测试打印bad_case以及预测混淆情况、文件夹检查、配置里面不再自己定义标签顺序、各类预训练模型支持 |
部分头条新闻数据集
在config.py中配置好各个参数,文件中有详细参数说明
配置好下列参数
classifier_config = {
# 模型选择
# 传统模型:TextCNN/TextRNN/TextRCNN/Transformer
# 预训练模型:Bert/DistilBert/AlBert/RoBerta/Electra/XLNet
'classifier': 'TextCNN',
# 若选择Bert系列微调做分类,请在pretrained指定预训练模型的版本
'pretrained': 'bert-base-chinese',
# 训练数据集
'train_file': 'data/train_dataset.csv',
# 验证数据集
'val_file': 'data/val_dataset.csv',
# 测试数据集
'test_file': 'data/test_dataset.csv',
# 引入外部的词嵌入,可选word2vec、Bert
# word2vec:使用word2vec词向量做特征增强
# 不填写则随机初始化的Embedding
'embedding_method': '',
# token的粒度,token选择字粒度的时候,词嵌入(embedding_method)无效
# 词粒度:'word'
# 字粒度:'char'
'token_level': 'word',
# 去停用词,路径需要在上面的word2vec_config中配置,仅限非预训练微调使用
'stop_words': True,
# 是否去掉特殊字符
'remove_special': True,
# 不外接词嵌入的时候需要自定义的向量维度
'embedding_dim': 300,
# 存放词表的地方
'token_file': 'data/word-token2id',
# 类别列表
'classes': ['家居', '时尚', '教育', '财经', '时政', '娱乐', '科技', '体育', '游戏', '房产'],
# 模型保存的文件夹
'checkpoints_dir': 'model/textcnn',
# 模型保存的名字
'checkpoint_name': 'textcnn',
# 使用Textcnn模型时候设定卷集核的个数
'num_filters': 64,
# 学习率
# 微调预训练模型时建议更小,设置5e-5
'learning_rate': 0.0005,
# 优化器选择
# 可选:Adagrad/Adadelta/RMSprop/SGD/Adam/AdamW
'optimizer': 'Adam',
# 训练epoch
'epoch': 100,
# 最多保存max_to_keep个模型
'max_to_keep': 1,
# 每print_per_batch打印
'print_per_batch': 100,
# 是否提前结束
'is_early_stop': True,
# 是否引入attention
# 注意:textrcnn不支持
'use_attention': False,
# attention大小
'attention_size': 300,
'patient': 8,
'batch_size': 256,
'max_sequence_length': 300,
# 遗忘率
'dropout_rate': 0.5,
# 隐藏层维度
# 使用textrcnn、textrnn和transformer中需要设定
# 使用transformer建议设定为2048
'hidden_dim': 256,
# 编码器个数(使用transformer需要设定)
'encoder_num': 1,
# 多头注意力的个数(使用transformer需要设定)
'head_num': 12,
# 若为二分类则使用binary
# 多分类使用micro或macro
'metrics_average': 'micro',
# 类别样本比例失衡的时候可以考虑使用
'use_focal_loss': False,
# 使用标签平滑
# 主要用在预训练模型微调,直接训练小模型使用标签平滑会带来负面效果,慎用
'use_label_smoothing': False,
'smooth_factor': 0.1,
# 是否使用GAN进行对抗训练
'use_gan': False,
# 目前支持FGM和PGD两种方法
# fgm:Fast Gradient Method
# pgd:Projected Gradient Descent
'gan_method': 'pgd',
# 对抗次数
'attack_round': 3,
# 使用对比学习,不推荐和对抗方法一起使用,效率慢收益不大
'use_r_drop': False
}
配置完参数之后开始训练模型
# [train_classifier, interactive_predict, test, save_model, train_word2vec, train_sif_sentence_vec]
mode = 'train_classifier'
训练好模型直接可以开始测试,可以进行交互测试也可以批量测试
# [train_classifier, interactive_predict, test, save_model, train_word2vec, train_sif_sentence_vec]
mode = 'interactive_predict'
交互测试结果
在测试数据集配置上填和训练/验证集文件同构的文件地址
# 测试数据集
'test_file': 'data/test_dataset.csv',
模式设定为测试模式
# [train_classifier, interactive_predict, test, save_model, train_word2vec, train_sif_sentence_vec]
mode = 'test'
批量测试结果
批量测试完会给出各个标签混淆的分布
批量测试完同时会给出一份bad_case文件,方便更细致的纠正标签和判断模型效果
在config.py中的mode中配置好词向量训练的相关参数,并在mode中选择train_word2vec并运行:
word2vec_config = {
'stop_words': 'data/w2v_data/stop_words.txt', # 停用词(可为空)
'train_data': 'data/w2v_data/dataset.csv', # 词向量训练用的数据
'model_dir': 'model/word2vec_model', # 词向量模型的保存文件夹
'model_name': 'word2vec_model.pkl', # 词向量模型名
'word2vec_dim': 300, # 词向量维度
'min_count': 3, # 最低保留词频大小
# 选择skip-gram和cbow
'sg': 'cbow'
}
# [train_classifier, interactive_predict, test, save_model, train_word2vec, train_sif_sentence_vec]
mode = 'train_word2vec'
相关问题欢迎在公众号反馈:
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号