用于法语自然语言处理的无监督语言模型
FlauBERT是基于大型法语语料库进行预训练的无监督语言模型,提供多种尺寸选择。结合FLUE评估平台,增强法语自然语言处理的评估能力。该项目利用CNRS Jean Zay超算机,支持未来的可重复实验,并已集成于Hugging Face的Transformers库中,便于开发者应用。
flaubert_small_cased 是FlauBERT系列中的一个模型,它专为法语自然语言处理而设计。FlauBERT是一个未监督的语言模型,使用了来自法国国家科学研究中心的Jean Zay超级计算机在庞大而多样的法语语料库上进行训练。FlauBERT旨在为法语自然语言处理系统提供一个类似于GLUE的评估基准,叫做FLUE,以便未来能进行可重复的实验,并促进法语语言的研究和模型共享。
FlauBERT提供了多个不同大小的模型,具体参数如下:
模型名称 | 层数 | 注意力头数 | 嵌入维度 | 参数总量 |
---|---|---|---|---|
flaubert-small-cased | 6 | 8 | 512 | 54 M |
flaubert-base-uncased | 12 | 12 | 768 | 137 M |
flaubert-base-cased | 12 | 12 | 768 | 138 M |
flaubert-large-cased | 24 | 16 | 1024 | 373 M |
需要注意的是,flaubert-small-cased
只是部分训练,性能没有保证,建议仅用于调试目的。
在Python中,可以通过Hugging Face的Transformers库来使用FlauBERT。以下是一个简单的示例:
import torch from transformers import FlaubertModel, FlaubertTokenizer # 选择模型 modelname = 'flaubert/flaubert_base_cased' # 加载预训练模型和分词器 flaubert, log = FlaubertModel.from_pretrained(modelname, output_loading_info=True) flaubert_tokenizer = FlaubertTokenizer.from_pretrained(modelname, do_lowercase=False) sentence = "Le chat mange une pomme." token_ids = torch.tensor([flaubert_tokenizer.encode(sentence)]) last_layer = flaubert(token_ids)[0] print(last_layer.shape) # torch.Size([1, 8, 768]) -> (批量大小 x 令牌数 x 嵌入维度) # BERT的[CLS]标记对应于最后一层的第一个隐藏状态 cls_embedding = last_layer[:, 0, :]
如果您的Transformers库版本小于或等于2.10.0,型号要选择如下值之一:
['flaubert-small-cased', 'flaubert-base-uncased', 'flaubert-base-cased', 'flaubert-large-cased']
若您在科学出版物中使用FlauBERT或FLUE基准,或发现本库中的资源有用,请引用以下论文:
LREC论文 和 TALN论文提供了FlauBERT详细的理论和技术背景。
通过这些技术支持,FlauBERT为法语语言的自然语言处理研究提供了强有力的工具和平台。
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、 企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI辅助编程,代码自 动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。