
对比学习工具包
contrastors 是一个高效的对比学习工具包,支持多GPU和大批量训练优化。支持通过Huggingface快速加载常见模型如BERT和GPTNeoX,适用于处理复杂的语言和视觉嵌入任务。
contrastors 是一款专为研究人员和工程师打造的对比学习工具包,旨在帮助他们高效地训练和评估对比模型。这个工具包集成了多种先进技术和灵活功能,支持多GPU训练、受限内存环境下的大批量训练等,为用户提供了广泛的模型训练支持。
contrastors 不仅是一个工具包,还伴随着研究成果的支持,包括:
要设置 contrastors 需要依赖 Flash Attention 所提供的自定义内核。在安装环境前,请确保已安装 Cuda 11.8 或更高版本。
使用以下步骤来设置 Python 虚拟环境并安装必需的软件包:
python3 -m venv env source env/bin/activate pip3 install torch torchvision torchaudio pip install wheel packaging ninja setuptools pip install --no-cache-dir flash-attn --no-build-isolation ... pip install -e .
提供 nomic-embed-text-v1 数据集的访问权限。用户需创建账户并通过 nomic 包进行登录配置,具体操作指引可通过 nomic 的官方渠道获取。
contrastors 提供了一系列训练脚本,用户可根据需要自行调整:
MLM 预训练:通过命令运行 BERT 的预训练
deepspeed --num_gpus=8 train.py --config=configs/train/mlm.yaml ...
对比学习预训练和微调:可以进行对比学习实验及微调已有模型
torchrun --nproc-per-node=8 train.py --config=configs/train/contrastive_pretrain.yaml ...
我们在以下平台提供了多个预训练模型,供用户下载使用:
欢迎访问 Nomic 的官方网站 nomic.ai,并加入我们的 Discord 和 Twitter 社区,与更多研究者和开发者进行交流。
此工具包基于 Apache 2.0 许可证开放,具体的模型许可信息请参考各个模型的 cards。
感谢 Tri Dao 对 Flash Attention 和自定义内核的贡献,以及 OpenCLIP 和 Huggingface 团队在相关开源库方面的支持和工作。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

