
实现超越SimCLR的简化自监督学习新方法
这个开源项目提供了一种无需对比学习和负样本分配的自监督学习方法,其性能超过了SimCLR。它支持轻松集成任何基于图像的神经网络,并利用未标记数据提升模型性能。该项目还支持批量规范化和组规范化替代方案,适用于定制化和分布式训练。
<img src="https://yellow-cdn.veclightyear.com/35dd4d3f/4ea2933a-8c98-4632-a289-b91a744fccf3.png" width="700px"></img>
<a href="https://arxiv.org/abs/2006.07733">一种令人惊讶的简单方法</a>的实际实现——一种自监督学习方法,它在无需对比学习和指定负样本对的情况下,达到了新的技术水平(超越SimCLR)。
这个仓库提供了一个模块,可以轻松地包装任何基于图像的神经网络(剩余网络、判别器、策略网络),以立即开始利用未标记的图像数据。
更新 1:现在有<a href="https://untitled-ai.github.io/understanding-self-supervised-contrastive-learning.html">新证据</a>表明批量归一化是使这种技术工作得很好的关键
更新 2:一篇<a href="https://arxiv.org/abs/2010.10241">新论文</a>成功将批量归一化替换为组归一化和权重标准化,驳斥了BYOL需要批量统计量才能工作
更新 3:终于,我们有了<a href="https://arxiv.org/abs/2102.06810">一些分析</a>来说明为什么这能起作用
<a href="https://www.youtube.com/watch?v=YPfUiOMYOEE">Yannic Kilcher的优秀解释</a>
现在,去拯救你的组织,不用再为标签付费了 :)
$ pip install byol-pytorch
只需插入你的神经网络,指定(1)图像尺寸以及(2)隐藏层的名称(或索引),其输出将用作用于自监督训练的潜在表示。
import torch from byol_pytorch import BYOL from torchvision import models resnet = models.resnet50(pretrained=True) learner = BYOL( resnet, image_size = 256, hidden_layer = 'avgpool' ) opt = torch.optim.Adam(learner.parameters(), lr=3e-4) def sample_unlabelled_images(): return torch.randn(20, 3, 256, 256) for _ in range(100): images = sample_unlabelled_images() loss = learner(images) opt.zero_grad() loss.backward() opt.step() learner.update_moving_average() # 更新目标编码器的移动平均 # 保存改进后的网络 torch.save(resnet.state_dict(), './improved-net.pt')
基本上就这些。经过大量训练后,剩余网络现在应能更好地完成其下游监督任务。
来自何恺明的<a href="https://arxiv.org/abs/2011.10566">新论文</a>表明,BYOL甚至不需要目标编码器是线上编码器的指数移动平均。我决定内置此选项,这样你可以通过将use_momentum标志设置为False轻松使用该变体进行训练。如果你采用此方法,则不再需要调用update_moving_average,如下例所示。
import torch from byol_pytorch import BYOL from torchvision import models resnet = models.resnet50(pretrained=True) learner = BYOL( resnet, image_size = 256, hidden_layer = 'avgpool', use_momentum = False # 关闭目标编码器的动量 ) opt = torch.optim.Adam(learner.parameters(), lr=3e-4) def sample_unlabelled_images(): return torch.randn(20, 3, 256, 256) for _ in range(100): images = sample_unlabelled_images() loss = learner(images) opt.zero_grad() loss.backward() opt.step() # 保存改进后的网络 torch.save(resnet.state_dict(), './improved-net.pt')
虽然超参数已经设置为论文中找到的最佳值,但你可以使用基础包装类的额外关键字参数来更改它们。
learner = BYOL( resnet, image_size = 256, hidden_layer = 'avgpool', projection_size = 256, # 投影大小 projection_hidden_size = 4096, # 投影和预测的MLP的隐藏维度 moving_average_decay = 0.99 # 目标编码器的移动平均衰减因子,已设置为论文推荐值 )
默认情况下,此库将使用来自SimCLR论文的增强(BYOL论文中也使用了)。但是,如果你想指定自己的增强管道,可以简单地通过augment_fn关键字传递你自己的自定义增强函数。
augment_fn = nn.Sequential( kornia.augmentation.RandomHorizontalFlip() ) learner = BYOL( resnet, image_size = 256, hidden_layer = -2, augment_fn = augment_fn )
在论文中,他们似乎保证其中一个增强的高斯模糊概率比另一个高。你也可以根据自己的喜好进行调整。
augment_fn = nn.Sequential( kornia.augmentation.RandomHorizontalFlip() ) augment_fn2 = nn.Sequential( kornia.augmentation.RandomHorizontalFlip(), kornia.filters.GaussianBlur2d((3, 3), (1.5, 1.5)) ) learner = BYOL( resnet, image_size = 256, hidden_layer = -2, augment_fn = augment_fn, augment_fn2 = augment_fn2, )
要获取嵌入或投影,你只需将return_embeddings = True标志传递给BYOL学习实例
import torch from byol_pytorch import BYOL from torchvision import models resnet = models.resnet50(pretrained=True) learner = BYOL( resnet, image_size = 256, hidden_layer = 'avgpool' ) imgs = torch.randn(2, 3, 256, 256) projection, embedding = learner(imgs, return_embedding = True)
该仓库现在提供了使用<a href="https://huggingface.co/docs/accelerate/index">🤗 Huggingface Accelerate</a>进行分布式训练的功能。你只需将你自己的Dataset传递给导入的BYOLTrainer
首先使用accelerate CLI设置分布式训练的配置
$ accelerate config
然后按如下所示制作你的训练脚本,比如在./train.py中
from torchvision import models from byol_pytorch import ( BYOL, BYOLTrainer, MockDataset ) resnet = models.resnet50(pretrained = True) dataset = MockDataset(256, 10000) trainer = BYOLTrainer( resnet, dataset = dataset, image_size = 256, hidden_layer = 'avgpool', learning_rate = 3e-4, num_train_steps = 100_000, batch_size = 16, checkpoint_every = 1000 # 改进后的模型将定期保存到./checkpoints文件夹 ) trainer()
然后再次使用accelerate CLI启动脚本
$ accelerate launch ./train.py
如果你的下游任务涉及分割,请查看以下仓库,该仓库将BYOL扩展到“像素”级学习。
https://github.com/lucidrains/pixel-level-contrastive-learning
@misc{grill2020bootstrap, title = {Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning}, author = {Jean-Bastien Grill and Florian Strub and Florent Altché and Corentin Tallec and Pierre H. Richemond and Elena Buchatskaya and Carl Doersch and Bernardo Avila Pires and Zhaohan Daniel Guo and Mohammad Gheshlaghi Azar and Bilal Piot and Koray Kavukcuoglu and Rémi Munos and Michal Valko}, year = {2020}, eprint = {2006.07733}, archivePrefix = {arXiv}, primaryClass = {cs.LG} }
@misc{chen2020exploring, title={Exploring Simple Siamese Representation Learning}, author={Xinlei Chen and Kaiming He}, year={2020}, eprint={2011.10566}, archivePrefix={arXiv}, primaryClass={cs.CV} }


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号