HEBO

HEBO

华为开源贝叶斯优化与强化学习研究框架

HEBO是华为诺亚方舟实验室开发的开源研究框架,聚焦贝叶斯优化和强化学习领域。该框架包含HEBO、MCBO、NAP等多个前沿项目,涉及高维优化、元学习、组合优化等研究方向。HEBO提供创新算法和基准测试,旨在推动相关技术发展。研究人员可利用此框架开发评估新算法,解决实际应用中的复杂优化问题。

贝叶斯优化强化学习机器学习人工智能Huawei Noah's Ark LabGithub开源项目

贝叶斯优化与强化学习研究

本目录包含华为诺亚方舟实验室开发的贝叶斯优化和强化学习工作的官方实现。

每个项目的README文件中提供了更多说明。

贝叶斯优化研究

HEBO

<img src="https://yellow-cdn.veclightyear.com/835a84d5/bd58f59b-3714-4825-b2b2-70f1ba01a2e2.png" alt="drawing" width="400"/>

由华为诺亚方舟决策推理实验室开发的贝叶斯优化库。NeurIPS 2020黑盒优化挑战赛<strong>获胜提交作品</strong>

MCBO

<p float="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/8b07fde8-93af-468f-af58-e7eba2b31020.PNG" width="400"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/8122bd4f-0f5d-43e9-a77b-7bc2dca8ce4e.png" width="400"/> </p>

与论文组合和混合变量贝叶斯优化的框架和基准相关的代码库,该论文被NeurIPS (2023)接收。

摘要

本文提出了一个用于混合变量和组合贝叶斯优化(MCBO)的模块化框架,以解决该领域缺乏系统性基准测试和标准化评估的问题。当前的MCBO论文通常引入非多样化或非标准的基准来评估其方法,阻碍了对不同MCBO原语及其组合的适当评估。此外,针对单一MCBO原语提出解决方案的论文往往忽略了与使用相同方法处理剩余原语的基线进行比较。这种忽视主要是由于涉及的实现开销巨大,导致缺乏受控评估,无法有效展示贡献的优点。为克服这些挑战,我们提出的框架能够轻松组合贝叶斯优化组件,并提供了一系列多样化的合成和真实世界基准任务。利用这种灵活性,我们实现了47种新颖的MCBO算法,并在10个任务上与7种现有MCBO求解器和5种标准黑盒优化算法进行了对比,进行了超过4000次实验。我们的发现揭示了一种优于现有方法的MCBO原语组合,并说明了模型拟合和使用信任区域的重要性。我们的MCBO库在MIT许可下可在https://github.com/huawei-noah/HEBO/tree/master/MCBO获取。

NAP: 基于Transformer神经过程的端到端元贝叶斯优化

regret-all 与论文基于Transformer神经过程的端到端元贝叶斯优化相关的代码库,该论文被NeurIPS (2023)接收。

摘要

元贝叶斯优化(meta-BO)旨在通过利用相关任务的数据来提高贝叶斯优化的样本效率。虽然之前的方法成功地独立元学习了替代模型或获取函数,但联合训练这两个组件仍然是一个开放的挑战。本文提出了第一个端到端可微分的元BO框架,该框架将神经过程推广到通过transformer架构学习获取函数。我们通过强化学习(RL)实现这个端到端框架,以解决缺乏标记获取数据的问题。早期,我们注意到从头开始使用RL训练基于transformer的神经过程是具有挑战性的,因为监督不足,特别是当奖励稀疏时。我们通过组合分析正式化了这一说法,表明广泛使用的遗憾概念作为奖励信号在轨迹长度上表现出对数稀疏性模式。为解决这个问题,我们通过一个辅助任务增强了RL目标,该任务引导架构的部分学习一个有效的概率模型作为归纳偏置。我们在标准超参数优化任务的实验中证明,我们的方法在各种基线中实现了最先进的遗憾结果,并在混合整数规划调优、抗体设计和电子设计自动化的逻辑综合等真实世界问题中也优于其他方法。

RDUCB: 基于随机分解的高维贝叶斯优化

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/b8a7f76e-b11f-4f27-933b-46618fdacee9.PNG" width="400" /> </p>

与论文随机分解是高维贝叶斯优化所需的全部吗相关的代码库,该论文被ICML (2023)接收。

摘要

学习昂贵评估黑盒函数的分解有望将贝叶斯优化(BO)扩展到高维 问题。然而,这些技术的成功取决于找到准确表示黑盒的适当分解。虽然先前的工作基于数据学习这些分解,但本文研究了与数据无关的分解采样规则。我们发现,基于数据驱动的分解学习器很容易被误导到局部分解,这些分解在整个搜索空间中并不普遍适用。然后,我们正式证明了基于随机树的分解采样器具有优良的理论保证,可以有效地在最大信息增益和黑盒实际功能与其分解提供的代理之间的功能不匹配之间进行权衡。这些结果促使我们开发了随机分解上置信界算法(RDUCB),该算法易于实施 - 几乎是即插即用的 - 并且令人惊讶地在一系列全面的基准测试中比之前的最先进技术取得了显著的经验性收益。我们还通过将我们的方法与HEBO集成,证实了我们建模组件的即插即用特性,在Bayesmark最高维度的任务中显示出改进的实际收益。

[AntBO:使用组合贝叶斯优化进行抗体设计]

![AntBO概述]

相关代码库:[AntBO:使用组合贝叶斯优化实现真实世界自动化抗体设计]发表于《细胞报告方法》(2023)。

摘要

抗体是典型的Y形多聚体蛋白,能够进行高度特异性的分子识别。位于抗体可变链尖端的CDRH3区域主导了抗原结合特异性。因此,设计最佳的抗原特异性CDRH3区域是开发治疗性抗体以对抗有害病原体的优先事项。然而,CDRH3序列空间的组合性质使得穷尽和高效地搜索最佳结合序列变得不可能,特别是在实验中。在此,我们提出AntBO:一个组合贝叶斯优化框架,实现CDRH3区域的高效体内设计。理想情况下,抗体应该结合其目标抗原并且不会产生任何有害结果。因此,我们引入了CDRH3可信区域,将搜索限制在具有可行可开发性评分的序列中。为了对AntBO进行基准测试,我们使用Absolut!软件套件作为黑盒预言机,因为它可以以不受约束的方式对设计的抗体的目标特异性和亲和力进行体内评分。在188个抗原上的结果证明了AntBO在设计具有不同生物物理特性的CDRH3区域方面的优势。在不到200个蛋白质设计中,AntBO可以建议抗体序列,其性能优于从690万个实验获得的CDRH3中抽取的最佳结合序列和常用的遗传算法基线。此外,AntBO仅需38个蛋白质设计就能找到非常高亲和力的CDRH3序列,而无需任何领域知识。我们得出结论,AntBO使自动抗体设计方法更接近体外实验的实际可行性。

[BOiLS:用于逻辑综合的贝叶斯优化]

与以下论文相关的代码库:[BOiLS:用于逻辑综合的贝叶斯优化]已被DATE22会议接受。

摘要

在逻辑综合过程中优化电路的质量结果(QoR)是一项艰巨的挑战,需要探索指数级大小的搜索空间。虽然专家设计的操作有助于发现有效的序列,但逻辑电路复杂性的增加更倾向于自动化程序。受机器学习成功的启发,研究人员将深度学习和强化学习应用于逻辑综合。尽管成功,但这些技术存在高样本复杂性,阻碍了广泛采用。为了实现高效和可扩展的解决方案,我们提出BOiLS,这是第一个适应现代贝叶斯优化来导航综合操作空间的算法。BOiLS不需要人为干预,通过新颖的高斯过程核和信任区域约束获取,有效地权衡了探索与利用。在EPFL基准测试的一系列实验中,我们证明了BOiLS在样本效率和QoR值方面相比最先进技术的卓越性能。

[T-LBO:在由度量学习塑造的潜在空间中进行BO]

与以下论文相关的代码库:[使用变分自编码器和深度度量学习进行高维贝叶斯优化]

摘要

我们引入了一种基于深度度量学习的方法,使用变分自编码器(VAEs)在高维、结构化输入空间上执行贝叶斯优化。通过扩展监督深度度量学习的思想,我们解决了高维VAE贝叶斯优化中一个长期存在的问题,即如何作为归纳偏置强制实现判别性潜在空间。重要的是,我们仅使用相对于先前工作1%的可用标记数据就实现了这种归纳偏置,突出了我们方法的样本效率。作为理论贡献,我们提供了我们方法的消失遗憾证明。作为实证贡献,我们在真实世界的高维黑盒优化问题上展示了最先进的结果,包括性质引导的分子生成。我们希望本文提出的结果能够作为实现有效高维贝叶斯优化的指导原则。

[使用组合优化器进行贝叶斯优化]

与以下论文相关的代码库 至:我们在贝叶斯优化中是否忽视了复合优化器? 已被JMLR接受。

摘要

贝叶斯优化提供了一种样本高效的全局优化方法。在这个框架内,一个关键的影响性能的子程序是收购函数的最大化,这项任务因收购函数往往是非凸的而变得复杂,因此不易优化。在本文中,我们对最大化收购函数的方法进行了全面的实证研究。此外,通过推导出流行收购函数的新颖但在数学上等价的复合形式,我们将最大化任务重塑为复合优化问题,从而使我们能够受益于这一领域广泛的文献。我们通过3958个独立实验(包括合成优化任务和Bayesmark任务)突出了复合方法在收购函数最大化方面的实证优势。鉴于收购函数最大化子程序的通用性,我们认为采用复合优化器有可能在目前应用贝叶斯优化的所有领域产生性能提升。

AIRBO

<div style="text-align:center"><img src="https://raw.githubusercontent.com/huawei-noah/HEBO/master/AIRBO/figures\opt_performance.png" alt="drawing" width="600"/>

相关代码库:面向任意不确定输入的高效鲁棒贝叶斯优化

摘要

贝叶斯优化(BO)是一种样本高效的优化算法,广泛应用于各种场景。在一些具有挑战性的BO任务中,由于优化过程中不可避免的随机性(如加工误差、执行噪声或上下文变异性),输入存在不确定性。这种不确定性使得输入在评估前偏离预期值,导致最终结果出现显著的性能波动。在本文中,我们提出了一种新颖的鲁棒贝叶斯优化算法AIRBO,它能有效识别在任意输入不确定性下表现始终良好的鲁棒最优解。我们的方法通过赋予高斯过程最大平均差异(MMD)能力,直接对任意分布的不确定输入进行建模,并通过Nystrom近似进一步加速后验推理。我们在MMD估计误差下建立了严格的理论遗憾界,并在合成函数和实际问题上进行了大量实验,证明我们的方法能够处理各种输入不确定性,并达到最先进的性能。

强化学习研究

用局部指导增强强化学习智能体

相关代码库:论文:用局部指导增强强化学习智能体

摘要

本文解决了将局部指导策略整合到强化学习智能体中的问题。为此,我们展示了如何调整现有算法以适应这种设置,然后引入了一种基于噪声策略切换程序的新算法。这种方法建立在适当的近似策略评估(APE)方案的基础上,提供了一种扰动,小心地引导局部指导朝更好的行动发展。我们在一组经典的强化学习问题上评估了我们的方法,包括安全关键系统,其中智能体不能进入某些区域,否则可能触发灾难性后果。在所有提出的环境中,我们的智能体都证明能有效利用这些策略来提高任何基于APE的强化学习算法的性能,尤其是在学习的初始阶段。

Sauté RL和Simmer RL:使用安全状态增强的安全强化学习

相关代码库:Sauté RL:使用状态增强实现几乎必然安全的RL使用安全状态增强来增强安全探索

Sauté RL:使用状态增强实现几乎必然安全的RL(ICML 2022)摘要

在将强化学习(RL)应用于实际应用时,几乎必然(或概率为1)满足安全约束可能至关重要。例如,飞机着陆和起飞理想情况下应该以概率1发生。我们通过引入安全增强(Saute)马尔可夫决策过程(MDP)来解决这个问题,其中安全约束通过增强到状态空间并重塑目标来消除。我们证明Saute MDP满足贝尔曼方程,使我们更接近解决几乎必然满足约束的安全RL问题。我们认为Saute MDP允许从不同角度看待安全RL问题,从而实现新功能。例如,我们的方法具有即插即用的特性,即任何RL算法都可以被"炒制"。此外,状态增强允许策略在安全约束之间进行泛化。我们最后表明,当约束满足非常重要时,Saute RL算法可以优于最先进的同类算法。

安全状态增强对安全探索的影响(NeurIPS 2022)摘要

安全探索是无模型强化学习(RL)中一个具有挑战性和重要性的问题。通常安全成本是稀疏且未知的,这不可避免地导致约束违反 - 这种现象在安全关键应用中理想情况下应该避免。我们通过用安全状态增强状态空间来解决这个问题,当且仅当满足约束时,该状态为非负。这个状态的值也作为违反约束的距离,而其初始值表示可用的安全预算。这个想法使我们能够推导出在训练期间调度安全预算的策略。我们称我们的方法为Simmer(用于RL的安全策略改进),以反映这些调度的谨慎性质。我们将这个想法应用于两个安全RL问题:对平均成本施加约束的RL,以及对概率为1的成本施加约束的RL。我们的实验表明,对安全算法进行simmer可以改善这两种设置下训练期间的安全性。我们进一步表明,Simmer可以稳定训练并提高具有平均约束的安全RL的性能。

基于悲观调制动态信念的离线强化学习模型

相关代码:基于悲观调制动态信念的离线强化学习模型 已被**NeurIPS (2022)**会议接受。

摘要

基于模型的离线强化学习(RL)旨在通过利用先前收集的静态数据集和动态模型来找到高回报策略。虽然通过重复使用静态数据集学习,但如果得到适当利用,动态模型的泛化能力有望促进策略学习。为此,一些工作提出 量化预测动态的不确定性,并明确地将其应用于惩罚奖励。然而,由于动态和奖励在马尔可夫决策过程的背景下本质上是不同的因素,通过奖励惩罚来表征动态不确定性的影响可能会在模型利用和风险规避之间造成意外的权衡。在本研究中,我们选择维持一个动态的信念分布,并通过从该信念中进行有偏采样来评估和优化策略。这种倾向于悲观的有偏采样程序是基于离线强化学习的交替马尔可夫博弈公式推导而来的。我们正式证明,这种有偏采样自然地引导出一个更新的动态信念,其中包含策略相关的重新加权因子,称为"悲观调节动态信念"。为了改进策略,我们设计了一种迭代正则化策略优化算法用于博弈,在特定条件下保证单调改进。为了使其具有实用性,我们进一步设计了一种离线强化学习算法来近似寻找解决方案。实验结果表明,所提出的方法在广泛的基准任务中达到了最先进的性能。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多