monitors4codegen

monitors4codegen

Monitor-Guided Decoding提升代码生成模型性能

Monitor-Guided Decoding (MGD)是一种创新的代码生成方法,利用静态分析指导语言模型解码。该方法无需额外训练即可提高350M至175B参数规模模型生成代码的编译成功率。项目提供多语言静态分析工具multilspy,支持Java、Rust、C#和Python代码分析,并包含数据集、评估脚本和推理结果,便于复现研究成果。

Monitor-Guided Decoding静态分析代码生成Language Server Protocol多语言支持Github开源项目

基于静态分析的代码仓库上下文的监视器引导解码

替代标题:使用监视器通过全局上下文引导代码语言模型

引言

本仓库包含了发表在NeurIPS 2023会议上的论文"基于静态分析的代码仓库上下文的监视器引导解码"(arXiv版本:"使用监视器通过全局上下文引导代码语言模型")的官方代码和数据。该工作引入了监视器引导解码(MGD)用于代码生成语言模型,其中监视器利用静态分析来引导解码过程。

仓库内容

  1. 数据集: PragmaticCode和DotPrompts
  2. 评估脚本: 用于评估语言模型的脚本,接收DotPrompts示例的推理结果(模型生成的代码)作为输入,并生成论文中报告的指标的score@k分数:编译率(CR)、下一个标识符匹配(NIM)、标识符序列匹配(ISM)和前缀匹配(PM)。
  3. DotPrompts的推理结果: 论文中报告的各种模型配置在DotPrompts示例上生成的代码。通过对提供的推理结果运行评估脚本,可以重现论文中报告的图表。
  4. multilspy: 一个跨平台库,旨在简化创建语言服务器客户端的过程,以查询和获取各种通过语言服务器协议通信的语言服务器的静态分析结果。multilspy旨在作为一个库,方便地查询各种语言服务器,而无需担心设置配置和实现语言服务器协议的客户端。multilspy目前支持运行Java、Rust、C#和Python的语言服务器,我们希望在社区的帮助下扩展这个列表。
  5. 监视器引导解码: 实现了论文中报告的各种监视不同属性的监视器(例如:监视类型有效的标识符解引用、监视方法调用参数数量的正确性、监视方法调用序列的类型状态有效性等),涵盖3种编程语言。

multilspy库现已迁移到microsoft/multilspy

监视器引导解码:动机示例

例如,考虑下图中要完成的部分代码。要完成这段代码,语言模型必须生成与ServerNode.Builder.newServerNode()返回的对象类型一致的标识符。newServerNode方法及其返回类型ServerNode.Builder类在另一个文件中定义。如果语言模型没有关于ServerNode.Builder类型的信息,就会产生幻觉,如text-davinci-003和SantaCoder模型的示例生成所示。完成的代码使用了hostport标识符,这些标识符在ServerNode.Builder类型中不存在。因此,生成的代码会导致"找不到符号"的编译错误。

MGD使用静态分析来引导语言模型的解码,以生成遵循特定属性的代码。在示例中,MGD用于监视生成具有类型正确解引用的代码,使用相同提示的SantaCoder模型能够生成正确的代码完成,该代码可以编译并与地面真值匹配。

正如论文中报告的,我们观察到MGD可以将各种规模(350M-175B)的语言模型生成的代码的编译率提高19-25%,而无需任何训练/微调。此外,它还提高了从标记级到方法级代码完成的所有粒度的地面真值匹配。

1. 数据集

数据集统计

PragmaticCode中的仓库数量100
DotPrompts中的方法数量1420
DotPrompts中的示例数量10538

PragmaticCode

PragmaticCode是一个真实世界开源Java项目的数据集,包括它们的开发环境和依赖项(通过各自的构建系统)。作者试图确保PragmaticCode中的所有仓库都是在确定的CodeGen、SantaCoder和text-davinci-003系列模型的训练数据集截止日期(2022年3月31日)之后才公开发布的,这些模型用于评估MGD。

完整的数据集,包括仓库zip文件,可在我们的Zenodo数据集发布中获得:https://zenodo.org/records/10072088。构成PragmaticCode的仓库列表及其各自的许可证可在datasets/PragmaticCode/repos.csv中找到。每个仓库推理所需的文件内容可在datasets/PragmaticCode/fileContentsByRepo.json中找到。

DotPrompts

DotPrompts是从PragmaticCode派生的一组示例,每个示例包含一个解引用位置的提示(Java中包含"."运算符的代码位置)。DotPrompts可用于基准测试代码语言模型利用仓库级上下文生成方法级完成任务代码的能力。模型的任务是完成一个部分编写的Java方法,利用PragmaticCode提供的完整仓库。由于PragmaticCode中的所有仓库都是可构建的,DotPrompts(源自PragmaticCode)支持编译率作为生成代码评估的指标,除了标准的地面真值匹配指标,如下一个标识符匹配、标识符序列匹配和前缀匹配。

上面的动机示例中描述的场景是DotPrompts中的一个示例。

DotPrompts中示例的完整描述是一个元组 - (repo, classFileName, methodStartIdx, methodStopIdx, dot_idx)。数据集可在datasets/DotPrompts/dataset.csv中获得。

2. 评估脚本

环境设置

我们使用 requirements.txt 中列出的 Python 包。我们的实验使用 Python 3.10。建议在独立的虚拟环境中安装相同的版本及其依赖项。使用 venv 创建虚拟环境:

python3 -m venv venv_monitors4codegen source venv_monitors4codegen/bin/activate

或使用 conda:

conda create -n monitors4codegen python=3.10
conda activate monitors4codegen

有关创建 Python 虚拟环境的更多详细信息和说明,可以在官方文档中找到。此外,我们还建议用户使用 Miniconda,作为上述创建虚拟环境步骤的替代方案。

要安装运行评估所需的依赖项,如下文所述:

pip3 install -r requirements.txt

运行评估脚本

评估脚本可以按以下方式运行:

python3 eval_results.py <推理结果的 csv 文件路径> <PragmaticCode 文件内容的 json 文件路径> <输出目录路径>

上述命令将创建一个目录 <输出目录路径>,其中包含论文中报告的所有图表以及额外详细信息。该命令还会在输出目录中生成一个名为 Report.md 的报告,将生成的图表与论文中的各个部分关联起来。

为确保环境设置正确,请运行以下命令,该命令在样本数据(包含在 inference_results/dotprompts_results_sample.csv 中)上运行评估脚本。如果命令失败,表示环境设置出错,作者请您kindly报告该问题。

python3 evaluation_scripts/eval_results.py inference_results/dotprompts_results_sample.csv datasets/PragmaticCode/fileContentsByRepo.json results_sample/

推理结果 csv 文件格式说明

评估脚本输入的推理结果 csv 文件中预期列的说明:

  • repo:测试用例来源的仓库名称
  • classFileName:包含测试用例提示位置的文件的相对路径
  • methodStartIdx:方法起始 '{' 的字符串索引
  • methodStopIdx:方法结束 '}' 的字符串索引
  • dot_idx:作为解引用提示点的 '.' 的字符串索引
  • configuration:用于生成给定代码样本的配置标识。值来自:['SC-classExprTypes', 'CG-6B', 'SC-FIM-classExprTypes', 'SC-RLPG-MGD', 'SC-MGD', 'SC-FIM-classExprTypes-MGD', 'CG-2B', 'SC', 'CG-2B-MGD', 'CG-350M-classExprTypes-MGD', 'SC-FIM', 'TD-3', 'CG-350M-MGD', 'SC-FIM-MGD', 'SC-RLPG', 'CG-350M', 'CG-350M-classExprTypes', 'SC-classExprTypes-MGD', 'CG-6B-MGD', 'TD-3-MGD']
  • temperature:用于采样的温度。值来自:[0.8, 0.6, 0.4, 0.2]
  • model:用于采样的模型名称。值来自:['Salesforce/codegen-6B-multi', 'bigcode/santacoder', 'Salesforce/codegen-2B-multi', 'Salesforce/codegen-350M-multi', 'text-davinci-003']
  • context:使用的解码策略。值来自:['autoregressive', 'fim']
  • prefix:使用的提示策略。值来自:['classExprTypes', 'none', 'rlpg']
  • rlpg_best_rule_name:用于创建 RLPG 提示的规则名称(如果用于相应的测试用例)。值来自:[nan, 'in_file#lines#0.25', 'in_file#lines#0.5', 'in_file#lines#0.75', 'import_file#method_names#0.5']
  • output:模型生成的输出
  • compilationSucceeded:在完整仓库上下文中编译生成的方法的结果。成功为 1,否则为 0。值来自:[1, 0]

3. DotPrompts 上的推理结果

我们提供了论文中报告的所有模型配置在 DotPrompts 的每个示例上生成的所有推理(生成的代码)。这包括 18 种不同模型配置(涵盖参数规模、提示模板、FIM 上下文的使用等)对 DotPrompts 中每个示例的 6 次独立采样生成。

按照上述格式生成的样本及其编译状态可在 inference_results/dotprompts_results.csv 中获取。该文件使用 git lfs 存储。如果克隆此仓库后本地无法获取该文件,请查看 git lfs 网站 了解设置说明,并在 git lfs 设置后再次克隆仓库。

文件中的每一行都包含几个多行字符串单元格,因此,在使用 Microsoft Office Excel 等工具查看时,请启用"自动换行"以便查看完整内容。

要在推理结果上运行评估脚本,以重现论文中报告的图表,请运行:

python3 evaluation_scripts/eval_results.py inference_results/dotprompts_results.csv datasets/PragmaticCode/fileContentsByRepo.json results/

上述命令会创建一个目录 results(已包含在仓库中),其中包含论文中提供的所有图表以及额外详细信息。该命令还会在输出目录中生成一个报告,将生成的图表与论文中的各个部分关联起来。对于上述命令,报告生成在 results/Report.md

4. multilspy

multilspy 库现已迁移至 microsoft/multilspy multilspy是一个跨平台库,我们构建它用于以统一和简便的方式设置和与各种语言服务器交互。语言服务器是对源代码执行各种静态分析并通过语言服务器协议(LSP)提供有用信息的工具,如类型导向的代码补全建议、符号定义位置、符号引用等。multilspy旨在简化使用语言服务器的过程,它抽象了语言服务器的设置、执行特定语言的配置以及通过基于json-rpc的协议与服务器通信的处理,同时向用户提供简单的接口。

由于LSP与语言无关,multilspy可以通过通用接口提供不同语言代码的静态分析结果。multilspy可以轻松扩展到任何有语言服务器的语言,目前支持Java、Rust、C#和Python,我们计划支持更多来自语言服务器实现列表的语言服务器。

multilspy可以提供的一些分析结果包括:

  • 查找函数或类的定义
  • 查找函数的调用者或类的实例化
  • 提供基于类型的解引用补全
  • 获取悬停在符号上时显示的信息,如方法签名
  • 获取给定文件中定义的所有符号的列表/树,包括类、方法等符号类型
  • 请创建问题/PR以添加上面未列出的任何其他LSP请求

安装

要使用pip安装multilspy,请执行以下命令:

pip install https://github.com/microsoft/multilspy/archive/main.zip

使用

使用示例:

from multilspy import SyncLanguageServer from multilspy.multilspy_config import MultilspyConfig from multilspy.multilspy_logger import MultilspyLogger ... config = MultilspyConfig.from_dict({"code_language": "java"}) # 还支持"python"、"rust"、"csharp" logger = MultilspyLogger() lsp = SyncLanguageServer.create(config, logger, "/abs/path/to/project/root/") with lsp.start_server(): result = lsp.request_definition( "relative/path/to/code_file.java", # 发出请求的位置的文件名 163, # 请求符号的行号 4 # 请求符号的列号 ) result2 = lsp.request_completions( ... ) result3 = lsp.request_references( ... ) result4 = lsp.request_document_symbols( ... ) result5 = lsp.request_hover( ... ) ...

multilspy还提供了一个基于asyncio的API,可以在异步上下文中使用。使用示例(asyncio):

from multilspy import LanguageServer ... lsp = LanguageServer.create(...) async with lsp.start_server(): result = await lsp.request_definition( ... ) ...

文件microsoft/multilspy - src/multilspy/language_server.py提供了multilspy API。microsoft/multilspy - tests/multilspy/下的几个multilspy测试提供了详细的multilspy使用示例。可以通过运行以下命令执行这些测试:

pytest tests/multilspy

5. 监控引导解码

在监控引导解码框架下,监控器使用multilspy作为LSP客户端实例化,并提供maskgen来引导LM解码。监控器接口在文件src/monitors4codegen/monitor_guided_decoding/monitor.py中定义为Monitor类。该接口由支持不同属性的各种监控器实现,如有效标识符解引用、有效参数数量、有效类型状态方法调用等。

使用HuggingFace模型的MGD

src/monitors4codegen/monitor_guided_decoding/hf_gen.py提供了MGDLogitsProcessor类,可以与任何HuggingFace语言模型一起使用,作为LogitsProcessor来使用MGD引导LM。使用SantaCoder模型的示例可在tests/monitor_guided_decoding/test_dereferences_monitor_java.py中找到。

使用OpenAI模型的MGD

src/monitors4codegen/monitor_guided_decoding/openai_gen.py提供了openai_mgd方法,它接受提示和Monitor作为输入,并返回使用OpenAI模型的MGD引导生成。

监控器

解引用监控器

src/monitors4codegen/monitor_guided_decoding/monitors/dereferences_monitor.py提供了解引用监控器的Monitor类实例化。它可以用来引导LM生成有效的标识符解引用。解引用监控器的单元测试位于tests/monitor_guided_decoding/test_dereferences_monitor_java.py,其中还提供了解引用监控器的使用示例。

监控函数调用的有效参数数量

src/monitors4codegen/monitor_guided_decoding/monitors/numargs_monitor.py 提供了numargs_monitor的Monitor类实例化。它可以用来指导语言模型生成正确数量的函数调用参数。单元测试(同时也提供了使用示例)位于 tests/monitor_guided_decoding/test_numargs_monitor_java.py

监控类型状态规范

类型状态分析用于确保对象的方法按照API契约提供的顺序约束被正确调用。Rust的类型状态监控器使用示例可在单元测试文件 tests/monitor_guided_decoding/test_typestate_monitor_rust.py 中找到。

Switch-Enum 监控器

src/monitors4codegen/monitor_guided_decoding/monitors/switch_enum_monitor.py 提供了用于生成C#中有效命名枚举常量的Monitor实例化。Switch-enum监控器的单元测试位于 tests/monitor_guided_decoding/test_switchenum_monitor_csharp.py,其中也提供了switch-enum监控器的使用示例。

类实例化监控器

src/monitors4codegen/monitor_guided_decoding/monitors/class_instantiation_monitor.py 提供了用于在Java代码库中生成有效类实例化(跟随'new ')的Monitor实例化。类实例化监控器的单元测试(提供了使用示例)位于 tests/monitor_guided_decoding/test_classinstantiation_monitor_java.py

联合监控

可以同时使用多个监控器来指导语言模型遵守多个属性。使用两个监控器联合的示例演示位于 tests/monitor_guided_decoding/test_joint_monitors.py

常见问题解答(FAQ)

执行MGD测试时出现asyncio相关的运行时错误

如果你遇到以下错误:

RuntimeError: Task <Task pending name='Task-2' coro=<_AsyncGeneratorContextManager.__aenter__() running at
    python3.8/contextlib.py:171> cb=[_chain_future.<locals>._call_set_state() at
    python3.8/asyncio/futures.py:367]> got Future <Future pending> attached to a different loop python3.8/asyncio/locks.py:309: RuntimeError

请确保你使用Python >=3.10创建了一个新环境。更多详情,请查看StackOverflow讨论

贡献

本项目欢迎贡献和建议。大多数贡献需要你同意一份贡献者许可协议(CLA),声明你有权利,并且实际上授予我们使用你贡献的权利。详情请访问 https://cla.opensource.microsoft.com

当你提交拉取请求时,CLA机器人会自动确定你是否需要提供CLA,并适当地修饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。你只需在所有使用我们CLA的仓库中执行一次这个操作。

本项目已采用Microsoft开源行为准则。 更多信息请参见行为准则常见问题解答或联系 opencode@microsoft.com 获取任何其他问题或意见。

商标

本项目可能包含项目、产品或服务的商标或标识。Microsoft 商标或标识的授权使用必须遵循并符合 Microsoft的商标和品牌指南。 在本项目的修改版本中使用Microsoft商标或标识不得造成混淆或暗示Microsoft赞助。 任何第三方商标或标识的使用都要遵守这些第三方的政策。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多