Awesome-Code-LLM

Awesome-Code-LLM

代码生成领域的前沿研究与顶级模型概览

Awesome-Code-LLM汇集了代码生成领域的最新研究成果和资源。项目包含主要模型的性能排行榜、评估工具包介绍,以及按预训练、指令微调、反馈对齐和提示工程等主题整理的相关论文。这一资源库为研究人员和开发者提供了深入了解代码生成大语言模型的全面参考。

代码生成大语言模型人工智能评估基准预训练Github开源项目
<div align="center"> <h1>👨‍💻 超赞代码大语言模型</h1> <a href="https://awesome.re"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0806eb5c-9350-46a5-9ee7-fbb20731433b.svg" alt="超赞"> </a> <a href="https://img.shields.io/badge/PRs-Welcome-red"> <img src="https://img.shields.io/badge/PRs-Welcome-red" alt="欢迎提交PR"> </a> <a href="https://img.shields.io/github/last-commit/huybery/Awesome-Code-LLM?color=green"> <img src="https://img.shields.io/github/last-commit/huybery/Awesome-Code-LLM?color=green" alt="最后提交"> </a> </div>

🧵 目录

🚀 排行榜

<p align="center"> <b>中央排行榜</b>(按HumanEval Pass@1排序) </p> | 模型 | 参数量 | HumanEval | MBPP | HF | 来源 | | ------------------------ | ------ | --------- | ---- | ------------------------------------------------------------- | ------------------------------------------------------- | | GPT-4 + Reflexion | 未知 | 91.0 | 77.1 | | [论文](https://arxiv.org/abs/2303.11366) | | GPT-4 (最新版) | 未知 | 84.1 | 80.0 | | [GitHub](https://github.com/deepseek-ai/DeepSeek-Coder) | | CodeQwen1.5-7B-Chat | 7B | 83.5 | 70.6 | [检查点](https://huggingface.co/Qwen/CodeQwen1.5-7B-Chat) | [GitHub](https://github.com/QwenLM/CodeQwen1.5) | | DeepSeek-Coder-Instruct | 33B | 79.3 | 70.0 | [检查点](https://hf.co/deepseek-ai/deepseek-coder-33b-instruct) | [GitHub](https://github.com/deepseek-ai/DeepSeek-Coder) | | DeepSeek-Coder-Instruct | 7B | 78.6 | 65.4 | [检查点](https://hf.co/deepseek-ai/deepseek-coder-33b-instruct) | [GitHub](https://github.com/deepseek-ai/DeepSeek-Coder) | | GPT-3.5-Turbo (最新版) | 未知 | 76.2 | 70.8 | | [GitHub](https://github.com/deepseek-ai/DeepSeek-Coder) | | Code-Llama | 34B | 62.2 | 61.2 | | [论文](https://arxiv.org/abs/2308.12950) | | Pangu-Coder2 | 15B | 61.6 | | | [论文](https://arxiv.org/abs/2307.14936) | | WizardCoder-15B | 15B | 57.3 | 51.8 | [检查点](https://hf.co/WizardLM/WizardCoder-15B-V1.0) | [论文](https://arxiv.org/abs/2306.08568) | | CodeQwen1.5-7B | 7B | 51.8 | 61.8 | [检查点](https://huggingface.co/Qwen/CodeQwen1.5-7B) | [GitHub](https://github.com/QwenLM/CodeQwen1.5) | | Code-Davinci-002 | 未知 | 47.0 | | | [论文](https://arxiv.org/abs/2107.03374) | | StarCoder-15B (提示版) | 15B | 40.8 | 49.5 | [检查点](https://hf.co/bigcode/starcoder) | [论文](https://arxiv.org/abs/2305.06161) | | PaLM 2-S | 未知 | 37.6 | 50.0 | | [论文](https://arxiv.org/abs/2204.02311) | | PaLM-Coder-540B | 540B | 36.0 | 47.0 | | [论文](https://arxiv.org/abs/2204.02311) | | InstructCodeT5+ | 16B | 35.0 | | | [论文](https://arxiv.org/abs/2305.07922) | | StarCoder-15B | 15B | 33.6 | 52.7 | [检查点](https://hf.co/bigcode/starcoder) | [论文](https://arxiv.org/abs/2305.06161) | | Code-Cushman-001 | 未知 | 33.5 | 45.9 | | [论文](https://arxiv.org/abs/2107.03374) | | CodeT5+ | 16B | 30.9 | | | [论文](https://arxiv.org/abs/2305.07922) | | LLaMA2-70B | 70B | 29.9 | | [检查点](https://hf.co/meta-llama/Llama-2-70b-hf) | [论文](https://arxiv.org/abs/2307.09288) | | CodeGen-16B-Mono | 16B | 29.3 | 35.3 | | [论文](https://arxiv.org/abs/2203.13474) | | PaLM-540B | 540B | 26.2 | 36.8 | | [论文](https://arxiv.org/abs/2204.02311) | | LLaMA-65B | 650亿 | 23.7 | 37.7 | | [论文](https://arxiv.org/abs/2302.13971) | | CodeGeeX | 130亿 | 22.9 | 24.4 | | [论文](https://arxiv.org/abs/2303.17568) | | LLaMA-33B | 330亿 | 21.7 | 30.2 | | [论文](https://arxiv.org/abs/2302.13971) | | CodeGen-16B-Multi | 160亿 | 18.3 | 20.9 | | [论文](https://arxiv.org/abs/2203.13474) | | AlphaCode | 11亿 | 17.1 | | | [论文](https://arxiv.org/abs/2203.07814) | | 排行榜 | 访问链接 | | :----------------------------------: | ----------------------------------------------------------------------------------| | 大型代码模型排行榜 | [[来源](https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard)] | | BIRD | [[来源](https://bird-bench.github.io)] | | CanAiCode 排行榜 | [[来源](https://huggingface.co/spaces/mike-ravkine/can-ai-code-results)] | | 编程语言模型排行榜 | [[来源](https://leaderboard.tabbyml.com)] | | CRUXEval 排行榜 | [[来源](https://crux-eval.github.io/leaderboard.html)] | | EvalPlus | [[来源](https://evalplus.github.io/leaderboard.html)] | | HumanEval.jl | [[来源](https://github.com/01-ai/HumanEval.jl)] | | InfiCoder-Eval | [[来源](https://infi-coder.github.io/inficoder-eval)] | | InterCode | [[来源](https://intercode-benchmark.github.io)] | | 程序合成模型排行榜 | [[来源](https://accubits.com/open-source-program-synthesis-models-leaderboard)] | | Spider | [[来源](https://yale-lily.github.io/spider)] |

💡 评估工具包:

📚 论文

▶️ 预训练

  1. 评估在代码上训练的大型语言模型 预印本

    [论文] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto等人 2021.07

  2. CodeGen:用于多轮程序合成的开放大型代码语言模型 ICLR23

    [论文] Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese, Caiming Xiong. 2022.03

  3. ERNIE-Code:超越以英语为中心的编程语言跨语言预训练 ACL23 (Findings)

    [论文][代码库] Yekun Chai, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, and Hua Wu. 2022.12

  4. SantaCoder:不要追求完美! 预印本

    [论文] Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff等人 2023.01

  5. CodeGeeX:用于代码生成的预训练模型,在HumanEval-X上进行多语言评估 预印本

    [论文] Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang. 2023.03

  6. CodeGen2:训练编程和自然语言大型语言模型的经验教训 ICLR23

    [论文] Erik Nijkamp, Hiroaki Hayashi, Caiming Xiong, Silvio Savarese, Yingbo Zhou. 2023.05

  7. StarCoder:愿源代码与你同在! 预印本

    [论文] Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou等人 2023.05

  8. CodeT5+:用于代码理解和生成的开放代码大型语言模型 预印本

    [论文] Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi. 2023.05

  9. 教科书就是你所需要的 预印本

    [论文] Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi等人 2023.06

  10. Code Llama:开放代码基础模型 预印本

    [论文] Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat 等人 2023.08

  11. DeepSeek-Coder:当大语言模型遇上编程 -- 代码智能的崛起 预印本

    [论文] 郭大雅, 朱启豪, 杨德建, 谢震达, 董凯, 张文涛, 陈冠廷等人 2024.01

  12. StarCoder 2 和 The Stack v2:新一代 预印本

    [论文] Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang 等人 2024.02

▶️ 指令微调

  1. Code Alpaca:一个遵循指令的代码生成 LLaMA 模型

    [代码库] Sahil Chaudhary 2023

  2. WizardCoder:使用 Evol-Instruct 增强代码大语言模型 预印本

    [论文] 罗子阳, 徐灿, 赵普, 孙庆丰, 耿秀波, 胡文翔, 陶崇阳, 马静, 林庆伟, 蒋大昕 2023.07

  3. OctoPack:代码大语言模型的指令微调 预印本

    [论文][代码库] Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre 2023.08

  4. Magicoder:源代码就是你所需要的全部 预印本

    [论文][代码库] 魏宇翔, 王哲, 刘嘉伟, 丁一峰, 张凌明 2023.12

▶️ 基于反馈的对齐

  1. CodeRL:通过预训练模型和深度强化学习掌握代码生成 NeurIPS22

    [论文] Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi 2022.07

  2. 使用深度强化学习的执行式代码生成 TMLR23

    [论文] Parshin Shojaee, Aneesh Jain, Sindhu Tipirneni, Chandan K. Reddy 2023.01

  3. RLTF:从单元测试反馈中进行强化学习 预印本

    [论文] 刘嘉特, 朱益钦, 肖凯文, 付强, 韩啸, 杨伟, 叶德恒 2023.07

  4. PanGu-Coder2:利用排序反馈提升代码大语言模型 预印本

    [论文] 沈博, 张嘉欣, 陈泰宏, 昝道广, 耿冰, 傅安, 曾沐涵, 于爱伦, 纪继川, 赵敬阳, 郭悦楠, 王千祥 2023.07

▶️ 提示工程

  1. CodeT:使用生成的测试进行代码生成 ICLR23

    [论文] 陈贝, 张凤吉, Anh Nguyen, 昝道广, 林泽琦, 楼建光, 陈伟柱 2022.07

  2. 代码审查员重排序用于代码生成 ICML23

    [论文] 张天翼, 俞涛, Tatsunori B Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I Wang 2022.11

  3. LEVER:学习通过执行验证自然语言到代码的生成 ICML23

    [论文] 倪安松, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, Xi Victoria Lin 2023.02

  4. 教大型语言模型自我调试 预印本

[论文] Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou. 2023.06

  1. 揭秘GPT代码生成的自我修复 预印本

[论文] Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama. 2023.06

  1. SelfEvolve:基于大型语言模型的代码演化框架 预印本

[论文] Shuyang Jiang, Yuhao Wang, Yu Wang. 2023.06

  1. 像人类一样调试:通过逐步验证运行时执行的大型语言模型调试器 ACL24

[论文] Li Zhong, Zilong Wang, Jingbo Shang. 2024.02

▶️ 评估与基准测试

  1. 用APPS测量编码挑战能力 NeurIPS21

命名为APPS

[论文][代码库] Dan Hendrycks, Steven Basart, Saurav Kadavath, Mantas Mazeika, Akul Arora, Ethan Guo, Collin Burns, Samir Puranik, Horace He, Dawn Song, Jacob Steinhardt. 2021.05

  1. 使用大型语言模型进行程序合成 预印本

命名为MBPP

[论文] Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton. 2021.08

  1. DS-1000:自然可靠的数据科学代码生成基准 ICML23

[论文] Yuhang Lai, Chengxi Li, Yiming Wang, Tianyi Zhang, Ruiqi Zhong, Luke Zettlemoyer, Scott Wen-tau Yih, Daniel Fried, Sida Wang, Tao Yu. 2022.11

  1. RepoBench:对仓库级代码自动补全系统进行基准测试 预印本

[论文] Tianyang Liu, Canwen Xu, Julian McAuley. 2023.06

  1. ChatGPT能否取代StackOverflow?大型语言模型代码生成的稳健性和可靠性研究 预印本

[论文] Li Zhong, Zilong Wang. 2023.08

  1. RepoCoder:通过迭代检索和生成实现仓库级代码补全 EMNLP23

[论文] Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen. 2023.10

  1. CrossCodeEval:多样化多语言的跨文件代码补全基准 Neurips23

[论文] Yangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Hantian Ding, Ming Tan, Nihal Jain, Murali Krishna Ramanathan. et al. 2023.11

  1. SWE-bench:语言模型能解决真实世界的GitHub问题吗? ICLR24

[论文] Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan. 2023.10

  1. DevBench:全面的软件开发基准 预印本

[论文][代码库] Bowen Li, Wenhan Wu, Ziwei Tang, Lin Shi, John Yang, Jinyang Li, Shunyu Yao, Chen Qian, Binyuan Hui, Qicheng Zhang, Zhiyin Yu, He Du, Ping Yang, Dahua Lin, Chao Peng, Kai Chen 2024.3

  1. LongCoder:用于代码补全的长程预训练语言模型 ICML23

[论文] Daya Guo, Canwen Xu, Nan Duan, Jian Yin, Julian McAuley. 2023.10

  1. Coeditor:利用上下文变化进行多轮代码自动编辑 预印本 [论文] Jiayi Wei, Greg Durrett, Isil Dillig. 2023年5月

  2. 通过大规模预训练实现代码审查活动自动化 预印本

    [论文] Zhiyu Li, Shuai Lu, Daya Guo, Nan Duan, Shailesh Jannu, Grant Jenks, Deep Majumder, Jared Green, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan. 2022年10月

  3. BioCoder: 使用大型语言模型进行生物信息学代码生成的基准测试 ISMB 2024

    [论文] Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein. 2023年8月

▶️ 在编码过程中使用大型语言模型

  1. Awesome-DevAI: 关于在开发软件时使用大型语言模型的资源列表 Awesome

    [仓库] Ty Dunn, Nate Sesti. 2023年10月

🙌 贡献者

<a href="https://github.com/huybery"><img src="https://avatars.githubusercontent.com/u/13436140?v=4" width="50" /></a> <a href="https://github.com/Yangjiaxi"><img src="https://avatars.githubusercontent.com/u/6203054?v=4" width="50" /></a> <a href="https://github.com/GanjinZero"><img src="https://avatars.githubusercontent.com/u/19466330?v=4" width="50" /></a> <a href="https://github.com/TyDunn"><img src="https://avatars.githubusercontent.com/u/13314504?v=4" width="50" /></a>

这是一个活跃的仓库,欢迎您随时做出贡献!如果您对这个精选列表有任何疑问,请随时联系我 huybery@gmail.com

引用

@software{awesome-code-llm,
  author = {Binyuan Hui},
  title = {An awesome and curated list of best code-LLM for research},
  howpublished = {\url{https://github.com/huybery/Awesome-Code-LLM}},
  year = 2023,
}

致谢

本项目受到 Awesome-LLM 的启发。

Star 历史

Star 历史图表

⬆ 返回目录

编辑推荐精选

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI辅助写作AI工具蛙蛙写作AI写作工具学术助手办公助手营销助手AI助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
下拉加载更多