leetcode-hard-gym

leetcode-hard-gym

用于评估代码生成智能体的LeetCode强化学习环境

leetcode-hard-gym是一个基于OpenAI gym的强化学习环境,连接LeetCode提交服务器,用于评估代码生成智能体。该项目支持多种编程语言,并提供脚本构建未污染的LeetCode困难题目数据集。研究人员可以通过此环境设置、提交代码并获取评估结果,为代码生成研究提供便利工具。项目还包含一个排行榜,展示了不同AI模型在LeetCode困难题目上的表现,如GPT-4和Codex等。环境支持包括Python、Java、JavaScript在内的18种编程语言,为研究人员提供了广泛的评估选择。

Leetcode-Hard Gym强化学习代码生成编程语言环境接口Github开源项目

Leetcode-Hard 训练环境

用于评估代码生成智能体的LeetCode提交服务器的强化学习环境接口。基于OpenAI的gym构建。

支持的语言:

  • c
  • c#
  • java
  • python
  • javascript
  • ruby
  • swift
  • go
  • scala
  • kotlin
  • rust
  • php
  • typescript
  • racket
  • erlang
  • elixir
  • dart
  • mysql

Leetcode Hard(Python)排行榜:首次通过率

  • OpenAI的GPT-4: 10.7 (来源)
  • OpenAI的Codex: 3.6 (来源)
  • OpenAI的GPT-3.5: 0.0 (来源)
  • Reflexion + GPT-4: 15.0 (来源)

设置:

  1. 克隆仓库:
git clone https://github.com/GammaTauAI/leetcode-hard-gym.git && cd leetcode-hard-gym
  1. 创建虚拟环境并安装leetcode_env模块及其依赖:
python -m venv venv source venv/bin/activate python -m pip install -e .
  1. 设置环境变量LEETCODE_SESSION为已登录Leetcode会话的LEETCODE_SESSIONcookie,设置LEETCODE_CSRF_TOKENcsrftoken cookie。这些cookie可以通过浏览器开发者工具或浏览器扩展如EditThisCookie获取。
export LEETCODE_SESSION=... export LEETCODE_CSRF_TOKEN=...

使用示例:

首先编写一些代码:

code = """ class Solution: def twoSum(self, nums, target): l = len(nums) for i in range(l - 1): for j in range(i + 1, l): if nums[i] + nums[j] == target: return [i, j] """

然后我们可以创建一个提交...

from leetcode_env.types import LeetCodeSubmission, ProgrammingLanguage sub = LeetCodeSubmission(code=code, lang=ProgrammingLanguage.PYTHON3, question_slug='two-sum', timeout=5)

...并实例化一个提交环境...

from leetcode_env.environment import LeetCodeEnv env = LeetCodeEnv()

最后,我们可以通过环境执行提交:

status, reward, done, submission_result = env.step(sub) print(status, reward, done, submission_result) # 输出结果(部分内容已省略): # Wrong Answer # False # False # {'status_code': 11, 'lang': 'python3', 'run_success': True, 'status_runtime': 'N/A', 'memory': 14160000, 'question_id': '4', 'elapsed_time': 105, 'compare_result': '00010000000...00000000001000', 'code_output': '1.00000', 'std_output': '', 'last_testcase': '[1,3]\n[2]', 'expected_output': '2.00000', 'task_finish_time': 1680132323596, 'total_correct': 6, 'total_testcases': 2094, 'runtime_percentile': None, 'status_memory': 'N/A', 'memory_percentile': None, 'pretty_lang': 'Python3', 'submission_id': '924506780', 'input_formatted': '[1,3], [2]', 'input': '[1,3]\n[2]', 'status_msg': 'Wrong Answer', 'state': 'SUCCESS'}

注意:此处的比较结果已被缩短,它包含一个布尔值序列,表示每个测试是否通过

LeetcodeHardGym 数据集

提供了一个脚本来构建一组未被污染的免费Leetcode Hard问题,格式类似于HumanEval。它获取数据集,过滤掉依赖类、无返回值和类实现问题,并为指定的编程语言格式化问题。可选地,它可以使用GPT从问题描述中的示例提取测试用例,或从生成的文档字符串中删除这些示例。

使用方法

要构建数据集,必须在当前环境中安装leetcode_env。然后,我们可以从该仓库的leetcode_dataset/目录运行以下命令:

python build.py --langs python3 rust --log_level INFO --output_dir ./build

参数

  • --langs:语言列表。当前选项包括:rust、python3。
  • --log_level:日志级别。选项:DEBUG、INFO、WARNING、ERROR、CRITICAL。默认为INFO。
  • --output_dir:保存构建数据集的目录。默认为./build。
  • --extract_test_cases:如果设置,将使用GPT从问题描述中提取测试用例。
  • --remove_examples:如果设置,将删除示例。不能与--extract_test_cases同时使用。

环境变量

  • LEETCODE_SESSION:必须设置此环境变量才能运行脚本。请参阅设置部分以了解如何获取会话cookie。
  • LEETCODE_CSRF_TOKEN:必须设置此环境变量才能运行脚本。请参阅设置部分以了解如何获取csrf令牌。
  • OPENAI_API_KEY:如果使用--extract_test_cases选项,则需要此环境变量。请参阅OpenAI API文档以了解如何获取API密钥。

依赖

如果使用--extract_test_cases选项,则需要openailangchain库。可以通过以下命令安装:

pip3 install openai langchain termcolor

输出

脚本将在输出目录中为每种指定的语言输出一个.jsonl文件。文件名格式为leetcode-hard-uncontaminated-{lang}.jsonl

引用

这个基准测试在以下论文中被引入:

@misc{shinn2023reflexion, title={Reflexion: Language Agents with Verbal Reinforcement Learning}, author={Noah Shinn and Federico Cassano and Edward Berman and Ashwin Gopinath and Karthik Narasimhan and Shunyu Yao}, year={2023}, eprint={2303.11366}, archivePrefix={arXiv}, primaryClass={cs.AI} }

编辑推荐精选

olmocr

olmocr

一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。

olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。

飞书多维表格

飞书多维表格

飞书多维表格 ×DeepSeek R1 满血版

飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。

CSM

CSM

高质量语音生成模型

CSM 是一个开源的语音生成项目,它提供了一个基于 Llama-3.2-1B 和 CSM-1B 的语音生成模型。该项目支持多语言,可生成多种声音,适用于研究和教育场景。通过使用 CSM,用户可以方便地进行语音合成,同时项目还提供了水印功能,确保生成音频的可追溯性和透明度。

agents-course

agents-course

Hugging Face 的 AI 智能体课程,涵盖多种智能体框架及相关知识

本项目是 Hugging Face 推出的 AI 智能体课程,深入介绍了 AI 智能体的相关概念,如大语言模型、工具使用等。课程包含多个单元,详细讲解了不同的智能体框架,如 smolagents 和 LlamaIndex,提供了丰富的学习资源和实践案例。适合对 AI 智能体感兴趣的开发者和学习者,有助于提升他们在该领域的知识和技能。

RagaAI-Catalyst

RagaAI-Catalyst

用于 AI 项目管理和 API 交互的工具集,助力 AI 项目高效开发与管理。

RagaAI-Catalyst 是一款专注于 AI 领域的强大工具集,为开发者提供了便捷的项目管理、API 交互、令牌管理等功能。支持多 API 密钥上传,能快速创建、列出和管理 AI 项目,还可获取项目用例和指标信息。适用于各类 AI 开发场景,提升开发效率,推动 AI 项目顺利开展。

smolagents

smolagents

一个包含多种工具和文档处理功能,适用于 LLM 使用的项目。

smolagents 是一个功能丰富的项目,提供了如文件格式转换、网页内容读取、语义搜索等多种工具,支持将常见文件类型或网页转换为 Markdown,方便进行文档处理和信息提取,能满足不同场景下的需求,提升工作效率和数据处理能力。

Cursor ID Modifier

Cursor ID Modifier

用于修改 Cursor 配置文件中的标识符,以满足特定需求的工具。

Cursor ID Modifier 是一款功能强大的工具,可助力用户轻松修改 Cursor 配置文件中的各类标识符。它支持多语言,具备自动检测系统语言并提供对应翻译的能力,适用于不同操作系统。该工具在自动化部署和日常使用场景中都表现出色,能有效提高工作效率,解决用户在使用 Cursor 时遇到的配置修改难题。

Janus

Janus

DeepSeek-AI 开发的统一多模态理解和生成模型系列

Janus 是由 DeepSeek-AI 开发的统一多模态理解和生成模型系列,支持图像理解和文本到图像生成等功能。它基于先进的深度学习技术,依赖 torch、transformers 等库构建,可广泛应用于图像识别、智能问答、内容创作等场景,为用户提供高效、准确的多模态交互体验。

Awesome CursorRules

Awesome CursorRules

一个精心整理的 .cursorrules 文件集合,用于提升你的 Cursor AI 体验。

Awesome CursorRules 是一个专注于提供优质 .cursorrules 文件的项目,这些文件可定制 Cursor AI 代码生成规则,满足不同开发者需求。涵盖前端框架、后端技术、移动开发等多领域,能增强代码生成相关性与准确性,提升开发效率与代码一致性,适用于各类开发场景。

AI Hedge Fund

AI Hedge Fund

运用多种投资分析模型和 LLM 技术进行股票交易决策与回测的智能对冲基金项目。

AI Hedge Fund 是一个先进的智能对冲基金项目,集成了基本面分析、情绪分析、风险控制等多方面的投资策略,借助 LLM 技术实现智能决策。该项目提供股票交易信号生成、回测模拟等功能,支持用户根据不同的投资原则进行分析,适用于量化投资、金融研究等场景,有助于提升投资决策的准确性和效率。

下拉加载更多