用于评估代码生成智能体的LeetCode强化学习环境
leetcode-hard-gym是一个基于OpenAI gym的强化学习环境,连接LeetCode提交服务器,用于评估代码生成智能体。该项目支持多种编程语言,并提供脚本构建未污染的LeetCode困难题目数据集。研究人员可以通过此环境设置、提交代码并获取评估结果,为代码生成研究提供便利工具。项目还包含一个排行榜,展示了不同AI模型在LeetCode困难题目上的表现,如GPT-4和Codex等。环境支持包括Python、Java、JavaScript在内的18种编程语言,为研究人员提供了广泛的评估选择。
用于评估代码生成智能体的LeetCode提交服务器的强化学习环境接口。基于OpenAI的gym构建。
支持的语言:
c
c#
java
python
javascript
ruby
swift
go
scala
kotlin
rust
php
typescript
racket
erlang
elixir
dart
mysql
10.7
(来源)3.6
(来源)0.0
(来源)15.0
(来源)git clone https://github.com/GammaTauAI/leetcode-hard-gym.git && cd leetcode-hard-gym
leetcode_env
模块及其依赖:python -m venv venv source venv/bin/activate python -m pip install -e .
LEETCODE_SESSION
为已登录Leetcode会话的LEETCODE_SESSION
cookie,设置LEETCODE_CSRF_TOKEN
为csrftoken
cookie。这些cookie可以通过浏览器开发者工具或浏览器扩展如EditThisCookie获取。export LEETCODE_SESSION=... export LEETCODE_CSRF_TOKEN=...
首先编写一些代码:
code = """ class Solution: def twoSum(self, nums, target): l = len(nums) for i in range(l - 1): for j in range(i + 1, l): if nums[i] + nums[j] == target: return [i, j] """
然后我们可以创建一个提交...
from leetcode_env.types import LeetCodeSubmission, ProgrammingLanguage sub = LeetCodeSubmission(code=code, lang=ProgrammingLanguage.PYTHON3, question_slug='two-sum', timeout=5)
...并实例化一个提交环境...
from leetcode_env.environment import LeetCodeEnv env = LeetCodeEnv()
最后,我们可以通过环境执行提交:
status, reward, done, submission_result = env.step(sub) print(status, reward, done, submission_result) # 输出结果(部分内容已省略): # Wrong Answer # False # False # {'status_code': 11, 'lang': 'python3', 'run_success': True, 'status_runtime': 'N/A', 'memory': 14160000, 'question_id': '4', 'elapsed_time': 105, 'compare_result': '00010000000...00000000001000', 'code_output': '1.00000', 'std_output': '', 'last_testcase': '[1,3]\n[2]', 'expected_output': '2.00000', 'task_finish_time': 1680132323596, 'total_correct': 6, 'total_testcases': 2094, 'runtime_percentile': None, 'status_memory': 'N/A', 'memory_percentile': None, 'pretty_lang': 'Python3', 'submission_id': '924506780', 'input_formatted': '[1,3], [2]', 'input': '[1,3]\n[2]', 'status_msg': 'Wrong Answer', 'state': 'SUCCESS'}
注意:此处的比较结果已被缩短,它包含一个布尔值序列,表示每个测试是否通过
提供了一个脚本来构建一组未被污染的免费Leetcode Hard问题,格式类似于HumanEval。它获取数据集,过滤掉依赖类、无返回值和类实现问题,并为指定的编程语言格式化问题。可选地,它可以使用GPT从问题描述中的示例提取测试用例,或从生成的文档字符串中删除这些示例。
要构建数据集,必须在当前环境中安装leetcode_env
。然后,我们可以从该仓库的leetcode_dataset/
目录运行以下命令:
python build.py --langs python3 rust --log_level INFO --output_dir ./build
--langs
:语言列表。当前选项包括:rust、python3。--log_level
:日志级别。选项:DEBUG、INFO、WARNING、ERROR、CRITICAL。默认为INFO。--output_dir
:保存构建数据集的目录。默认为./build。--extract_test_cases
:如果设置,将使用GPT从问题描述中提取测试用例。--remove_examples
:如果设置,将删除示例。不能与--extract_test_cases同时使用。LEETCODE_SESSION
:必须设置此环境变量才能运行脚本。请参阅设置部分以了解如何获取会话cookie。LEETCODE_CSRF_TOKEN
:必须设置此环境变量才能运行脚本。请参阅设置部分以了解如何获取csrf令牌。OPENAI_API_KEY
:如果使用--extract_test_cases
选项,则需要此环境变量。请参阅OpenAI API文档以了解如何获取API密钥。如果使用--extract_test_cases
选项,则需要openai
和langchain
库。可以通过以下命令安装:
pip3 install openai langchain termcolor
脚本将在输出目录中为每种指定的语言输出一个.jsonl文件。文件名格式为leetcode-hard-uncontaminated-{lang}.jsonl
。
这个基准测试在以下论文中被引入:
@misc{shinn2023reflexion, title={Reflexion: Language Agents with Verbal Reinforcement Learning}, author={Noah Shinn and Federico Cassano and Edward Berman and Ashwin Gopinath and Karthik Narasimhan and Shunyu Yao}, year={2023}, eprint={2303.11366}, archivePrefix={arXiv}, primaryClass={cs.AI} }
一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。
olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。
飞书多维表格 ×DeepSeek R1 满血版
飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。
高质量语音生成模型
CSM 是一个开源的语音生成项目,它提供了一个基于 Llama-3.2-1B 和 CSM-1B 的语音生成模型。该项目支持多语言,可生成多种声音,适用于研究和教育场景。通过使用 CSM,用户可以方便地进行语音合成,同时项目还提供了水印功能,确保生成音频的可追溯性和透明度。
Hugging Face 的 AI 智能体课程,涵盖多种智能体框架及相关知识
本项目是 Hugging Face 推出的 AI 智能体课程,深入介绍了 AI 智能体的相关概念,如大语言模型、工具使用等。课程包含多个单元,详细讲解了不同的智能体框架,如 smolagents 和 LlamaIndex,提供了丰富的学习资源和实践案例。适合对 AI 智能体感兴趣的开发者和学习者,有助于提 升他们在该领域的知识和技能。
用于 AI 项目管理和 API 交互的工具集,助力 AI 项目高效开发与管理。
RagaAI-Catalyst 是一款专注于 AI 领域的强大工具集,为开发者提供了便捷的项目管理、API 交互、令牌管理等功能。支持多 API 密钥上传,能快速创建、列出和管理 AI 项目,还可获取项目用例和指标信息。适用于各类 AI 开发场景,提升开发效率,推动 AI 项目顺利开展。
一个包含多种工具和文档处理功能,适用于 LLM 使用的项目。
smolagents 是一个功能丰富的项目,提供了如文件格式转换、网页内容读取、语义搜索等多种工具,支持将常见文件类型或网页转换为 Markdown,方便进行文档处理和信息提取,能满足不同场景下的需求,提升工作效率和数据处理能力。
用于修改 Cursor 配置文件中的标识符,以满足特定需求的工具。
Cursor ID Modifier 是一款功能强大的工具,可助力用户轻松修改 Cursor 配置文件中的各类标识符。它支持多语言,具备自动检测系统语言并提供对应翻译的能力,适用于不同操作系统。该工具在自动化部署和日常使用场景中都表现出色,能有效提高工作效率,解决用户在使用 Cursor 时遇到的配置修改难题。
DeepSeek-AI 开发的统一多模态理解和生成模型系列
Janus 是由 DeepSeek-AI 开发的统一多模态理解和生成模型系列,支持图像理解和文本到图像生成等功能。它基于先进的深度学习技术,依赖 torch、transformers 等库构 建,可广泛应用于图像识别、智能问答、内容创作等场景,为用户提供高效、准确的多模态交互体验。
一个精心整理的 .cursorrules 文件集合,用于提升你的 Cursor AI 体验。
Awesome CursorRules 是一个专注于提供优质 .cursorrules 文件的项目,这些文件可定制 Cursor AI 代码生成规则,满足不同开发者需求。涵盖前端框架、后端技术、移动开发等多领域,能增强代码生成相关性与准确性,提升开发效率与代码一致性,适用于各类开发场景。
运用多种投资分析模型和 LLM 技术进行股票交易决策与回测的智能对冲基金项目。
AI Hedge Fund 是一个先进的智能对冲基金项目,集成了基本面分析、情绪分析、风险控制等多方面的投资策略,借助 LLM 技术实现智能决策。该项目提供股票交易信号生成、回测模拟等功能,支持用户根据不同的投资原则进行分析,适用于量化投资、金融研究等场景,有助于提升投资决策的准确性和效率。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号