最佳Github AI工具与开源项目集锦

K2:地球科学领域的大型语言模型

K2:地球科学领域的大型语言模型

K2是一个专为地球科学领域设计的开源大型语言模型,通过在地球科学文献上进行预训练和指令微调,实现了对地球科学知识的深度理解和应用。本文详细介绍了K2模型的开发过程、技术特点及其在地球科学领域的应用前景。

K2地球科学大语言模型GeoSignalGeoBenchGithub开源项目
医疗领域大型语言模型综述:进展、��应用与挑战

医疗领域大型语言模型综述:进展、应用与挑战

本文全面综述了医疗领域大型语言模型的最新进展、应用场景及面临的挑战,为读者提供了该领域的系统性概览。

医疗大语言模型AI医疗生物医学AI自然语言处理人工智能Github开源项目
大型语言模型游戏智能体研究前沿:awesome-LLM-game-agent-papers项目综述

大型语言模型游戏智能体研究前沿:awesome-LLM-game-agent-papers项目综述

本文对GitHub上的awesome-LLM-game-agent-papers项目进行了全面介绍,该项目收集了基于大型语言模型的游戏智能体相关研究论文,涵盖了冒险游戏、工艺探索游戏、模拟游戏、竞技游戏、合作游戏、对话游戏和动作游戏等多个领域,代表了该研究方向的最新进展。

LLM游戏智能体人工智能自然语言处理强化学习Github开源项目
多模态大语言模型在自动驾驶领域的应用与发展

多模态大语言模型在自动驾驶领域的应用与发展

本文全面介绍了多模态大语言模型在自动驾驶领域的最新研究进展,包括感知、规划、控制等方面的应用,以及相关数据集和未来研究方向,为读者提供了该领域的系统性综述。

多模态大语言模型自动驾驶计算机视觉人工智能WACVGithub开源项目
Lion:专有大型语言模型的对抗性蒸馏

Lion:专有大型语言模型的对抗性蒸馏

探索Lion项目如何通过创新的对抗性蒸馏框架,从封闭源大语言模型中提取知识,训练出一个小型但高性能的开源语言模型。

Lion大型语言模型对抗蒸馏指令微调自然语言处理Github开源项目
神经代码智能综述:2024年最新进展与未来展望

神经代码智能综述:2024年最新进展与未来展望

本文全面梳理了神经代码智能领域的最新研究进展,涵盖代码生成、代码搜索、代码翻译等多个方向,并对未来发展趋势进行了展望。文章为相关研究人员和工程师提供了宝贵的参考资源。

神经代码智能代码语言模型人工智能论文调研软件开发Github开源项目
SimplyRetrieve: 一款轻量级私有化检索生成AI工具

SimplyRetrieve: 一款轻量级私有化检索生成AI工具

SimplyRetrieve是一个开源的轻量级检索生成AI平台,具有自定义知识库、开源大语言模型、提示工程和检索分析等功能,高度可定制,适用于检索中心和检索增强生成任务。

SimplyRetrieve检索生成开源工具大语言模型本地化Github开源项目
Flask: 轻量级的Python Web框架

Flask: 轻量级的Python Web框架

Flask是一个简单易用、灵活可扩展的Python Web框架,本文全面介绍Flask的特点、用途和优缺点,以及与Django的对比。

FLASK语言模型评估技能集细粒度分析对齐评估Github开源项目
MathVista:突破视觉数学推理的新基准

MathVista:突破视觉数学推理的新基准

MathVista是一个创新的基准测试项目,旨在评估人工智能模型在视觉环境下的数学推理能力。它结合了多模态数据集和全新任务,为人工智能在数学领域的发展提供了新的挑战和机遇。

MathVista数学推理视觉理解大语言模型多模态模型Github开源项目
CRUD-RAG:全面评估中文检索增强生成系统的创新基准

CRUD-RAG:全面评估中文检索增强生成系统的创新基准

CRUD-RAG是一个针对中文大语言模型检索增强生成系统的全面评估基准,涵盖了创建、读取、更新和删除四大类任务,为RAG系统的性能评估提供了新的视角和方法。

CRUD-RAG中文基准测试检索增强生成大语言模型评估系统Github开源项目
GuoFeng-Webnovel: 一个创新的多语言网络小说语料库

GuoFeng-Webnovel: 一个创新的多语言网络小说语料库

GuoFeng-Webnovel是一个由腾讯AI实验室和阅文集团联合推出的多语言网络小说语料库,旨在推动文学机器翻译的研究和发展。该项目为研究人员提供了大规模的高质量文学翻译数据,为探索复杂语言现象和长文本翻译提供了宝贵资源。

GuoFeng Webnovel文学翻译多语言语料库网络小说机器翻译Github开源项目
awesome-MLSecOps: 机器学习安全运维的综合资源指南

awesome-MLSecOps: 机器学习安全运维的综合资源指南

本文深入探讨了MLSecOps(机器学习安全运维)领域,介绍了一系列工具、文章和资源,旨在为机器学习和MLOps系统的安全应用提供全面的参考。文章涵盖了MLSecOps的核心概念、最佳实践、常见挑战及解决方案,为从业者和研究者提供了宝贵的指导。

MLSecOpsAI安全机器学习开源工具攻击向量Github开源项目
Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

Q-Bench:多模态大语言模型在低层视觉任务上的基准测试

Q-Bench是一个针对多模态大语言模型在低层视觉任务上能力的全面基准测试。它包括感知、描述和评估三个方面,旨在评估模型在图像质量评估、细节描述等低层视觉任务上的表现。

Q-Bench低层视觉多模态大语言模型基准测试ICLR2024Github开源项目
HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

HallusionBench: 挑战大型视觉语言模型的图像-文本推理基准

HallusionBench是一个新的基准测试套件,旨在评估大型视觉语言模型在图像-文本推理任务中的语言幻觉和视觉错觉问题。它通过精心设计的问题来挑战模型的理解能力,为改进视觉语言模型提供了重要见解。

HallusionBench视觉语言模型AI评估多模态模型图像理解Github开源项目
RCI Agent: 使用语言模型解决计算机任务的新方法

RCI Agent: 使用语言模型解决计算机任务的新方法

RCI Agent是一种创新的人工智能方法,利用大型语言模型和递归批评改进(RCI)提示技术来执行复杂的计算机任务。该方法在MiniWoB++基准测试中表现出色,展示了利用预训练语言模型解决通用计算机任务的巨大潜力。

RCI AgentMiniWoB++语言模型计算机任务自然语言Github开源项目
多智能体辩论:探索大语言模型的创新思维能力

多智能体辩论:探索大语言模型的创新思维能力

本文深入介绍了多智能体辩论(MAD)框架,探讨了如何通过多个大语言模型之间的辩论来激发创新思维,克服单一模型的认知局限性,并在反直觉问答和常识机器翻译等任务上取得显著进展。

Multi-Agent Debate大语言模型语言模型AI辩论认知行为Github开源项目
夫子·明察:开创中国法律智能新时代的司法大模型

夫子·明察:开创中国法律智能新时代的司法大模型

夫子·明察是由山东大学、浪潮云和中国政法大学联合研发的中文司法大模型,基于海量法律语料训练而成,具备法条检索、案例分析、三段论推理等多种法律智能功能,在公开评测中表现出色,开创了中国法律人工智能的新时代。

夫子明察司法大模型法律咨询人工智能ChatGLMGithub开源项目
ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

ToolQA是一个专为评估工具增强型大语言模型(LLMs)而设计的开源数据集。它涵盖8个真实场景,提供两个难度级别的问题,旨在测试LLMs使用外部工具回答具有挑战性问题的能力。

ToolQA大语言模型数据集工具增强评估基准Github开源项目
ChatKBQA: 基于大型语言模型的知识库问答新范式

ChatKBQA: 基于大型语言模型的知识库问答新范式

ChatKBQA是一种新颖的生成-检索框架,用于知识库问答任务。它首先使用微调的大型语言模型生成逻辑形式,然后通过无监督检索方法替换实体和关系,从而直接改进生成和检索过程。该方法在WebQSP和CWQ等标准KBQA数据集上取得了最新的最佳性能。

KBQALLM知识库问答语义解析知识检索Github开源项目
大型语言模型在规划和推理方面的能力研究

大型语言模型在规划和推理方面的能力研究

本文深入探讨了大型语言模型(LLMs)在自动规划和逻辑推理任务中的表现,分析了它们的优势与局限性,并探讨了LLMs与专门规划系统结合的潜力。

LLM规划评估基准测试人工智能Github开源项目