OntoGPT学习资源汇总 - 基于LLM的本体论提取工具

OntoGPT简介

OntoGPT是一个强大的Python包,用于使用大型语言模型(LLM)、指令提示和基于本体的基础知识从文本中提取结构化信息。它可以很好地与OpenAI的GPT模型以及其他LLM配合使用。OntoGPT的输出可用于通用自然语言任务(如命名实体识别和关系提取)、总结、知识库和知识图谱构建等。

OntoGPT Logo

快速入门

确保安装了Python 3.9或更高版本。
使用pip安装OntoGPT:

pip install ontogpt

设置OpenAI API密钥:

runoak set-apikey -e openai <your openai api key>

查看所有OntoGPT命令:

ontogpt --help

尝试一个简单的信息提取示例:

echo "One treatment for high blood pressure is carvedilol." > example.txt
ontogpt extract -i example.txt -t drug

OntoGPT将检索必要的本体并将结果输出到命令行。您的输出将在extracted_object标题下提供所有提取的对象。

主要功能

OntoGPT目前实现了三种不同的知识提取策略:

SPIRES (结构化提示询问和语义递归提取)
HALO (幻觉潜在本体)
SPINDOCTOR (结构化提示插值的叙述描述或控制术语用于本体报告)

学习资源

官方文档

OntoGPT完整文档

教程和演示

演示:"保持基础:在大型语言模型的帮助下组装结构化生物知识" - Harry Caufield在AgBioData联盟网络研讨会系列中的演讲(2023年9月)
- 幻灯片
- 视频
演示:"使用大型语言模型转换非结构化生物医学文本" - Harry Caufield在ISMB/ECCB 2023的BOSC赛道上的演讲(2023年7月)
- 幻灯片
- 视频
演示:"OntoGPT:一个用于处理本体和大型语言模型的框架" - Chris Mungall在联合食品本体工作组的演讲(2023年5月)
- 幻灯片
- 视频

GitHub仓库

OntoGPT GitHub仓库

引用和致谢

OntoGPT中使用的信息提取方法SPIRES在以下论文中有详细描述:

Caufield JH, Hegde H, Emonet V, Harris NL, Joachimiak MP, Matentzoglu N, et al. Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning. Bioinformatics, Volume 40, Issue 3, March 2024, btae104, https://doi.org/10.1093/bioinformatics/btae104.

OntoGPT是Monarch Initiative的一部分。项目团队也感谢Bosch Research对这项研究的支持。

通过这些丰富的学习资源,您可以深入了解OntoGPT的工作原理,并开始将其应用于您自己的项目中。无论您是生物信息学研究人员、数据科学家还是自然语言处理爱好者,OntoGPT都为您提供了强大的工具来处理和分析复杂的文本数据。