OntoGPT简介
OntoGPT是一个强大的Python包,用于使用大型语言模型(LLM)、指令提示和基于本体的基础知识从文本中提取结构化信息。它可以很好地与OpenAI的GPT模型以及其他LLM配合使用。OntoGPT的输出可用于通用自然语言任务(如命名实体识别和关系提取)、总结、知识库和知识图谱构建等。
快速入门
-
确保安装了Python 3.9或更高版本。
-
使用pip安装OntoGPT:
pip install ontogpt
- 设置OpenAI API密钥:
runoak set-apikey -e openai <your openai api key>
- 查看所有OntoGPT命令:
ontogpt --help
- 尝试一个简单的信息提取示例:
echo "One treatment for high blood pressure is carvedilol." > example.txt
ontogpt extract -i example.txt -t drug
OntoGPT将检索必要的本体并将结果输出到命令行。您的输出将在extracted_object
标题下提供所有提取的对象。
主要功能
OntoGPT目前实现了三种不同的知识提取策略:
- SPIRES (结构化提示询问和语义递归提取)
- HALO (幻觉潜在本体)
- SPINDOCTOR (结构化提示插值的叙述描述或控制术语用于本体报告)
学习资源
官方文档
教程和演示
-
演示:"保持基础:在大型语言模型的帮助下组装结构化生物知识" - Harry Caufield在AgBioData联盟网络研讨会系列中的演讲(2023年9月)
-
演示:"使用大型语言模型转换非结构化生物医学文本" - Harry Caufield在ISMB/ECCB 2023的BOSC赛道上的演讲(2023年7月)
-
演示:"OntoGPT:一个用于处理本体和大型语言模型的框架" - Chris Mungall在联合食品本体工作组的演讲(2023年5月)
GitHub仓库
相关项目
- TALISMAN - 一个用于生成基因集富集功能摘要的工具。TALISMAN使用OntoGPT与LLM协作。
引用和致谢
OntoGPT中使用的信息提取方法SPIRES在以下论文中有详细描述:
Caufield JH, Hegde H, Emonet V, Harris NL, Joachimiak MP, Matentzoglu N, et al. Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning. Bioinformatics, Volume 40, Issue 3, March 2024, btae104, https://doi.org/10.1093/bioinformatics/btae104.
OntoGPT是Monarch Initiative的一部分。项目团队也感谢Bosch Research对这项研究的支持。
通过这些丰富的学习资源,您可以深入了解OntoGPT的工作原理,并开始将其应用于您自己的项目中。无论您是生物信息学研究人员、数据科学家还是自然语言处理爱好者,OntoGPT都为您提供了强大的工具来处理和分析复杂的文本数据。