OntoGPT是一个强大的Python包,用于使用大型语言模型(LLM)、指令提示和基于本体的基础知识从文本中提取结构化信息。它可以很好地与OpenAI的GPT模型以及其他LLM配合使用。OntoGPT的输出可用于通用自然语言任务(如命名实体识别和关系提取)、总结、知识库和知识图谱构建等。
确保安装了Python 3.9或更高版本。
使用pip安装OntoGPT:
pip install ontogpt
runoak set-apikey -e openai <your openai api key>
ontogpt --help
echo "One treatment for high blood pressure is carvedilol." > example.txt
ontogpt extract -i example.txt -t drug
OntoGPT将检索必要的本体并将结果输出到命令行。您的输出将在extracted_object
标题下提供所有提取的对象。
OntoGPT目前实现了三种不同的知识提取策略:
演示:"保持基础:在大型语言模型的帮助下组装结构化生物知识" - Harry Caufield在AgBioData联盟网络研讨会系列中的演讲(2023年9月)
演示:"使用大型语言模型转换非结构化生物医学文本" - Harry Caufield在ISMB/ECCB 2023的BOSC赛道上的演讲(2023年7月)
演示:"OntoGPT:一个用于处理本体和大型语言模型的框架" - Chris Mungall在联合食品本体工作组的演讲(2023年5月)
OntoGPT中使用的信息提取方法SPIRES在以下论文中有详细描述:
Caufield JH, Hegde H, Emonet V, Harris NL, Joachimiak MP, Matentzoglu N, et al. Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning. Bioinformatics, Volume 40, Issue 3, March 2024, btae104, https://doi.org/10.1093/bioinformatics/btae104.
OntoGPT是Monarch Initiative的一部分。项目团队也感谢Bosch Research对这项研究的支持。
通过这些丰富的学习资源,您可以深入了解OntoGPT的工作原理,并开始将其应用于您自己的项目中。无论您是生物信息学研究人员、数据科学家还是自然语言处理爱好者,OntoGPT都为您提供了强大的工具来处理和分析复杂的文本数据。