知识图谱制作器

一个可以将任何文本转换为基于给定本体的知识图谱的Python工具。

图谱制作器 使用Adobe Firefly和Photoshop生成的图像

什么是知识图谱？

知识图谱，也称为语义网络，表示现实世界实体（即对象、事件、情况或概念）的网络，并说明它们之间的关系。这些信息通常存储在图数据库中，并以图结构的形式可视化，因此称为知识"图谱"。

来源：https://www.ibm.com/topics/knowledge-graph

为什么选择知识图谱？

知识图谱可用于多种目的。我们可以运行图算法并计算任何节点的中心性，以了解某个概念（节点）对这个知识体系的重要性。我们可以计算社区，将概念分组，以便更好地分析文本。我们可以理解看似无关的概念之间的联系。

最重要的是，我们可以实现图检索增强生成（GRAG），并以更深入的方式使用图作为检索器与我们的文本进行对话。这是**检索增强生成（RAG）**的新改进版本，我们使用向量数据库作为检索器与文档对话。

本项目

这是一个Python库，可以使用给定的本体从任何文本创建知识图谱。该库以相当一致的方式创建图谱，对LLM生成的错误响应具有良好的弹性。

以下是使用该库的方法：

# 获取库
$ pip install knowledge-graph-maker

记得在你的.env文件中设置以下环境变量：

## 如果使用GROQ客户端
GROQ_API_KEY="groq_api_key"
## 如果使用OpenAI客户端
OPENAI_API_KEY="openai_api_key"
## 如果使用Neo4j
NEO4J_USERNAME="neo4j"
NEO4J_PASSWORD="localneo4j"
NEO4J_URI="bolt://localhost:7687"

以下是创建知识图谱的步骤。

1. 定义图谱的本体

该库理解以下本体模式。在后台，本体是一个pydantic模型。

ontology = Ontology(
    # 要提取的实体标签。可以是字符串或对象，如下所示。
    labels=[
        {"Person": "不带任何形容词的人名，记住一个人可能通过他们的名字或使用代词来引用"},
        {"Object": "不要在对象名称中添加定冠词'the'"},
        {"Event": "涉及多人的事件。不要包括限定词或动词，如给予、离开、工作等"},
        "Place",
        "Document",
        "Organisation",
        "Action",
        {"Miscellanous": "任何无法用其他给定标签分类的重要概念"},
    ],
    # 对你的应用程序重要的关系。
    # 这些更像是对LLM的指示，以促使它关注特定的关系。
    # 不能保证只会提取这些关系，但有些模型在整体上做得很好，能够坚持这些关系。
    relationships=[
        "任何一对实体之间的关系",
        ],
)

我已经调整了提示以产生与给定本体一致的结果。我认为它做得相当不错。然而，它仍然不是100%准确。准确性取决于我们选择用于生成图谱的模型、应用程序、本体和数据质量。

2. 将文本分割成块。

我们可以使用尽可能大的文本语料库来创建大型知识图谱。然而，LLM目前有有限的上下文窗口。因此我们需要适当地对文本进行分块，并一次创建一个块的图谱。我们应该使用的块大小取决于模型的上下文窗口。本项目中使用的提示大约占用500个标记。剩余的上下文可以分为输入文本和输出图谱。根据我的经验，800到1200个标记的块非常合适。

3. 将这些块转换为文档。

文档是具有以下模式的pydantic模型：

## Pydantic文档模型
class Document(BaseModel):
    text: str
    metadata: dict

我们在这里添加到文档的元数据会被标记到从该文档中提取的每个关系。我们可以在元数据中添加关系的上下文，例如页码、章节、文章名称等。通常情况下，每对节点在多个文档中都有多个关系。元数据有助于将这些关系置于上下文中。

4. 选择LLM

知识图谱制作器提供了开箱即用的OpenAI和Groq LLM客户端。


## Groq模型
model = "mixtral-8x7b-32768"
# model ="llama3-8b-8192"
# model = "llama3-70b-8192"
# model="gemma-7b-it"

## Open AI模型
oai_model="gpt-3.5-turbo"

## 使用Groq
# llm = GroqClient(model=model, temperature=0.1, top_p=0.5)
## 或使用OpenAI
llm = OpenAIClient(model=oai_model, temperature=0.1, top_p=0.5)

你也可以选择编写自己的LLM客户端，只要它遵循以下抽象类：

class LLMClient(ABC):
    @abstractmethod
    def __init__(self, model: str, temperature: float, top_p: float):
        pass

    @abstractmethod
    def generate(self, user_message: str, system_message: str) -> str:
        "生成并返回结果文本作为字符串"
        pass

5. 运行图谱制作器。

图谱制作器直接接受一个文档列表，并遍历每个文档以创建每个文档的子图。最终输出是所有文档的完整图谱。

这里是一个简单的示例代码：

from knowledge_graph_maker import GraphMaker, Ontology, GroqClient
from knowledge_graph_maker import Document


llm = GroqClient(model=model, temperature=0.1, top_p=0.5)
graph_maker = GraphMaker(ontology=ontology, llm_client=llm, verbose=False)

## 从文档列表创建图谱。
graph = graph_maker.from_documents(
    list(docs),
    delay_s_between=10 ## delay_s_between是因为否则groq api很快就会达到最大限制。
    )
## 结果 -> 边的列表。
print("边的总数", len(graph))
## 1503

输出是最终图谱，以边的列表形式呈现，其中每条边是一个如下所示的pydantic模型：

class Node(BaseModel):
    label: str
    name: str

class Edge(BaseModel):
    node_1: Node
    node_2: Node
    relationship: str
    metadata: dict = {}
    order: Union[int, None] = None

图谱制作器将每个文档通过模型运行，并将响应解析为图谱边。我已经调整了提示，使其现在相当容错。大多数JSON失败都会自动纠正。如果JSON响应解析失败，它还会尝试将JSON字符串手动分割成多个边字符串，然后尝试分别解析每一个。

6. 保存到Neo4j（可选步骤）

我们可以将模型保存到Neo4j，以创建RAG应用程序、运行网络算法，或者只是使用Bloom可视化图谱。

from knowledge_graph_maker import Neo4jGraphModel

create_indices = False
neo4j_graph = Neo4jGraphModel(edges=graph, create_indices=create_indices)

neo4j_graph.save()