Talk2Arxiv是一个开源的RAG(检索增强生成)系统,专门为学术论文PDF设计。它允许用户通过简单修改URL的方式,将任何ArXiv论文加载到一个响应式的RAG聊天应用中。
例如,只需将原始ArXiv链接 www.arxiv.org/pdf/1706.03762.pdf 前面加上"talk2",即可得到 www.talk2arxiv.org/pdf/1706.03762.pdf ,从而启动与该论文的对话界面。
Talk2Arxiv具有以下核心功能:
PDF解析:利用GROBID高效地从PDF中提取文本。
分块算法:采用自定义算法进行最优文本分块。按照逻辑部分(如引言、摘要、作者等)进行分块,并使用递归细分分块(512字符、256字符、128字符等)。
文本嵌入:使用Cohere的EmbedV3模型生成准确的文本嵌入。
向量数据库集成:使用Qdrant存储和查询嵌入。这也起到缓存研究论文的作用,每篇论文只需嵌入一次。
上下文相关性:采用重排序过程,根据用户输入选择最相关的内容。
在ArXiv论文URL前加上"talk2"
加载论文后,即可开始与论文内容进行对话交互