ollama-ebook-summary

ollama-ebook-summary

基于Python的电子书摘要生成工具

ollama-ebook-summary是一个基于Python的开源项目,用于生成电子书和长文本的要点摘要。该工具可自动提取章节,将内容分割成小块,并利用大语言模型生成摘要。支持epub和pdf格式,兼容Ollama和Hugging Face模型。除生成摘要外,还能针对文本特定部分回答问题,适用于快速浏览大量研究论文或书籍。

书籍摘要自动化提取分段处理OllamaMistralGithub开源项目

要点笔记书籍摘要

使用工具:Python 3.11.9

您可以查看已弃用的演练和排名,了解我在LLM方面的一些学习过程以及我如何做出某些决定。

注意:这段代码是我在开始开发网页应用程序(即将推出)时分叉出来的原型。因此,它并不是很完善,只是能够正常工作!

要点笔记摘要

这个项目为书籍和其他长文本(特别是包含目录元数据的epub和pdf)创建要点笔记摘要。

当电子书包含适当的元数据时,我们可以轻松地自动从大多数书籍中提取章节,并将它们分割成约2000个标记的块,如果您的文档没有这些内容,还有备用方案。

主要思路

这个项目的主要思路是,我们不想一次性与整个文档对话,而是将其分割成许多小块,并对这些小块提问,以提高响应的精细度。我们不想要整本书的一页摘要,而是想要书中每个小节的摘要。此外,我们可以对这些部分提出任意问题。对文本的每个部分提出相同的问题,而不是一次性对整个文本提一个问题。

目录

使用工具

Ollama.com:

Huggingface.co:

使用说明

  1. pip install requirements.txt
  2. python3 book2text.py ebook_name.{epub|pdf} -> ebook_name_processed.csv
  3. python3 sum.py model_name ebook_name_processed.csv -> ebook_name_processed_sum.md
  4. 更新sum.py以更改问题并使用您喜欢的非要点笔记模型
  • python3 sum.py obook_summary ebook_name_processed.csv

sum.py:

def process_file(input_file, model): prompt = "根据提供的文本写出全面的要点笔记。" ptitle = "用少于20个字简洁地描述这段文字,不要加前缀或任何进一步解释"

模型

您可以直接从ollama获取这些模型。

示例: ollama pull obook_summary:q5_k_m

模型文件

Mistral Bulleted Notes

FROM Mistral-7B-Instruct-v0.3.Q8_0.gguf
TEMPLATE """
<|im_start|>system
<|im_start|>user
{{ .Prompt }} <|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>
"""
PARAMETER num_ctx 8000
PARAMETER num_gpu -1
PARAMETER num_predict 4000
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

Mtitle

来自 Mistral-7B-Instruct-v0.3.Q8_0.gguf
模板 """<s>[INST]```这种对颅神经多方面作用的新认识,特别是它们与社交互动状态的联系,使我能够持续帮助更多人解决更广泛的健康问题。我只需要确定这五条颅神经是否运作良好,如果不是,就使用一种技术来改善它们的功能。这使我能在实践中取得更大的成功,并能治疗一些顽固的症状,如偏头痛、抑郁症、纤维肌痛、慢性阻塞性肺病、创伤后应激障碍、前倾头姿势以及颈肩问题等。本书是迷走神经多重理论治疗的理论和实践入门。在描述了基本神经结构后,我将列出一些由这五条颅神经功能障碍引起的身体、心理和社交问题。根据迷走神经多重理论,除了迷走神经腹侧分支的功能外,自主神经系统还有两个其他功能:迷走神经背侧分支的活动,以及脊柱链的交感活动。迷走神经的这种多重(poly-)特性给予了这个理论其名称。迷走神经腹侧和背侧分支功能的差异对身体和行为健康以及治疗有深远的影响。贯穿全书,我提出了一种新的治疗方法,包括易学易用的自助练习和手动治疗技巧。我希望这些知识能继续传播,让更多人能够帮助自己和他人。恢复社交互动 我写这本书是为了让恢复迷走神经功能的益处能惠及更广泛的人群,即使他们没有颅骶疗法或其他手动治疗的经验。读者可以学习一套独特的、易学易做的自助练习和手动技巧,这些应该能够帮助他们改善自己和他人这五条神经的功能。我利用 Alain Gehin 工作背后的原理开发了这些技巧。这些练习和技巧能恢复自主神经系统功能的灵活性。它们可以帮助消除慢性压力的普遍不良状况(源于脊柱交感神经链的过度刺激),以及抑郁行为和封闭状态(源于背侧迷走神经回路的活动)。这些练习是非侵入性的,不涉及药物或手术。``` \n反引号之间的内容是一本书的章节的一部分,写一个简短的标题。只写一个标题,不要加前缀或解释。[/INST]通过颅神经技术恢复自主神经平衡</s>[INST] {{ .Prompt }} [/INST]"""
参数 num_ctx 8000
参数 num_predict 4000
参数 num_gpu -1

检查你的电子书是否有可点击的目录。

在这里你可以看到如何检查你的电子书是否有正确的格式。对于 ePub 格式,即使失败也应该能优雅地处理

Firefox

图片

Brave

图片

其他用例

任意查询

一旦将书籍分割成我们的语言模型可以推理的块,我们就为每个块创建一个项目符号注释摘要。最终结果是一个 Markdown 文档,即使对于一本 1000 页的书,其内容也可以在几个小时内审阅完毕。

此外,一旦分块,就可以对文档提出任意问题,比如"这段文字回答了哪些问题?"* 这在研究中非常有价值,当我想快速审阅许多研究论文时,我可以询问"这段文字提出了什么论点?"并直接了解研究的要点。

一旦我对上百篇论文运行了这个应用,我就可以快速筛选出对我没用的论文。

灵感来源

这个应用的灵感来源于我想手动总结十几本书,以便将它们讨论的心理学理论和实践联系起来,并基于这些信息提出一个连贯的论点。

我已经多次阅读了这些书,但现在我需要方便地获取其中的信息,以便以连贯的方式向他人阐述。

最初,在手动进行这个项目一周后,我只完成了第一本书的几个章节,我意识到这将需要很长时间。

在接下来的 6 个月里,我开始学习如何使用语言模型,发现哪些最适合我的任务,并进行微调以在结果中实现生产质量的一致性。

现在有了这个工具,我能够更快地审阅更多的材料。这是一个内容策划工具,它不仅使我能够学习新知识,还能更轻松地分享这些知识,而不必花费大量时间来创造高质量的内容。

此外,它可以用来根据你投入的任何源材料创建自定义数据集。

编辑推荐精选

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多