ollama-ebook-summary

ollama-ebook-summary

基于Python的电子书摘要生成工具

ollama-ebook-summary是一个基于Python的开源项目,用于生成电子书和长文本的要点摘要。该工具可自动提取章节,将内容分割成小块,并利用大语言模型生成摘要。支持epub和pdf格式,兼容Ollama和Hugging Face模型。除生成摘要外,还能针对文本特定部分回答问题,适用于快速浏览大量研究论文或书籍。

书籍摘要自动化提取分段处理OllamaMistralGithub开源项目

要点笔记书籍摘要

使用工具:Python 3.11.9

您可以查看已弃用的演练和排名,了解我在LLM方面的一些学习过程以及我如何做出某些决定。

注意:这段代码是我在开始开发网页应用程序(即将推出)时分叉出来的原型。因此,它并不是很完善,只是能够正常工作!

要点笔记摘要

这个项目为书籍和其他长文本(特别是包含目录元数据的epub和pdf)创建要点笔记摘要。

当电子书包含适当的元数据时,我们可以轻松地自动从大多数书籍中提取章节,并将它们分割成约2000个标记的块,如果您的文档没有这些内容,还有备用方案。

主要思路

这个项目的主要思路是,我们不想一次性与整个文档对话,而是将其分割成许多小块,并对这些小块提问,以提高响应的精细度。我们不想要整本书的一页摘要,而是想要书中每个小节的摘要。此外,我们可以对这些部分提出任意问题。对文本的每个部分提出相同的问题,而不是一次性对整个文本提一个问题。

目录

使用工具

Ollama.com:

Huggingface.co:

使用说明

  1. pip install requirements.txt
  2. python3 book2text.py ebook_name.{epub|pdf} -> ebook_name_processed.csv
  3. python3 sum.py model_name ebook_name_processed.csv -> ebook_name_processed_sum.md
  4. 更新sum.py以更改问题并使用您喜欢的非要点笔记模型
  • python3 sum.py obook_summary ebook_name_processed.csv

sum.py:

def process_file(input_file, model): prompt = "根据提供的文本写出全面的要点笔记。" ptitle = "用少于20个字简洁地描述这段文字,不要加前缀或任何进一步解释"

模型

您可以直接从ollama获取这些模型。

示例: ollama pull obook_summary:q5_k_m

模型文件

Mistral Bulleted Notes

FROM Mistral-7B-Instruct-v0.3.Q8_0.gguf
TEMPLATE """
<|im_start|>system
<|im_start|>user
{{ .Prompt }} <|im_end|>
<|im_start|>assistant
{{ .Response }}<|im_end|>
"""
PARAMETER num_ctx 8000
PARAMETER num_gpu -1
PARAMETER num_predict 4000
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

Mtitle

来自 Mistral-7B-Instruct-v0.3.Q8_0.gguf
模板 """<s>[INST]```这种对颅神经多方面作用的新认识,特别是它们与社交互动状态的联系,使我能够持续帮助更多人解决更广泛的健康问题。我只需要确定这五条颅神经是否运作良好,如果不是,就使用一种技术来改善它们的功能。这使我能在实践中取得更大的成功,并能治疗一些顽固的症状,如偏头痛、抑郁症、纤维肌痛、慢性阻塞性肺病、创伤后应激障碍、前倾头姿势以及颈肩问题等。本书是迷走神经多重理论治疗的理论和实践入门。在描述了基本神经结构后,我将列出一些由这五条颅神经功能障碍引起的身体、心理和社交问题。根据迷走神经多重理论,除了迷走神经腹侧分支的功能外,自主神经系统还有两个其他功能:迷走神经背侧分支的活动,以及脊柱链的交感活动。迷走神经的这种多重(poly-)特性给予了这个理论其名称。迷走神经腹侧和背侧分支功能的差异对身体和行为健康以及治疗有深远的影响。贯穿全书,我提出了一种新的治疗方法,包括易学易用的自助练习和手动治疗技巧。我希望这些知识能继续传播,让更多人能够帮助自己和他人。恢复社交互动 我写这本书是为了让恢复迷走神经功能的益处能惠及更广泛的人群,即使他们没有颅骶疗法或其他手动治疗的经验。读者可以学习一套独特的、易学易做的自助练习和手动技巧,这些应该能够帮助他们改善自己和他人这五条神经的功能。我利用 Alain Gehin 工作背后的原理开发了这些技巧。这些练习和技巧能恢复自主神经系统功能的灵活性。它们可以帮助消除慢性压力的普遍不良状况(源于脊柱交感神经链的过度刺激),以及抑郁行为和封闭状态(源于背侧迷走神经回路的活动)。这些练习是非侵入性的,不涉及药物或手术。``` \n反引号之间的内容是一本书的章节的一部分,写一个简短的标题。只写一个标题,不要加前缀或解释。[/INST]通过颅神经技术恢复自主神经平衡</s>[INST] {{ .Prompt }} [/INST]"""
参数 num_ctx 8000
参数 num_predict 4000
参数 num_gpu -1

检查你的电子书是否有可点击的目录。

在这里你可以看到如何检查你的电子书是否有正确的格式。对于 ePub 格式,即使失败也应该能优雅地处理

Firefox

图片

Brave

图片

其他用例

任意查询

一旦将书籍分割成我们的语言模型可以推理的块,我们就为每个块创建一个项目符号注释摘要。最终结果是一个 Markdown 文档,即使对于一本 1000 页的书,其内容也可以在几个小时内审阅完毕。

此外,一旦分块,就可以对文档提出任意问题,比如"这段文字回答了哪些问题?"* 这在研究中非常有价值,当我想快速审阅许多研究论文时,我可以询问"这段文字提出了什么论点?"并直接了解研究的要点。

一旦我对上百篇论文运行了这个应用,我就可以快速筛选出对我没用的论文。

灵感来源

这个应用的灵感来源于我想手动总结十几本书,以便将它们讨论的心理学理论和实践联系起来,并基于这些信息提出一个连贯的论点。

我已经多次阅读了这些书,但现在我需要方便地获取其中的信息,以便以连贯的方式向他人阐述。

最初,在手动进行这个项目一周后,我只完成了第一本书的几个章节,我意识到这将需要很长时间。

在接下来的 6 个月里,我开始学习如何使用语言模型,发现哪些最适合我的任务,并进行微调以在结果中实现生产质量的一致性。

现在有了这个工具,我能够更快地审阅更多的材料。这是一个内容策划工具,它不仅使我能够学习新知识,还能更轻松地分享这些知识,而不必花费大量时间来创造高质量的内容。

此外,它可以用来根据你投入的任何源材料创建自定义数据集。

编辑推荐精选

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI助手AI工具AI写作工具AI辅助写作蛙蛙写作学术助手办公助手营销助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

聊天机器人AI助手热门AI工具AI对话
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
下拉加载更多