SemanticFinder

这是一个基于 transformers.js 的前端语义搜索和文档聊天的应用。

<p align="center"> <a href="https://do-me.github.io/SemanticFinder/"> <img src="https://github.com/do-me/SemanticFinder/assets/47481567/4522ab9d-08f4-4f4c-92db-dbf14ccb2b70" width="320" alt="SemanticFinder"> </a> <h1 align="center">基于 transformers.js 的前端实时语义搜索和文档聊天</h1> </p>

尝试 web 应用、安装 Chrome 扩展或阅读介绍博文。

在浏览器中进行语义搜索! 使用 transformers.js 和来自 Hugging Face 的最新 SOTA 嵌入模型,在客户端计算嵌入和余弦相似度,无需服务器端推理。

模型

支持所有与 transformers.js 兼容的特征提取模型。这里有一个可排序的列表供您浏览:每日更新列表。在此处下载兼容模型表格:xlsx、csv、json、parquet 或 html 格式: https://github.com/do-me/trending-huggingface-models/。

文件大小	标题	作者	年份	语言	URL	模型名称	量化	切分参数	切分类型	字符	块	导出小数位	行数	备注	来源链接	文件名
4.78	资本论	卡尔·马克思	1867	de	https://do-me.github.io/SemanticFinder/?hf=Das_Kapital_c1a84fba	Xenova/multilingual-e5-small	True	80	单词	2003807	3164	5	28673		https://ia601605.us.archive.org/13/items/KarlMarxDasKapitalpdf/KAPITAL1.pdf	Das_Kapital_c1a84fba.json.gz
2.58	神曲	但丁	1321	it	https://do-me.github.io/SemanticFinder/?hf=Divina_Commedia_d5a0fa67	Xenova/multilingual-e5-base	True	50	单词	383782	1179	5	6225		http://www.letteratura-italiana.com/pdf/divina%20commedia/08%20Inferno%20in%20versione%20italiana.pdf	Divina_Commedia_d5a0fa67.json.gz
11.92	堂吉诃德	米格尔·德·塞万提斯	1605	es	https://do-me.github.io/SemanticFinder/?hf=Don_Quijote_14a0b44	Xenova/multilingual-e5-base	True	25	单词	1047150	7186	4	12005		https://parnaseo.uv.es/lemir/revista/revista19/textos/quijote_1.pdf	Don_Quijote_14a0b44.json.gz
0.06	汉赛尔和格莱特	格林兄弟	1812	en	https://do-me.github.io/SemanticFinder/?hf=Hansel_and_Gretel_4de079eb	TaylorAI/gte-tiny	True	100	字符	5304	55	5	9		https://www.grimmstories.com/en/grimm_fairy-tales/hansel_and_gretel	Hansel_and_Gretel_4de079eb.json.gz
1.74	IPCC 报告 2023	IPCC	2023	en	https://do-me.github.io/SemanticFinder/?hf=IPCC_Report_2023_2b260928	Supabase/bge-small-en	True	200	字符	307811	1566	5	3230	气候变化知识状况	https://report.ipcc.ch/ar6syr/pdf/IPCC_AR6_SYR_LongerReport.pdf	IPCC_Report_2023_2b260928.json.gz
25.56	詹姆士王钦定版圣经		无	en	https://do-me.github.io/SemanticFinder/?hf=King_James_Bible_24f6dc4c	TaylorAI/gte-tiny	True	200	字符	4556163	23056	5	80496		https://www.holybooks.com/wp-content/uploads/2010/05/The-Holy-Bible-King-James-Version.pdf	King_James_Bible_24f6dc4c.json.gz
11.45	詹姆士王钦定版圣经		无	en	https://do-me.github.io/SemanticFinder/?hf=King_James_Bible_6434a78d	TaylorAI/gte-tiny	True	200	字符	4556163	23056	2	80496		https://www.holybooks.com/wp-content/uploads/2010/05/The-Holy-Bible-King-James-Version.pdf	King_James_Bible_6434a78d.json.gz
39.32	悲惨世界	维克多·雨果	1862	fr	https://do-me.github.io/SemanticFinder/?hf=Les_Misérables_2239df51	Xenova/multilingual-e5-base	True	25	单词	3236941	19463	5	74491	包含全5幕	https://beq.ebooksgratuits.com/vents/Hugo-miserables-1.pdf	Les_Misérables_2239df51.json.gz
0.46	欧盟2023/138号条例	欧盟委员会	2022	en	https://do-me.github.io/SemanticFinder/?hf=REGULATION_(EU)_2023_138_c00e7ff6	Supabase/bge-small-en	True	25	单词	76809	424	5	1323		https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32023R0138&qid=1704492501351	REGULATION_(EU)_2023_138_c00e7ff6.json.gz
0.07	世界人权宣言	联合国	1948	en	https://do-me.github.io/SemanticFinder/?hf=Universal_Declaration_of_Human_Rights_0a7da79a	TaylorAI/gte-tiny	True	\nArticle	正则	8623	63	5	109	30条	https://www.un.org/en/about-us/universal-declaration-of-human-rights	Universal_Declaration_of_Human_Rights_0a7da79a.json.gz

导入和导出

您可以自己创建索引,保存下来。如果是私密内容,请自行保留;如果是经典著作或您认为其他人可能感兴趣的内容,可以考虑在Hugging Face 仓库上提交 PR,或联系我们。如果您提供了可复制的良好来源链接,我们很乐意满足图书请求。任何涉及歧视性内容的行为都是不被容忍的。

安装

克隆仓库,并用以下命令安装依赖项:

npm install

然后运行:

npm run start

如果要进行构建,运行:

npm run build

构建完成后,您将在 dist 目录中找到 index.html、main.css 和 bundle.js。

浏览器扩展

从 Chrome 网上应用店下载 Chrome 扩展,并将其固定。右击扩展图标的 options:

对于多语言使用,选择 distiluse-base-multilingual-cased-v2(默认是仅英语)
对于较大的文本,设置一个更高的最小字符数来进行分割

本地构建

如果您想在本地构建浏览器扩展,请克隆仓库,进入 extension 目录,然后运行:

npm install
npm run build 进行静态构建,或
npm run dev 进行自动刷新的开发版本
转到 Chrome 扩展设置 chrome://extensions
选择 Load Unpacked 并选择 build 文件夹
在 Chrome 中固定扩展,以便于访问。如果对您不起作用,请随时提出问题。

性能

在整本《白鲸》(Moby Dick)中进行测试,共 660,000 个字符，约 13,000 行或 111,000 个单词。在我的老式 i7-8550U CPU 上,使用 1000 个字符作为分段大小,初始嵌入生成需要 1-2 分钟。后续查询只需要约 2 秒! 如果您想查询更大的文本,或保留一整个书籍库的索引,请使用合适的矢量数据库。

功能

您可以自定义所有内容!

输入文本和搜索词
混合搜索(语义搜索和全文搜索)
分段长度(越大越快,越小越慢)
高亮颜色(目前已硬编码)
高亮数量基于阈值值。值越低,结果越多。
实时更新
感谢 transformers.js,可轻松集成其他 ML 模型
注重数据隐私 - 您的输入文本数据不会发送到服务器,而是保留在您的浏览器中!

使用场景

对任何内容进行基本搜索,如您的个人笔记(这也是我的初衷,无法再处理一个巨大的 notes.txt 文件)
还记得在学校时对诗歌进行分析吗?经常需要寻找可能的主导动机或如《汉赛尔和格莱特》中的重复类别,如食物

未来想法

这是一个英语到中文的翻译，请提供源文本的中文翻译。注意：翻译需要符合中文语序、流程、通顺。

可以很好地打包所有内容，并使用它,例如代替 JavaScript 搜索引擎,如 Lunr.js（也被用在 mkdocs-material）。
集成到 mkdocs (mkdocs-material) 实验性:
- 在构建文档时,将所有 .md 文件分块(长度在 mkdocs.yaml 中定义)。应该相当大(>800 个字符),以降低响应时间。也可以构建 n 个索引,首先是粗略索引(每个文档/ .md 文件,如果所使用的模型支持该长度),然后是细化索引(针对文档块)。
- 通过计算所有文档/块的嵌入来构建索引。
- 当用户查询文档时,可以切换(快速)全文标准搜索(目前使用 lunr.js)或实验性语义搜索。
- 如果选择后者,客户端会加载模型(all-MiniLM-L6-v2 约 30MB)。
- 如同在 SemanticFinder 中,嵌入是在客户端创建的,余弦相似度也在客户端计算。
- 高分结果就像使用 lunr.js 一样返回,所以用户不应该注意到 UI 上的差异。
电子应用程序或浏览器应用程序也可以增强语义搜索,例如 VS Code、Atom 或移动应用程序。
集成到个人维基系统,如 Obsidian、tiddlywiki 等,可以节省您繁琐的标记/关键词/分类工作,或至少进一步改善您的结构。
搜索您自己的浏览历史记录(感谢 @Snapdeus)。
集成到聊天应用程序。
允许 PDF 上传(从 PDF 转换为文本)。
与变压器.js 的语音转文本 whisper 模型集成,允许音频上传。
由于 CodeMirror,我们甚至可以为 Python、JavaScript 等编程语言使用语法高亮显示。

逻辑

Transformers.js 承担了对输入进行标记和运行模型的繁重工作。没有它,这个演示是不可能的。

输入

尽可能多的文本!演示使用了"汉塞尔和格雷特"的一部分,但它可以处理数百页 PDF。
一个搜索词或短语。
文本应该分段的字符数。
相似度阈值。得分低于该阈值的结果将不会显示。

输出

<span style="background-color: rgb(0, 255, 81);">三个高亮显示的字符串片段</span>,越深色相似度越高。

流水线

加载所有脚本。模型从 HuggingFace 加载一次,然后缓存在浏览器中。
用户输入一些文本和搜索词或短语。
根据考虑的近似长度(单位为字符),文本被分割成分段。单词本身从不分割,这就是为什么是近似的原因。
创建搜索词嵌入。
对于文本的每个分段,创建嵌入。
与此同时,计算每个分段嵌入与搜索词嵌入之间的余弦相似度。将其写入一个以分段为键、得分为值的字典。
在每次迭代中,根据字典中的最高得分实时更新进度条和高亮显示的部分。
将嵌入缓存在字典中,后续查询速度会快得多。计算余弦相似度的速度比生成嵌入快得多。
只有在用户改变分段长度时,才需要重新计算嵌入。

协作

欢迎提交 PR!

待办事项(没有优先级)

星星历史

Gource 地图

使用以下命令创建 Gource 图像:

gource -1280x720 --title "SemanticFinder" --seconds-per-day 0.03 --auto-skip-seconds 0.03 --bloom-intensity 0.5 --max-user-speed 500 --highlight-dirs --multi-sampling --highlight-colour 00FF00