llm-search学习资料汇总 - 基于LLM的本地文档查询系统

llm-search是一个强大的基于大语言模型(LLM)的本地文档查询系统,由GitHub用户snexus开发。该项目旨在提供一个便捷的问答(RAG)系统,通过简单的YAML配置即可与多个本地文档集合进行交互。除了基本的LLM检索增强生成(RAG)功能外,llm-search还在系统的各个组件上做了特别优化,包括更好的文档解析、混合搜索、HyDE增强搜索、聊天历史、深度链接、重新排序以及自定义嵌入等功能。

🌟 项目特性

llm-search具有以下主要特性:

支持多种文档格式:
- 内置解析器支持.md、.pdf、.docx等格式
- 通过Unstructured预处理器支持其他常见格式
支持多个文档集合,可按集合筛选结果
增量更新嵌入,无需重新索引整个文档库
使用ChromaDB作为向量数据库存储文档嵌入
支持多种嵌入模型:
- Hugging Face嵌入
- Sentence-transformers模型(如multilingual-e5-base)
- Instructor模型(如instructor-large)
使用SPLADE生成稀疏嵌入,实现混合搜索(稀疏+密集)
支持"检索和重排序"策略进行语义搜索
支持HyDE(假设性文档嵌入)技术
支持多查询功能,灵感来自RAG Fusion
可选的聊天历史和问题上下文化
支持多种LLM模型:
- OpenAI模型(ChatGPT 3.5/4和Azure OpenAI)
- Hugging Face模型
- Llama.cpp支持的模型
- AutoGPTQ模型(暂时禁用)
通过OpenAI API与LiteLLM和Ollama互操作
其他功能:
- 简单的CLI和Web界面
- 文档章节深度链接
- 将响应保存到离线数据库以供将来分析
- 实验性API

📚 学习资源

项目GitHub仓库: https://github.com/snexus/llm-search
官方文档: https://llm-search.readthedocs.io/en/latest/
在线演示:
Google Colab笔记本: https://githubtocolab.com/snexus/llm-search/blob/main/notebooks/llmsearch_google_colab_demo.ipynb
配置示例: https://github.com/snexus/llm-search/tree/main/sample_templates
源代码: https://github.com/snexus/llm-search/tree/main/src/llmsearch

🚀 快速开始

克隆项目仓库:

git clone https://github.com/snexus/llm-search.git

安装依赖:
```
pip install -r requirements.txt
```
配置环境变量: 复制.env_template文件并重命名为.env,然后填写必要的API密钥和配置。
运行CLI界面:
```
python -m llmsearch.cli
```
运行Web界面:
```
python -m llmsearch.app
```

🤝 贡献

llm-search是一个开源项目,欢迎贡献代码、报告问题或提出新功能建议。您可以通过以下方式参与:

Fork项目仓库
创建您的特性分支 (git checkout -b feature/AmazingFeature)
提交您的更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
开启一个Pull Request

📄 许可证

llm-search项目采用MIT许可证。详情请参阅LICENSE文件。

通过以上资料,您应该能够快速了解llm-search项目并开始使用。如果在使用过程中遇到任何问题,欢迎查阅官方文档或在GitHub仓库中提出issue。祝您使用愉快! 🎉

llm-search学习资料汇总 - 基于LLM的本地文档查询系统

llm-search学习资料汇总 - 基于LLM的本地文档查询系统

🌟 项目特性

📚 学习资源

🚀 快速开始

🤝 贡献

📄 许可证

编辑推荐精选

即梦AI

扣子-AI办公

Keevx

TRAE编程

蛙蛙写作

问小白

Transly

讯飞智文

讯飞星火

Spark-TTS

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

讯飞文书

讯飞绘文

讯飞绘镜

阿里绘蛙

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号