#数据处理
unstructured - 开源非结构化数据处理工具包 - 简化LLM数据准备流程
Python机器学习第三版学习资料汇总 - 应用机器学习与深度学习的实用指南
SheetGod
通过将口头英语指令转换成Excel公式、宏和正则表达式,SheetGod强大的AI功能助你轻松处理复杂数据,还能生成Google Appscript代码自动化日常任务。深受广大Excel和Google Sheets用户信赖与推荐。
pytorch_geometric
PyTorch Geometric是一个基于PyTorch的图形神经网络库,旨在简化结构化数据的建模与训练流程。支持小批量和大规模图的处理,并提供全面的GPU加速、数据管道处理以及常用基准数据集。这使得它成为机器学习研究者和初学者理想的选择。
awesome-mlops
发掘和运用顶尖MLOps工具:该项目汇集了多种自动化机器学习、数据处理、模型部署工具,供数据科学家和机器学习工程师选择使用,以简化机器学习流程,优化生产活动。
data-juicer
Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。
unstructured
该开源工具提供了处理图像和文本文档(PDF、HTML、Word文档等)的组件,能够优化大语言模型(LLM)的数据处理流程。通过模块化功能和连接器系统,简化数据导入和预处理,将非结构化数据高效转换为结构化数据。其无服务器API提供了高效、响应迅速的解决方案。快速入门指南涵盖了在容器中运行库以及多种安装方法。
datachain
DataChain是一个为AI特定场景设计的数据框架库。它通过在非结构化文件上构建的元数据层,帮助机器学习和AI工程师进行数据分析。支持处理各种存储中的原始文件并实现数据集版本控制。用户可以使用Python接口进行数据转换和元数据丰富。项目特色包括功能链式数据处理方法和数据版本控制,并区分CPU和GPU负载, 适用于分布式计算。
neptune-client
Neptune 提供一款高效实验跟踪平台,适用于团队基础模型训练。用户可记录大量运行数据,实时对比实验结果。其灵活日志记录、自定义仪表板、多节点支持,加速训练监控和优化。支持25+框架集成,是MLOps理想工具。
voxelgpt
VoxelGPT 是基于 FiftyOne 的插件,结合大型语言模型和多模态模型,通过自然语言即可对数据进行过滤、排序、语义切片和查询。支持数据集、计算、工作区查询及机器学习问题,无需编写代码。提供实时演示和详细安装指南,助用户轻松从数据中获取价值。
python-machine-learning-book-3rd-edition
《Python Machine Learning》第三版全面覆盖了数据预处理、分类、回归、深度学习和强化学习等机器学习领域的核心概念。书中提供了Scikit-Learn和TensorFlow的代码示例,帮助读者掌握模型评估、超参数优化和集成学习等技术。本书适合初学者和进阶用户,通过代码仓库可以获得丰富的实践经验。出版信息:Packt Publishing, 2019年12月12日,ISBN-13: 978-1789955750。