awesome-python-data-science

awesome-python-data-science

Python数据科学资源集合,详解机器学习与深度学习工具

该项目收集了全面的Python数据科学资源,包括机器学习、深度学习、自动化机器学习、自然语言处理、计算机视觉、时间序列分析和强化学习等领域的开源库。从通用型机器学习算法到深度学习框架(如PyTorch和TensorFlow),再到特征工程和数据可视化,用户可以找到适用于各种数据分析和建模需求的工具。项目旨在帮助数据科学家和工程师高效选择工具,以提高开发和分析效率。

Python数据科学机器学习深度学习工具库Github开源项目
<div align="center"> <a href="https://krzjoa.github.io/awesome-python-data-science/"><img width="250" height="250" src="https://yellow-cdn.veclightyear.com/35dd4d3f/6dc02525-747f-407f-9518-e3d174bebb99.png" alt="pyds"></a> <br> <br> <br> </div> <h1 align="center"> 超赞的Python数据科学 </h1> <div align="center"><a href="https://github.com/sindresorhus/awesome"> <img src="https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.svg" alt="Awesome" border="0"> </a> </div> </br>

可能是最好的Python数据科学软件精选列表

目录

机器学习

通用机器学习

  • scikit-learn - Python中的机器学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • PyCaret - 一个开源的、低代码的Python机器学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/afe2d3ee-7895-41c5-abd3-cdc144850b0f.png" alt="受R启发的库">
  • Shogun - 机器学习工具箱。
  • xLearn - 高性能、易用、可扩展的机器学习包。
  • cuML - RAPIDS机器学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">
  • modAL - Python3的模块化主动学习框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Sparkit-learn - PySpark + scikit-learn = Sparkit-learn。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/ea51f2b0-c9c7-4e2c-b071-515e63479fa3.png" alt="基于Apache Spark">
  • mlpack - 一个可扩展的C++机器学习库(Python绑定)。
  • dlib - 用于在C++中进行真实世界的机器学习和数据分析应用的工具包(Python绑定)。
  • MLxtend - Python数据分析和机器学习库的扩展和助手模块。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • hyperlearn - 50%+更快,50%+更少的RAM使用,支持GPU的重新编写的Sklearn,Statsmodels。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • 可重复实验平台(REP) - 为人类设计的机器学习工具箱。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • scikit-multilearn - Python的多标签分类。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • seqlearn - Python的序列分类工具包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • pystruct - Python的简单结构化学习框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • sklearn-expertsys - scikit-learn的高度可解释分类器。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • RuleFit - rulefit的实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • metric-learn - Python中的度量学习算法。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • pyGAM - Python中的广义可加模型。
  • causalml - 使用机器学习算法进行增效建模和因果推断。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

梯度提升

  • XGBoost - 可扩展、便携的分布式梯度提升。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">
  • LightGBM - 一个快速、分布式、高性能的梯度提升。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">
  • CatBoost - 一个开源的决策树库上的梯度提升。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">
  • ThunderGBM - 在GPU上的快速GBDT和随机森林。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">
  • NGBoost - 概率预测的自然梯度提升。
  • TensorFlow决策森林 - 在Keras中训练、服务和解释决策森林模型的最先进算法集合。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="keras"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">

集成方法

  • ML-Ensemble - 高性能集成学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Stacking - 用Python编写的简单而实用的stacking库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • stacked_generalization - 机器学习stacking泛化库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • vecstack - 用于stacking(机器学习技术)的Python包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

不平衡数据集

  • imbalanced-learn - 使用各种技术进行欠采样和过采样的模块。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • imbalanced-algorithms - 基于Python的不平衡数据学习算法实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">

随机森林

  • rpforest - 一种随机投影树的森林。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • sklearn-random-bits-forest - 由(Wang等人,2016年)编写的Random Bits Forest程序的封装。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • rgf_python - 规则化贪婪森林(RGF) 的Python封装。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

核方法

  • pyFM - Python中的因子分解机。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • fastFM - 一种因子分解机库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • tffm - 任意阶因子分解机的TensorFlow实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • liquidSVM - 一种SVM的实现。
  • scikit-rvm - 使用scikit-learn API实现的相关向量机。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • ThunderSVM - 一种在GPU和CPU上快速运行的SVM库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU加速">

深度学习

PyTorch

  • PyTorch - 在Python中实现张量和动态神经网络,并具有强大的GPU加速能力。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • pytorch-lightning - PyTorch Lightning只是结构化的PyTorch。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • ignite - 帮助在PyTorch中训练神经网络的高级库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • skorch - 一个兼容scikit-learn的神经网络库,封装了PyTorch。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • Catalyst - 用于PyTorch深度学习和强化学习研究的高级工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • ChemicalX - 一个基于PyTorch的药物配对评分深度学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">

TensorFlow

  • TensorFlow - 使用数据流图进行计算的可扩展机器学习,由谷歌开发。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • TensorLayer - 面向研究人员和工程师的深度学习和强化学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • TFLearn - 具有高级API的深度学习库,基于TensorFlow。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Sonnet - 基于TensorFlow的神经网络库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • tensorpack - 一个基于TensorFlow的神经网络训练接口。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Polyaxon - 一个帮助构建、管理和监控深度学习模型的平台。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • tfdeploy - 部署TensorFlow图以快速评估并导出到没有TensorFlow的环境中运行的numpy。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • tensorflow-upstream - TensorFlow的ROCm端口。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/714bfcf1-8675-4da6-a4ab-8adf9ce43d7e.png" alt="Possible to run on AMD GPU">
  • TensorFlow Fold - 在TensorFlow中进行动态计算图的深度学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • TensorLight - 一个高级的TensorFlow框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Mesh TensorFlow - 模型并行化更容易的实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Ludwig - 允许无需编写代码即可训练和测试深度学习模型的工具箱。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Keras - 运行在TensorFlow之上的高级神经网络API。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">
  • keras-contrib - Keras社区贡献。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">
  • Hyperas - Keras + Hyperopt:一个简便超参数选择器的简单包装。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">
  • Elephas - 与Keras & Spark一起实现分布式深度学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">
  • qkeras - 一个量化深度学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">

MXNet

  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态且具备变更感知的数据流调度器。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="MXNet based">
  • Gluon - 一个清晰、简洁、简单但功能强大且高效的深度学习API(现在包含在MXNet中)。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="MXNet based">
  • Xfer - 深度神经网络的迁移学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="MXNet based">
  • MXNet - MXNet的HIP端口。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="MXNet based"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/714bfcf1-8675-4da6-a4ab-8adf9ce43d7e.png" alt="Possible to run on AMD GPU">

JAX

  • JAX - 对Python+NumPy程序进行可组合的变换:微分、向量化、JIT到GPU/TPU等等。
  • FLAX - 一个为JAX设计的灵活的神经网络库。
  • Optax - 一个为JAX设计的梯度处理和优化库。

Others

  • transformers - 最先进的机器学习,兼容Pytorch、TensorFlow和JAX。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="PyTorch based/compatible"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Tangent - 纯Python中可调试的源代码转换。
  • autograd - 高效计算numpy代码的导数。
  • Caffe - 一个快速的开源深度学习框架。
  • nnabla - 索尼推出的神经网络库。

Automated Machine Learning

  • auto-sklearn - 一个AutoML工具包,可作为scikit-learn估计器的替代品。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Auto-PyTorch - 面向PyTorch的自动架构搜索和超参数优化工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="PyTorch based/compatible">
  • AutoKeras - 深度学习的AutoML库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="Keras compatible">
  • AutoGluon - 面向图像、文本、表格、时间序列和多模态数据的AutoML。
  • TPOT - 使用遗传编程优化机器学习管道的AutoML工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • MLBox - 一个功能强大的自动机器学习Python库。

自然语言处理

  • torchtext - 文本和NLP的数据加载器和抽象。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • gluon-nlp - 简化NLP。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="基于MXNet">
  • KerasNLP - 用Keras实现模块化的自然语言处理工作流程。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="基于/兼容Keras">
  • spaCy - 工业级自然语言处理。
  • NLTK - 支持自然语言处理研究和开发的模块、数据集和教程。
  • CLTK - 古典语言工具包。
  • gensim - 人类的主题建模工具。
  • pyMorfologik - 用于<a href="https://github.com/morfologik/morfologik-stemming">Morfologik</a>的Python绑定。
  • skift - 为Python fastText提供Scikit-learn封装。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Phonemizer - 多语言的简单文本到音素转换器。
  • flair - 先进NLP的简单框架。

计算机听觉

  • torchaudio - PyTorch的音频库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • librosa - 用于音频和音乐分析的Python库。
  • Yaafe - 音频特征提取。
  • aubio - 一个用于音频和音乐分析的库。
  • Essentia - 音频和音乐分析、描述和合成的库。
  • LibXtract - 一个简单、便携、轻量的音频特征提取函数库。
  • Marsyas - 音乐分析、检索和音频信号的合成。
  • muda - 一个用于增强标注音频数据的库。
  • madmom - 用于音频和音乐信号处理的Python库。

计算机视觉

  • torchvision - 专用于计算机视觉的数据集、变换和模型。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • PyTorch3D - PyTorch3D是FAIR用于3D数据深度学习的可重用组件库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • gluon-cv - 提供计算机视觉领域最先进的深度学习模型的实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="基于MXNet">
  • KerasCV - 用Keras实现工业级计算机视觉工作流程。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="基于MXNet">
  • OpenCV - 开源计算机视觉库。
  • Decord - 一个高效的视频加载器,具有智能洗牌功能,非常易于使用。
  • MMEngine - OpenMMLab训练深度学习模型的基础库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • scikit-image - 图像处理SciKit(SciPy的工具箱)。
  • imgaug - 机器学习实验的图像增强。
  • imgaug_extension - imgaug的额外增强功能。
  • Augmentor - 用于机器学习的Python图像增强库。
  • albumentations - 快速图像增强库和易于使用的其他库封装。
  • LAVIS - 一个面向语言-视觉智能的一站式库。

时间序列

  • sktime - 用于时间序列机器学习的统一框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • darts - 一个用于轻松操作和预测时间序列的Python库。
  • statsforecast - 使用统计和计量经济模型进行快速预测。
  • mlforecast - 可扩展的基于机器学习的时间序列预测。
  • neuralforecast - 可扩展的基于机器学习的时间序列预测。
  • tslearn - 专用于时间序列数据的机器学习工具包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • tick - 侧重于时间依赖建模的统计学习模块。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • greykite - 一个灵活、直观、快速的预测库。
  • Prophet - 自动预测程序。
  • PyFlux - 开源的Python时间序列库。
  • bayesloop - 用于时间变量参数模型的概率编程框架,便于客观模型选择。
  • luminol - 异常检测和关联库。
  • dateutil - 对标准datetime模块的强大扩展。
  • maya - 使解析字符串和更改时区变得非常容易。
  • Chaos Genius - 用于异常/异常检测和根本原因分析的机器学习驱动分析引擎。

强化学习

  • Gymnasium - 一个单代理强化学习环境的API标准,包含流行的参考环境和相关工具(前称为Gym)。
  • PettingZoo - 一个多代理强化学习环境的API标准,包含流行的参考环境和相关工具。
  • MAgent2 - 一个高性能的多代理环境引擎,支持非常大量的代理,并包含一套参考环境。
  • Stable Baselines3 - 基于OpenAI Baselines的强化学习算法改进实现集。
  • Shimmy - 一个流行的外部强化学习环境的API转换工具。
  • EnvPool - 基于C++的高性能并行环境执行引擎(矢量化环境),适用于通用RL环境。
  • RLlib - 可扩展的强化学习。
  • Tianshou - 基于PyTorch的优雅深度强化学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • Acme - 一套强化学习组件和代理库。
  • Catalyst-RL - 用于RL研究的PyTorch框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • d3rlpy - 一个离线深度强化学习库。
  • DI-engine - OpenDILab决策人工智能引擎。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • TF-Agents - 用于TensorFlow的强化学习库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">
  • TensorForce - 一个用于应用强化学习的TensorFlow库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">
  • TRFL - TensorFlow强化学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • Dopamine - 用于快速原型强化学习算法的研究框架。
  • keras-rl - 用于Keras的深度强化学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="兼容Keras">
  • garage - 一个用于可重复强化学习研究的工具包。
  • Horizon - 一个用于应用强化学习的平台。
  • rlpyt - 在PyTorch中进行强化学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • cleanrl - 具有研究友好特性的高质量单文件深度强化学习算法实现(包括PPO, DQN, C51, DDPG, TD3, SAC, PPG)。
  • Machin - 一个为PyTorch设计的强化库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • SKRL - 模块化的强化学习库(基于PyTorch和JAX),支持NVIDIA Isaac Gym、Isaac Orbit和Omniverse Isaac Gym。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • Imitation - 清晰的基于PyTorch的模仿学习和奖励学习算法实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">

图机器学习

  • pytorch_geometric - PyTorch的几何深度学习扩展库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • pytorch_geometric_temporal - PyTorch Geometric的时间扩展库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • PyTorch Geometric Signed Directed - 一个适用于PyTorch Geometric的有符号/有向图神经网络扩展库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • dgl - 基于现有深度学习框架的图深度学习Python包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/3310b207-d932-4d94-942d-e95f7f7f775d.png" alt="基于MXNet">
  • Spektral - 图上的深度学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="兼容Keras">
  • StellarGraph - 图上的机器学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="兼容Keras">
  • Graph Nets - 在TensorFlow中构建图网。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">
  • TensorFlow GNN - 一个在TensorFlow平台上构建图神经网络的库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">
  • Auto Graph Learning - 用于图机器学习的AutoML框架和工具包。
  • PyTorch-BigGraph - 从大规模图结构数据中生成嵌入。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • Auto Graph Learning - 用于图机器学习的AutoML框架和工具包。
  • Karate Club - 一个用于处理图结构数据的无监督机器学习库。
  • Little Ball of Fur - 一个用于采样图结构数据的库。
  • GreatX - 一个基于PyTorch和PyTorch Geometric(PyG)的图可靠性工具箱。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • Jraph - 一个基于Jax的图神经网络库。

学习排序与推荐系统

  • LightFM - LightFM的Python实现,一个混合推荐算法。
  • Spotlight - 使用PyTorch的深度推荐模型。
  • Surprise - 一个用于构建和分析推荐系统的Python scikit库。
  • RecBole - 一个统一、全面且高效的推荐库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • allRank - 基于PyTorch的学习排序神经模型训练框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • TensorFlow Recommenders - 一个使用TensorFlow构建推荐系统模型的库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="兼容Keras">
  • TensorFlow Ranking - 使用TensorFlow进行学习排序。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="TensorFlow">

概率图模型

  • pomegranate - 用于Python的概率和图模型。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • pgmpy - 一个用于处理概率图模型的Python库。
  • pyAgrum - 通用图形建模器。

概率方法

  • pyro - 基于PyTorch构建的灵活、可扩展的深度概率编程库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • PyMC - Python中的贝叶斯随机建模。
  • ZhuSuan - 贝叶斯深度学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • GPflow - TensorFlow中的高斯过程。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • InferPy - 轻松实现深度概率建模。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • PyStan - 使用No-U-Turn采样器的贝叶斯推理(Python接口)。
  • sklearn-bayes - 使用scikit-learn API进行贝叶斯机器学习的Python包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • skpro - 由艾伦·图灵研究所开发的用于概率建模的监督性领域无关预测框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • PyVarInf - 使用变分推理进行贝叶斯深度学习方法的PyTorch实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • emcee - 用于仿射不变MCMC的Python组合采样工具包。
  • hsmmlearn - 一个具有显式时间长度的隐马尔可夫模型库。
  • pyhsmm - 使用贝叶斯进行HSMM和HMM的推理。
  • GPyTorch - 在PyTorch中实现高效、模块化的高斯过程。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • sklearn-crfsuite - 一个受scikit-learn启发的CRFsuite API。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

模型解释

  • dalex - 为探索和解释模型而设计的语言。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"><img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/afe2d3ee-7895-41c5-abd3-cdc144850b0f.png" alt="R 启发/移植">
  • Shapley - 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
  • Alibi - 用于监控和解释机器学习模型的算法。
  • anchor - 为“高精度模型无关解释”论文编写的代码。
  • aequitas - 偏见和公平性审计工具包。
  • Contrastive Explanation - 对比解释(Foil Trees)。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • yellowbrick - 用于促进机器学习模型选择的视觉分析和诊断工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • scikit-plot - 一个直观的库,用于为scikit-learn对象添加绘图功能。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • shap - 用于解释任何机器学习模型输出的统一方法。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • ELI5 - 用于调试/检查机器学习分类器并解释其预测的库。
  • Lime - 用于解释任何机器学习分类器的预测。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • FairML - 一个用于审计机器学习模型偏见的Python工具箱。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • L2X - 用于复现论文《学习解释:基于信息论的模型解释》的实验代码。
  • PDPbox - 部分依赖图工具包。
  • PyCEbox - Python个体条件期望图工具箱。
  • Skater - 用于模型解释的Python库。
  • model-analysis - TensorFlow的模型分析工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • themis-ml - 一个实现公平意识机器学习算法的库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • treeinterpreter - 解释scikit-learn的决策树和随机森林预测。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • AI Explainability 360 - 数据和机器学习模型的可解释性和解释性。
  • Auralisation - 学习特征在CNN(用于音频)中的可听化。
  • CapsNet-Visualization - 可视化CapsNet层以更好地理解其工作原理。
  • lucid - 用于神经网络可解释性研究的基础设施和工具集合。
  • Netron - 深度学习和机器学习模型的可视化工具(没有Python代码,但可视化大多数Python深度学习框架的模型)。
  • FlashLight - 神经网络的可视化工具。
  • tensorboard-pytorch - PyTorch的Tensorboard(以及chainer、mxnet、numpy等)。

遗传编程

  • gplearn - 用Python实现的遗传编程。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • PyGAD - 用Python实现的遗传算法。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch"><img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/4a4e622e-0146-425a-acdb-c8694253f1c2.png" alt="keras">
  • DEAP - 用Python实现的分布式进化算法。
  • karoo_gp - 一个支持GPU的Python遗传编程平台。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • monkeys - 一个强类型的Python遗传编程框架。
  • sklearn-genetic - 用于scikit-learn的遗传特征选择模块。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

优化

  • Optuna - 超参数优化框架。
  • pymoo - Python中的多目标优化。
  • pycma - CMA-ES的Python实现。
  • Spearmint - 贝叶斯优化。
  • BoTorch - PyTorch中的贝叶斯优化。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/907d362e-c46a-4fb9-855c-75f30918ca6e.png" alt="基于/兼容PyTorch">
  • scikit-opt - 优化的启发式算法。
  • sklearn-genetic-opt - 使用进化算法进行超参数调整和特征选择。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • SMAC3 - 基于序列模型的算法配置。
  • Optunity - 包含各种超参数调优优化器的库。
  • hyperopt - Python中分布式异步超参数优化。
  • hyperopt-sklearn - sklearn的超参数优化。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • sklearn-deap - 在scikit-learn中使用进化算法代替网格搜索。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • sigopt_sklearn - 针对scikit-learn方法的SigOpt封装器。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Bayesian Optimization - 使用高斯过程的全局优化的Python实现。
  • SafeOpt - 安全的贝叶斯优化。
  • scikit-optimize - 具有scipy.optimize接口的基于序列模型的优化。
  • Solid - 用Python编写的全面的无梯度优化框架。
  • PySwarms - 用于Python的粒子群优化研究工具包。
  • Platypus - 一个用于多目标优化的免费开源Python库。
  • GPflowOpt - 使用GPflow的贝叶斯优化。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • POT - Python最优传输库。
  • Talos - Keras模型的超参数优化。
  • nlopt - 非线性优化库(全局和局部,有约束和无约束)。
  • OR-Tools - Google的开源优化软件套件;提供了统一的编程接口给半打求解器:SCIP、GLPK、GLOP、CP-SAT、CPLEX和Gurobi。

特征工程

通用

  • Featuretools - 自动化特征工程。
  • Feature Engine - 具有sklearn类似功能的特征工程包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • OpenFE - 具有专家级性能的自动化特征生成。
  • skl-groups - 一个操作基于集合/群体特征的scikit-learn插件。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Feature Forge - 创建和测试机器学习特征的一套工具。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • few - sklearn的特征工程封装库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • scikit-mdr - 兼容sklearn的基于多因子维度减少(MDR)技术的特征构造Python实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • tsfresh - 自动提取时间序列中的相关特征。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • dirty_cat - 对脏的表格格式数据进行机器学习(特别是基于字符串的分类和回归变量)。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • NitroFE - 滑动窗口特征。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • sk-transformer - 一系列兼容pandas和scikit-learn的转换器,用于各种预处理和特征工程步骤。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="兼容pandas">

特征选择

  • scikit-feature - Python中的特征选择库。
  • boruta_py - Boruta所有相关特征选择方法的实现。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • BoostARoota - 一个快速的xgboost特征选择算法。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • scikit-rebate - 兼容scikit-learn的ReBATE套件的Python实现,一组基于Relief的机器学习特征选择算法。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • zoofs - 基于进化算法的特征选择库。

可视化

通用用途

  • Matplotlib - 用Python进行绘图。
  • seaborn - 使用matplotlib进行统计数据可视化。
  • prettyplotlib - 无痛创建漂亮的matplotlib图表。
  • python-ternary - 用matplotlib进行三元绘图的库。
  • missingno - Python的缺失数据可视化模块。
  • chartify - 使数据科学家能够轻松创建图表的Python库。
  • physt - 改进的直方图。

互动图表

  • animatplot - 基于matplotlib的Python动画绘图包。
  • plotly - 一个创建互动和出版质量图表的Python库。
  • Bokeh - 用Python进行互动web绘图。
  • Altair - Python的声明式统计可视化库。可以在代码中轻松进行许多数据转换以创建图表。
  • bqplot - 适用于IPython/Jupyter笔记本的绘图库。
  • pyecharts - 从Echarts移植的交互式可视图和数据可视化库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/9b5dbdb9-9aaf-46c6-b1fa-9cf5289d4a7d.png" alt="pyecharts"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/8527b045-05d2-49df-9303-2daa9e3bdd4a.png" alt="echarts">

地图

  • folium - 使在交互式开放街道地图上可视化数据变得容易。
  • geemap - 与Google Earth Engine(GEE)进行互动映射的Python包。

自动绘图

  • HoloViews - 不要绘制数据 - 注释数据,让它自己可视化。
  • AutoViz: 用一行代码自动可视化数据(适用于机器学习)。
  • SweetViz: 用一行代码可视化和比较数据集、目标值和关联。

自然语言处理(NLP)

  • pyLDAvis: 交互式主题模型的可视化。

部署

  • fastapi - 现代、高效(高性能)的web框架,用于构建Python API。
  • streamlit - 使部署机器学习模型变得容易。
  • streamsync - 前端无代码,后端Python。一个用于创建数据应用程序的开源框架。
  • gradio - 用Python在3分钟内为你的机器学习模型创建用户界面。
  • Vizro - 一个用于创建模块化数据可视化应用程序的工具包。
  • datapane - 一组API,将脚本和笔记本转换为交互式报告。
  • binder - 启用共享和执行Jupyter笔记本。

统计

  • pandas_summary - pandas数据框架描述函数的扩展。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • Pandas Profiling - 从pandas DataFrame对象创建HTML概要报告。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • statsmodels - Python中的统计建模和计量经济学。
  • stockstats - 提供一个基于pandas.DataFrameStockDataFrame包装器,支持内联股票统计/指标。
  • weightedcalcs - 一个基于pandas的工具,用于计算加权平均值、中位数、分布、标准差等。
  • scikit-posthocs - 成对多重比较事后检验。
  • Alphalens - 预测(alpha)股票因子的表现分析。

数据处理

数据框架

  • pandas - 强大的Python数据分析工具包。
  • polars - 一个快速多线程、混合外存的数据框架库。
  • Arctic - 高性能时间序列和交易数据存储库。
  • datatable - Python的数据表。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/afe2d3ee-7895-41c5-abd3-cdc144850b0f.png" alt="R inspired/ported lib">
  • pandas_profiling - 从pandas DataFrame对象创建HTML概要报告
  • cuDF - GPU数据框架库。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/98eb3a49-1d3b-4227-9e3a-e4fdadec589e.png" alt="GPU accelerated">
  • blaze - 面向大数据的NumPy和pandas接口。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • pandasql - 允许你使用SQL语法查询pandas DataFrame。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • pandas-gbq - pandas谷歌大查询。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • xpandas - 阿兰·图灵研究所开发的通用1d/2d数据容器,具有用于数据分析的转换功能。
  • pysparkling - 一个纯Python实现的Apache Spark的RDD和DStream接口。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/ea51f2b0-c9c7-4e2c-b071-515e63479fa3.png" alt="Apache Spark based">
  • modin - 通过更改一行代码来加速你的pandas工作流。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • swifter - 一个高效地以最快的方式将任何函数应用于pandas数据框或序列的包。
  • pandas-log - 一个允许对基本pandas操作提供反馈的包,并查找业务逻辑和性能问题。
  • vaex - 针对Python的外存数据框架,能够每秒可视化和探索十亿行大数据。
  • xarray - Xarray结合了NumPy和pandas的最佳特性,用于多维数据选择,通过命名维度来补充数字轴标签,使索引例程更直观、简洁、错误更少。

流水线

  • pdpipe - pandas数据框架的简单流水线。
  • SSPipe - 支持数据框和Numpy、Pytorch的Python管道(|)操作符。
  • pandas-ply - pandas的函数式数据操作。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • Dplython - Python版的Dplyr。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/afe2d3ee-7895-41c5-abd3-cdc144850b0f.png" alt="R inspired/ported lib">
  • sklearn-pandas - pandas与sklearn的集成。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn"> <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • Dataset - 帮助你方便地处理你的数据的随机或顺序批次并定义数据处理。
  • pyjanitor - 用于数据清理的干净API。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • meza - 一个处理表格数据的Python工具包。
  • Prodmodel - 数据科学流水线的构建系统。
  • dopanda - 针对在分析环境中使用pandas的提示和技巧。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • Hamilton - 一个适用于数据框生成的小框架,通过惰性评估的Python函数流来应用有向无环图。

数据中心AI

  • cleanlab - 在处理混乱的现实世界数据和标签时用作数据质量和机器学习的标准数据中心AI包。
  • snorkel - 一种快速生成具有弱监督的训练数据的系统。
  • dataprep - 用几行代码在Python中收集、清理和可视化数据。

合成数据

  • ydata-synthetic - 一个利用最先进的生成模型生成合成表格和时间序列数据的软件包。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">

分布式计算

  • Horovod - 用于TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/5a540ac3-7b11-41fa-af4d-f5165fe75416.png" alt="sklearn">
  • PySpark - 将Spark编程模型暴露给Python。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/ea51f2b0-c9c7-4e2c-b071-515e63479fa3.png" alt="Apache Spark based">
  • Veles - 分布式机器学习平台。
  • Jubatus - 分布式在线机器学习的框架和库。
  • DMTK - 微软分布式机器学习工具包。
  • PaddlePaddle - 并行分布式深度学习。
  • dask-ml - 分布式和并行机器学习。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • Distributed - Python中的分布式计算。

实验

  • mlflow - 开源的机器学习生命周期平台。
  • Neptune - 一个轻量级的ML实验追踪、结果可视化和管理工具。
  • dvc - 数据版本控制 | 数据和模型的Git | ML实验管理。
  • envd - 🏕️ 用于数据科学和AI/ML工程团队的机器学习开发环境。
  • Sacred - 一个帮助你配置、组织、记录和重现实验的工具。
  • Ax - 自适应实验平台。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">

数据验证

  • great_expectations - 随时了解你的数据的预期。
  • pandera - 一个轻量级、灵活且富有表达力的统计数据测试库。
  • deepchecks - 在模型开发、部署和生产期间进行ML模型和数据的验证和测试。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • evidently - 从验证到生产评估和监控ML模型。
  • TensorFlow Data Validation - 探索和验证机器学习数据的库。

评估

  • recmetrics - 用于评估推荐系统的有用指标和图表库。
  • Metrics - 机器学习评估指标。
  • sklearn-evaluation - 使模型评估变得容易:图表、表格和Markdown报告。<img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/634aeff0-1b79-4642-beb6-65ee2bde930e.png" alt="sklearn">
  • AI Fairness 360 - 为数据集和ML模型提供公平性指标、解释以及减轻数据集和模型中的偏见的算法。

计算

  • numpy - Python 科学计算所需的基础包。
  • Dask - 任务调度的并行计算。 <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • bottleneck - 使用 C 语言编写的快速 NumPy 数组函数。
  • CuPy - 类似于 NumPy 的 API,被 CUDA 加速。
  • scikit-tensor - 用于多线性代数和张量分解的 Python 库。
  • numdifftools - 解决一变量或多变量的自动数值微分问题。
  • quaternion - 为 numpy 添加内置的四元数支持。
  • adaptive - 用于自适应和并行采样数学函数的工具。
  • NumExpr - 一个快速的 NumPy 数值表达式求值器,带有集成的计算虚拟机,通过避免中间结果的内存分配来加速计算。

网络爬虫

  • BeautifulSoup: 初学者最易用的静态网站爬取库
  • Scrapy: 快速且可扩展的爬虫库。可以编写规则和创建自定义爬虫而无需触及核心
  • Selenium: 使用 Selenium Python API 以直观的方式访问 Selenium WebDriver 的所有功能,像真实用户一样操作。
  • Pattern: 针对如 Google、Twitter 和 Wikipedia 等知名网站的高级爬取。同时具有 NLP、机器学习算法和可视化功能
  • twitterscraper: 高效的 Twitter 抓取库

空间分析

  • GeoPandas - 地理数据的 Python 工具。 <img height="20" src="https://yellow-cdn.veclightyear.com/35dd4d3f/81a13354-ae89-4245-b76a-cf749890cc08.png" alt="pandas compatible">
  • PySal - Python 空间分析库。

量子计算

  • qiskit - Qiskit 是一个用于电路、算法及应用模块的量子计算开放源码 SDK。
  • cirq - 用于创建、编辑和调用噪声中等规模量子(NISQ)电路的 Python 框架。
  • PennyLane - 量子机器学习、自动微分和混合量子-经典计算的优化。
  • QML - 一个用于量子机器学习的 Python 工具包。

转换

  • sklearn-porter - 将已训练的 scikit-learn 估计器转译为 C、Java、JavaScript 等。
  • ONNX - 开放神经网络交换。
  • MMdnn - 一组用于帮助用户在不同的深度学习框架之间互操作的工具。
  • treelite - 决策树森林的通用模型交换和序列化格式。

贡献

欢迎贡献!:sunglasses: </br> 阅读 <a href=https://github.com/krzjoa/awesome-python-datascience/blob/master/CONTRIBUTING.md>贡献指南</a>

许可证

本作品采用知识共享署名 4.0 国际许可证 - CC BY 4.0进行许可。

编辑推荐精选

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多