<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/4289d937-ca2d-4b88-a4da-94ae9ec02d36.PNG"> <h1 align="center">深度学习和机器学习用于股票预测</h1>

描述：这是一项使用深度学习（DL）和机器学习（ML）技术对股票进行的全面研究和分析。机器学习和深度学习都属于人工智能（AI）的一种。目标是通过采用各种机器学习和深度学习算法来预测股票行为。重点是对股票数据进行实验，以了解某些方法为何有效以及识别其潜在局限性的原因。在机器学习和深度学习的背景下探索不同的股票策略。利用这些AI技术进行技术分析和基本面分析来预测未来股票价格，包括长期和短期预测。

机器学习是人工智能的一个分支，涉及开发能够通过处理结构化数据自动适应和生成输出的算法。另一方面，深度学习是机器学习的一个子集，它使用类似的算法但增加了额外的复杂层，使数据能够进行不同的解释。深度学习中使用的算法网络被称为人工神经网络，它模仿人脑神经通路的互连性。

深度学习和机器学习是革新AI领域的强大方法。理解这些技术的基础知识和常用算法对于有抱负的数据科学家和AI爱好者来说至关重要。回归作为预测建模中的基本概念，在分析和预测连续变量方面起着关键作用。通过利用这些算法和技术的能力，我们可以在各个领域释放令人难以置信的潜力，从而推动众多行业的进步和改进。

机器学习步骤

收集/聚集数据。
准备数据 - 加载数据并为机器学习训练做准备。
选择模型。
训练模型。
评估模型。
参数调优。
进行预测。

深度学习模型步骤

定义模型。
编译模型。
用训练数据集拟合模型。
进行预测。

<h3 align="left">编程语言和工具：</h3> <p align="left"> </a> <a href="https://www.python.org" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/6b67c3a2-e1fa-4a55-b709-c1b37f8d47f3.svg" alt="python" width="50" height="50"/> </a> <a href="https://nteract.io/" target="_blank"> <img src="https://avatars.githubusercontent.com/u/12401040?s=200&v=4" alt="Nteract" width="50" height="50"/> </a> <a href="https://anaconda.org/" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/5795ad4f-cb75-4b78-9304-957b83b0e655.png" alt="Anaconda" width="50" height="50"/> </a> <a href="https://www.spyder-ide.org/" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c1ba68fe-23c3-4890-aca3-f4b568b1a5c8.png" alt="Spyder" width="50" height="50"/> </a> <a href="https://jupyter.org/" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/fda3c2af-18f6-48ba-b8d2-10bbf2aeab8d.svg" alt="Jupyter Notebook" width="50" height="50"/> </a> <a href="https://notepad-plus-plus.org/" target="_blank"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/432a11fb-1ef4-4a81-bb4b-23c048631aa7.png" alt="Notepad++" width="50" height="50"/> </a> </p>

三种主要的数据类型：分类变量、离散变量和连续变量

分类变量（定性变量）：标签数据或不同的组别。例如：位置、性别、材料类型、支付方式、最高学历
离散变量（类别数据）：数值变量，但数据在任意两个值之间有可数的数值。例如：客户投诉数量、缺陷数量、每户家庭的子女数量、年龄（年数）
连续变量（定量变量）：在任意两个值之间有无限个数值的数值变量。例如：零件长度、收到付款的日期和时间、跑步距离、年龄（无限精确且使用无限小数位）

数据使用

"定量数据"可用于所有三种中心测度（平均值、中位数和众数）和所有离散度量。
"类别数据"可用于中位数和众数。
"定性数据"仅用于众数。

两种问题类型：

分类（预测标签）
回归（预测数值）

偏差-方差权衡

偏差

偏差是实际值与预测值之间的差异。
偏差是我们的模型对数据做出的简单假设，以便预测新数据。
模型为了使函数更容易学习而做出的假设。

方差

方差与偏差相反。
方差是模型预测对给定数据点的变异性，或者说是告诉我们数据分散程度的值。
如果你在训练数据上训练你的模型并获得了很低的误差，当改变数据后再次训练相同的模型。

过拟合、欠拟合和偏差-方差权衡

过拟合是指模型记住了噪声并过于贴近训练集。良好拟合是指模型学习了训练数据集并能很好地泛化到新的数据集。欠拟合是指模型无法建立数据中的主要趋势；结果导致训练误差增加和模型性能不佳。

过拟合:

过拟合模型是一个在训练数据上表现良好的模型，能够拟合或者接近每个观测值;然而，这个模型抓错了重点，捕捉到了随机噪声。该模型具有低训练误差和高交叉验证误差，低样本内误差和高样本外误差，以及高方差。

高训练准确率
低测试准确率

避免过拟合:

提前停止 - 在模型开始学习噪声之前停止训练。
增加训练数据 - 添加更多数据将提高模型的准确性或帮助算法更好地检测信号。
数据增强 - 在训练数据中添加干净和相关的数据。
特征选择 - 使用数据中的重要特征。移除特征。
正则化 - 使用诸如L1正则化、Lasso正则化和dropout等正则化方法来减少特征。
集成方法 - 结合多个独立模型的预测，如bagging和boosting。
增加训练数据。

良好拟合:

高训练准确率
高测试准确率

欠拟合:

欠拟合模型不够完善，因此无法捕捉数据的潜在逻辑。因此，该模型没有强大的预测能力，准确率低。该模型具有大的训练集误差，大的样本内误差，以及高偏差。

低训练准确率
低测试准确率

避免欠拟合:

减少正则化 - 通过对具有较大系数的输入参数施加惩罚来降低模型的方差，如L1正则化、Lasso正则化、dropout等。
延长训练时间 - 延长训练时间，因为过早停止训练会导致模型欠拟合。
特征选择 - 如果没有足够的预测特征，那么添加更多特征或更重要的特征将改善模型。
增加特征数量 - 进行特征工程
移除数据中的噪声

Python 回顾

第1步到第8步是对Python的回顾。第8步之后，你需要知道的所有内容都与数据分析、数据工程、数据科学、机器学习和深度学习有关。这里是Python教程的链接：股票分析Python教程

股票交易机器学习算法列表

最常见的回归算法

线性回归模型
逻辑回归
Lasso回归
支持向量机
多项式回归
逐步回归
岭回归
多变量回归算法
多元回归算法
K均值聚类算法
朴素贝叶斯分类器算法
随机森林
决策树
最近邻
Lasso回归
ElasticNet回归
强化学习
人工智能
多模态网络
生物智能

不同类型的机器学习算法和模型

算法是用于解决一类问题的过程和指令集。此外，算法执行计算，如计算、数据处理、自动推理和其他任务。机器学习算法是一种使系统能够从经验中自动学习和改进的方法，无需显式编程。

先决条件

Python 3.5+ Jupyter Notebook Python 3 Windows 7 或 Windows 10

下载软件

https://www.python.org/

作者

Tin Hang

免责声明

🔻 请勿使用此代码进行股票市场投资或交易。然而，如果你对股票市场感兴趣，你应该阅读与股票市场、投资或金融相关的:books:书籍。另一方面，如果你对量化或机器学习感兴趣，可以阅读有关📘机器交易、算法交易和量化交易的书籍。你应该阅读有关📗机器学习和深度学习的书籍，以理解其概念、理论和数学原理。此外，你还应该阅读学术论文，并在:computer:上对机器学习和深度学习进行在线研究。