神经网络基础

13 Jan 2019 | deep-learning |

没有激活函数相当于矩阵相乘，多层和一层一样，只能拟合线性函数

如果一个隐层包含足够多的神经元，三层前馈神经网络（输入-隐层 -输出）能以任意精度逼近任意预定的连续函数。

当隐层足够宽时，双隐层感知器（输入-隐层1-隐层2-输出）可以逼近任意非连续函数：可以解决任何复杂的分类问题。

神经网络学习如何利用矩阵的线性变换加激活函数的非线性变换，将原始输入空间投影到线性可分的空间去分类/回归。增加节点数：增加维度，即增加线性转换能力。增加层数：增加激活函数的次数，即增加非线性转换次数

在神经元总数相当的情况下，增加网络深度可以比增加宽度带来更强的网络表示能力：产生更多的线性区域

矩阵变换时，只有尺度变换而没有方向变换的向量就是它的特征向量

线性方程组的角度：度量矩阵行列之间的相关性

数据点分布的角度：表示数据需要的最小的基的数量

欠拟合：训练集的一般性质尚未被学习器学好. (在训练集上误差都还很大)

欠拟合解决办法：增加网络层数、每层节点数、训练周期
过拟合：学习器把训练集特点当做样本的一般特点. (在训练集上误差很小了，但是在测试集上误差还是很大)

过拟合解决办法：dropout、early stop、regularization

Related Posts...