吴恩达机器学习笔记

7/5/2026

Introduction

ICA, FastICA, 鸡尾酒会问题

线性回归

梯度下降

weights的各项要同时update
一维的情况下，梯度就是导数，函数变小最快的方向就是梯度的反方向
特征归一化 , 可以加快收敛速度，也能避免由于精度问题导致梯度消失
- $x_i/max(x)$ , 结果范围在 (-1, 1)
- $(x_i - means)/max(x)$ ,结果范围在 (-0.5, 0.5)
- $(x_i - means) / (max - min)$
- $(x_i - means) / \sqrt{variance}$
learning rate取值范围设 $y = x^2$ , 则 $\nabla{y} = 2x$ , $x = x - \alpha\nabla{y} = x - 2\alpha x = x(1 - 2\alpha)$ 由于要收敛，所以 $-1 < 1 - 2\alpha < 1$ $0 < \alpha < 1$

Normal Equation

$Y = XW$ $X^TY = X^TXW$ $W = (X^TX)^{-1}X^TY$ 若 $X^TX$ 不可逆，则求它的伪逆

Logistic

在特征特别多的时候，例如一张图片，要拟合非线性情况，需要将多个特征组合，将产生百万级的参数，计算成本太高。

其他优化

牛顿法

hessian矩阵的计算: https://zhuanlan.zhihu.com/p/63305895

Conjugate Gradient, 共轭梯度法
BFGS
L-BFGS

过拟合

特征过多，训练集太小，就有可能产生过拟合
过拟合的时候高方差? (这里的方差指的是用不同训练集训练出来的结果的方差) https://www.zhihu.com/question/27068705/answer/1689740820
正则化也可以应用在normal equation中，改成 $W = (X^TX + \lambda A)^{-1}X^TY$ 其中 $A =\left[\begin{matrix} 0 & 0 & 0 & ... & 0 \\ 0 & 1 & 0 & ... & 0 \\ 0 & 0 & 1 & ... & 0 \\ ... \\ 0 & 0 & 0 & ... & 1 \\ \end{matrix} \right]$

神经网络

神经网络的损失函数一般都是非凸的，如何证明?

反向传播推导

loss function: $J(\theta) = \frac{1}{m}\sum_{i=1}^m\sum_{k=1}^K[-y_k^{(i)}log(a_k^{(i)}) - (1 - y_k^{(i)}log(1 - a_k^{(i)}]$

where $a = sigmoid(z) = g(z) = \frac{1}{1 + e^{-z}}$

we know that $g^{'}(z) = g(z)(1 - g(z))$

where $z^{(l + 1)} = (\theta^{(l)})^Ta^{(l)} = (\theta^{(l)})^Tg(z^{(l)})$

So, for the last layer, let $\delta^{(l + 1)} = \frac{\partial J}{\partial z^{(l + 1)}} = \frac{\partial J}{\partial a^{(l + 1)}}\cdot \frac{\partial a^{(l + 1)}}{\partial z^{(l + 1)}} = (-\frac{y^{(l + 1)}}{a^{(l + 1)}} + \frac{1 - y^{(l + 1)}}{1 - a^{(l + 1)}}) \cdot (a^{(l + 1)}(1 - a^{(l + 1)})) = a^{(l + 1)} - y^{(l + 1)}$

then, $\frac{\partial J}{\partial \theta^{(l)}} = \frac{\partial J}{\partial z^{(l + 1)}} \cdot \frac{\partial z^{(l + 1)}}{\partial a^{(l)}} = (a^{(l + 1)} - y^{(l + 1)})a^{(l)}$

for previous layer, $\delta^{(l)} = \frac{\partial J}{\partial z^{(l)}} = \frac{\partial J}{\partial z^{(l + 1)}} \cdot \frac{\partial z^{(l + 1)}}{\partial z^{(l)}} = \delta^{(l + 1)}(\theta^{(l)})^Tg^{'}(z^{(l)})$

then, $\frac{\partial J}{\partial \theta^{(l - 1)}} = \frac{\partial J}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial a^{(l - 1)}} = \delta^{(l)}a^{(l - 1)}$

梯度检测

$gradient \approx \frac{J(\theta + \epsilon) - J(\theta - \epsilon)}{2\epsilon}$

随机初始化

若初始值设置为0，则 $w_{01} = w_{02}$ 永远成立，因为后面的更新时，梯度一样，学习率也一样
可以初始化为 $-\epsilon < w < \epsilon$

模型评估

将60%数据用于training set, 20%用于cross validation set, 20%用于test set
训练n个模型，用在validation set上，选择错误率最低的那个
最后，将选择的模型用于test set上看一下准确率
高偏差: 数据集增大，错误率变化不大，校验错误率和训练错误率比较接近
高方差: 数据集增大，训练错误率慢慢增大，校验错误率真慢慢减小，但是两者相距较远
porter steammer, Porter stemmer 并不是要把单词变为规范的那种原来的样子，它只是把很多基于这个单词的变种变为某一种形式
schewed classes: 在训练集中，99%的数据是正例，只有1%的数据是负例

精确度Precision和召回率Recall

Predicted \ Actual	1	0
1	True positive	False positive
0	False negative	True negative

精确度: 在我预测为猫的结果中，有多少比例真的是猫

$precision = \frac{True\ positive}{True\ positive + False\ positive}$

召开率: 在所有真的是猫的样例中，有多少我预测对了 $recall = \frac{True\ positive}{True\ positive + False\ negative}$
higher precision lower recall和higher recall lower precision之间要做一个tradeoff
F1 score P为precision, R为recall $F_1 = \frac{2}{\frac{1}{P} + \frac{1}{R}} = \frac{2PR}{P + R}$ 其实是调和平均数
specificity(不冤枉一个正常人) $specificity = True\ negative\ rate = \frac{True\ negative}{True\ negative + False\ positive}$
sensitivity(不放过一个病人) $sensitivity = True\ positive \ rate = \frac{True\ positive}{True\ positive + False\ negative}$

sensitivity = recall

balanced accuracy

$balanced\ accuracy = \frac{sensitivity + specificity}{2}$

支持向量机

Mercer 定理：任何半正定的函数都可以作为核函数

对于任意不为0的向量 $x$ ，有 $x^TAx >= 0$ , 则 $A$ 是半正定矩阵。

如果特征比训练集多，建议使用logistic或者linear kernel的SVM
如果特征少，训练集中等，建议使用高斯核的SVM
如果特征少，训练集非常大，建议使用logistic或者linear kernel的SVM
欧氏空间: 定义了距离，范数的线性空间
希伯尔特空间: 欧氏空间之上定义了内积， https://zhuanlan.zhihu.com/p/113197869

Kmeans

随机初始化。可以随机初始化100次，然后挑损失最小的那个
选择k值, Elbow method: 尝试不同的k值，选择第一个损失大幅减小的k

PCA

协方差矩阵一定是正定的
PCA做的事情就是从一个n维空间找到一个k维超平面，所有的点都投影到这个超平面上，这些投影组成的新空间，用于训练
要先均值归0，因为协方差矩阵的计算，就是 $Cov(X, Y) = E((X - E(X))(Y - E(Y)) = \frac{1}{n - 1}\sum_{i=1}^n(x_i - \overline x)(y_i - \overline y)$ 所以均值归0后，可以通过 $\Sigma = XX^T$ 直接计算出协方差矩阵。

奇异值分解的过程:

$A = U \Sigma V^T$

求 $AA^T$ 的特征向量，单位化后，构成U
求 $A^TA$ 的特征向量，单位化后，构成V
求 $AA^T$ 或 $A^TA$ 的特征值，开根号后，构成 $\Sigma$

变换

$Z = XU$

Reconstruction

从k维转回n维 $Z = XU$ $X_approx = ZU^T = XUU^T$

异常检测

直接假设数据服从高斯分布，通过样本估计出均值和方差，这样，任给一个样例，就可以估计出来它的概率，当概率小于某个阈值时，认为是异常点
当正例太少，负例很多时，一般使用异常检测方法
当数据不服从高斯分布时，可以通过 $x = log(x)$ , $x = x^{0.1}$ 之类的方法转换
当特征之间几乎不相关时，用一元高斯分布的乘积来检测
当特征之间相关时，用多元高斯分布

在线学习

实时流处理，每来一条数据，直接用来训练，更新参数，类似随机梯度下降

机器学习pipeline

OCR步骤: 文本检测 --> 文字分割 --> 文本识别
滑动窗口: 用于目标检测，用一个窗口从图片左上角不断滑动，标注出来检测到的地方
文字分割: 通过滑动窗口，截取一块一块，每一块送给一个分类器，判断能否从中间分割开
人脸识别里面检测人脸，眼睛也是通过滑动窗口