深度学习(花书)第二章
1 线性代数
1.1 基本概念
- 标量(scalar):一个数。
- 向量(vector):一列有序的数。例,$\bm{x}\in \mathbb{R}^2$
- 矩阵(matric):一个二维数组。例,$\bm{A}\in \mathbb{R}^{m \times n}$
- 张量(tensor):多维数组。由于很多时候处理的数据都是超过二维的数组,所以才有tensor表示多维的数组,标量可看做零维张量,向量为一维张量,矩阵为二维张量。
1.2 基本运算
- 矩阵转置、矩阵与矩阵相乘、矩阵与向量相乘、标量与矩阵相乘
单位矩阵 $I$ 与逆矩阵 $A^{-1}$
- $AA^{-1}=I$
线性相关性
- $x_i$ 线性无关$\iff \sum{k_ix_i}=0$时$k_i$全为零$\iff$任意一个向量都不能表示为其他向量的线性组合,即没有冗余
生成子空间(span),原始向量线性组合后能够得到的点的集合
1.3 奇异与非奇异
方阵的行向量或列向量线性无关(满秩)则是非奇异的,反之为奇异的。非奇异矩阵的行列式不为零$\vert A\vert \not = 0$,存在逆矩阵,可以用逆矩阵求解线性方程组$Ax=b$
1.4 范数
衡量向量的大小,$L^p$范数定义为
常使用$L^1$和$L^2$范数,还有一种最大范数$L^\infty$,定义为
衡量矩阵的大小使用Frobenius范数
向量点积
1.5 特殊矩阵
- 对角矩阵,除主对角外都是零
对阵矩阵,$A^T=A$,实对称矩阵的性质
- n个线性无关的特征向量
- 不同特征值的特征向量正交
正交矩阵,$A^TA=AA^T=I$,$A^{-1}=A^T$
1.6 特征值分解
类比将整数分解为质因数,可以从中获取有用的信息,矩阵也可以分解,实对称矩阵可以分解为$A=Q\Lambda Q^T$,$Q$为A的特征向量组成的正交矩阵,$\Lambda$为对角阵
1.7 奇异值分解
$A=UDV^{-1}$,$U$的列向量称为左奇异向量,是$AA^T$的特征向量;$V$的列向量称为右奇异向量,是$A^TA$的特征向量
1.8 伪逆
通常意义上的逆矩阵只有在当A为n阶方阵,并且行列式不为0时才存在,但是有时候条件不能达到,所以将条件做一些放松,使得能够推广到不可逆的矩阵或者长方的矩阵上。
其中$U、D、V$是矩阵A奇异值分解后得到的矩阵
1.9 迹运算
即对角元素的和,$Tr(A)=\sumi{A{i,i}}$
使用迹得到了一种描述Frobenius范数的形式