深度学习(花书)第二章

1 线性代数

1.1 基本概念

  • 标量(scalar):一个数。
  • 向量(vector):一列有序的数。例,$\bm{x}\in \mathbb{R}^2$
  • 矩阵(matric):一个二维数组。例,$\bm{A}\in \mathbb{R}^{m \times n}$
  • 张量(tensor):多维数组。由于很多时候处理的数据都是超过二维的数组,所以才有tensor表示多维的数组,标量可看做零维张量,向量为一维张量,矩阵为二维张量。

1.2 基本运算

  • 矩阵转置、矩阵与矩阵相乘、矩阵与向量相乘、标量与矩阵相乘
  • 单位矩阵 $I$ 与逆矩阵 $A^{-1}$

    • $AA^{-1}=I$
  • 线性相关性

    • $x_i$ 线性无关$\iff \sum{k_ix_i}=0$时$k_i$全为零$\iff$任意一个向量都不能表示为其他向量的线性组合,即没有冗余
  • 生成子空间(span),原始向量线性组合后能够得到的点的集合

1.3 奇异与非奇异

方阵的行向量或列向量线性无关(满秩)则是非奇异的,反之为奇异的。非奇异矩阵的行列式不为零$\vert A\vert \not = 0$,存在逆矩阵,可以用逆矩阵求解线性方程组$Ax=b$

1.4 范数

衡量向量的大小,$L^p$范数定义为

常使用$L^1$和$L^2$范数,还有一种最大范数$L^\infty$,定义为

衡量矩阵的大小使用Frobenius范数

向量点积

1.5 特殊矩阵

  • 对角矩阵,除主对角外都是零
  • 对阵矩阵,$A^T=A$,实对称矩阵的性质

    • n个线性无关的特征向量
    • 不同特征值的特征向量正交
  • 正交矩阵,$A^TA=AA^T=I$,$A^{-1}=A^T$

1.6 特征值分解

类比将整数分解为质因数,可以从中获取有用的信息,矩阵也可以分解,实对称矩阵可以分解为$A=Q\Lambda Q^T$,$Q$为A的特征向量组成的正交矩阵,$\Lambda$为对角阵

1.7 奇异值分解

$A=UDV^{-1}$,$U$的列向量称为左奇异向量,是$AA^T$的特征向量;$V$的列向量称为右奇异向量,是$A^TA$的特征向量

1.8 伪逆

通常意义上的逆矩阵只有在当A为n阶方阵,并且行列式不为0时才存在,但是有时候条件不能达到,所以将条件做一些放松,使得能够推广到不可逆的矩阵或者长方的矩阵上。

其中$U、D、V$是矩阵A奇异值分解后得到的矩阵

1.9 迹运算

即对角元素的和,$Tr(A)=\sumi{A{i,i}}$

使用迹得到了一种描述Frobenius范数的形式