机器学习数学基础之矩阵理论(二)

         目录

一、线性空间

1.    线性空间的概念

(1) 线性空间的定义

(2) 线性空间的本质

2.    线性空间的基

(1) 线性表示

(2) 线性相关

(3) 线性无关

(4) 线性空间基的定义

(5) 坐标

3.   线性空间的范数

(1) 范数的定义

(2) 赋范线性空间中的距离

(3) 欧几里得范数

(4) Lp范数

(5) Frobenius范数,矩阵中常用的范数

二、  矩阵分解

1.   方阵的正交分解

(1) 特征值和特征向量的定义

(2) 特征值:

(3) 特征向量:

(4) 矩阵分解

(5) 特征向量与其特征值之间的关系

2.   正交分解

(1) 正交矩阵

(2)  标准正交基

(3)  正交矩阵的性质

(4)  正交分解

3.   矩阵的奇异值分解(SVD)

(1) 非退化方阵的SVD

(2) 一般矩阵的SVD

(3) 伪逆(Moor-Penrose)

(4) 不相容线性方程组的解

(5)  定理

4.   主成分分析(PCA)

 

一、线性空间

1. 线性空间的概念

(1)  线性空间的定义

  设V是一个非空集合,R为实数域。如果对于任意两个元素 ??,??∈??,总有唯一的元素 ??∈??与之对应,成为 ??和??的和(和的运算法则可以任意定义),记为 ??=??+??;

  又对于任一实数λ∈??和任一元素??∈??,总有唯一的元素??∈??与之对应,称为λ与??的积(积的运算法则可以任意定义),记作 ??=λ??;

  并且这两种运算满足以下八条规:

  (设??,??,??∈??,λ,??∈??)

  (i)  ??+??=??+??

  (ii) (??+??)+??=??+(??+??)

  (iii) V中存在零元素????,对任意的????,都有??+??=??

  (iv对于任何的????,都有??的负元素??,使得??+??=??

  (v  1??=??

  (viλ(????)=(λμ)??

  (vii (λ+??)??=λα+????

  (viii)λ(??+??)=λα+λ??

  那么,集合V就称为(实数域上的)线性空间或向量。

  满足上述八条性质的加法和数乘运算叫做线性运算。

(2) 线性空间的本质:

  在数学上其实就是一个集合,线性集合,只要满足

  对于任意的??????λ,????,都有λα+??????

    即,加法和数乘都是封闭的,都称为线性空间

2. 线性空间的基

(1) 线性表示

  ??1,??2,,???? ??∈??,若存在一组实数??1,??2,,????∈??,满足??1??1+??2??2+?+????????=??

  则称??可以由??1,??2,,????线性表示。

(2) 线性相关

  ??1,??2,,????∈??,若存在一组不全为0的实数??1,??2,,????,满足??1??1+??2??2+?+????????=0

  则??1,??2,,????线性相关。

  诠释:

    1)线性相关,说明至少存在一个向量可以被其余的向量线性表示。

    2)使用线性方程组来说明,就是至少有一个方程是无用的,即至少有一个向量是废的,无用的。

(3)  线性无关

  ??1,??2,,????∈??,若满足??1??1+??2??2+?+????????=0且必有??1=??2==????=0

  则??1,??2,,????线性无关。

  诠释:

    1)方程组中每一个方程都是有用的,都是方程组的本质。

(4) 线性空间基的定义

  在线性空间V中,如果存在n个元素??1,??2,,????,满足:

  (i) ??1,??2,,????线性无关

  (ii) V中任一元素??都可以由??1,??2,,????线性表示

      那么,??1,??2,,????称为线性空间V的一个基,n(基的个数)称为线性空间V的维数。

     空间V称为由基??1,??2,,????张成的线性空间,记作V =span{??1,??2,,????}。

  1)   本质

    基的本质就是指基是本质的、消不掉的、基础的东西,可以由此刻画出线性空间中其他所有元素,研究线性空间,研究构成这线性空间的基就可以了。

  2)   基的性质

    线性空间V中的任意元素x,都可以由该线性空间的基线性表示:

    V = { x|x=??1??1+??2??2+?+???????? },????为任意实数,??=1,2,…,??

(5)  坐标

  1)定义

    若V是一个线性空间,{??1,??2,,????}是线性空间V的一组基,对于??∈??,如果有 ??=??1??1+??2??2+?+????????,那么由系数所构成的 n维实向量(??1,??2,…,????)称为??在基{??1,??2,,????}下的    

   坐标。因此,线性空间的元素也称为向量,线性空间也称为向量空间。

  2)本质

   在基下的坐标,也就解释了为什么使用坐标可以表示空间中任意一个元素了,如二维坐标中,使用坐标(x,y)可以表示二维空间中任意一个数值。

 3. 线性空间的范数

  范数也称为模

(1)范数的定义

  在线性空间V中定义一种运算||.||:??→??,对于任意的??,??∈??,??∈??,满足如下性质:

  (i) || ??||≥ 0,即若 ||??|| = 0 等价于 ?? = ??(零向量)

  (ii) 膨胀性:||????|| = ||??|| ||??||

  (iii) 三角不等式: ||??+??|| ≤ ||??|| + ||??||

  则称||.||这种运算为线性空间V的一个范数,称V为赋范线性空间。

(2)赋范线性空间中的距离

  赋范线性空间中的元素??,??∈??,定义||?????||为??,??之间的距离。(即长度,也在这个线性空间中)

(3)欧几里得范数

  在n维向量空间????中,对于任意向量x = (??1,??2,…,????)∈????, 则欧几里得范数:      

   

(4)Lp范数

  在实数空间????内,但1≤??<∞时,Lp范数定义为:

 

  当??=∞时,????空间的??∞范数定义为 :

(5) Frobenius范数,矩阵中常用的范数

 

 

二、矩阵分解

1. 方阵的正交分解

(1)  特征值和特征向量的定义

  设 An×n,如果有数 和n维非零列向量??,使得

  则称 为A的特征值,非零列向量??为A的对应与特征值 的特征向量。

  注意:

    1)  A是方阵,方阵才有特征值和特征向量

    2)  特征向量??是非零列向量

    3)  属于特征值 的特征向量不唯一,有无数个

    4)  但一个特征向量只能属于一个特征值

(2)  特征值:

  λ??是关于λ的多项式|???λ????|=0的根,记作λ12,…,λ??

(3) 特征向量:

  属于λ??的特征向量是线性方程组 (???λ??????)x=0的解。

(4) 矩阵分解

  设{????1,????2,…,??????}是方程组(???λ??????)x=0的解空间的基(特征向量),定义一个矩阵:

     ????×?? = [??11,??12,…,??1??,??21,??22,…]??×??

     那么可以把矩阵A分解成如下形式:

   

  称这样的分解为特征分解(或者称为相似对角化)。

  本质:

    1) A可表示为:基(base)*特征值(feature) (联想到了PCA)

    2) A的特征分解可表征其特征向量与其特征值之间的关系

 

 2.  正交分解

(1)  正交矩阵

  定义:满足 ??????=????(即???1=????)的n阶方阵

(2)  标准正交基

  定义:n个n维向量{??1,??2,…,????}∈????,满足一下性质

 

  则称{??1,??2,…,????}∈????为一组标准正交基。

  几何意义:向量跟自己平行(长度),而与其他都垂直,例如二维空间的坐标。

  性质:[??1,??2,…,????]为n阶交正矩阵,则{??1,??2,…,???? ∈???? } 为一组标准正交基,反之也成立。

(3)  正交矩阵的性质

 

(4) 正交分解

  若n阶方阵A可进行特征分解,即存在n阶可逆矩阵P,使得

    ???1???? = ????????(λ12,…,λ??)

  其中????为??的特征值, ????×?? = [??11,??12,…,??1??,??21,??22,…]??×??列向量为????对应的特征向量。

  那么,一定存在:

  另一组属于????的特征向量Q=[??11,??12,…,??1??,??21,??22,…],满足向量组{ ??11,??12,…,??1??,??21,??22,…}是一组n维标准正交基,即Q是n阶正交矩阵,则有

    ???1????=????????=????????(λ12,…,λ??)

  称该分解为正交分解。

      本质:正交分解是一种特殊的特征分解。
 

3.  矩阵的奇异值分解(SVD)

  如果矩阵不可特征分解怎么办?引入了矩阵的奇异值分解。

(1)  非退化方阵的SVD

  设??是n阶非退化方阵,即满秩:??(??)=??。那么存在正交矩阵P和Q,使得

    ????????=diag(??1,??2,…,????)

  其中 ???? > 0(??=1,2,…,??),但不是特征值,而是奇异值。称为非退化方阵的SVD。

  性质:

    1) 不一定每个方阵都可以正交分解,只有实对称矩阵(??=????)一定可以正交分解。但是每个方阵都可以进行SVD。

    2)正交分解是同一个正交矩阵Q,SVD分解是两个正交矩阵PQ

    3)正交分解对角线是特征值,SVD对角线不是特征值,但都大于0

(2) 一般矩阵的SVD

  设A是秩为??(?? > 0)的??×??阶实矩阵,则存在m阶正交矩阵U和n阶正交矩阵V,使得

 

  其中Λ??=diag (??1,??2,…,????)

  ??1≥??2≥?≥????>0为矩阵??的全部奇异值.

 

  ????,????为矩阵??,??的列向量。

(3) 伪逆(Moor-Penrose)

 

  则称??+为矩阵A的伪逆,上述四个方程称为Moore –Penrose方程。

(4) 不相容线性方程组的解

  1)定义:设??∈????×??,??∈????,????=??是不相容线性方程组(即无解的方程组)。

       若存在向量??0∈????,使得对于任何??∈????,都有

        ||????0???||≤||???????||

      则称??0为方程组????=??的最小乘解。

       本质:虽然无解,但可以找一个与解最近的一个解,最近,则使用范数来衡量。

   2)若??是方程组????=??的最小二乘解,如果对于任意一个??0,都有

                 ||??|| ≤ ||??0||  (即取自己长度最短的)

    则称??是最佳最小二乘解。

(5) 定理

  1) 设??∈????×??,??∈????,则向量??=??+??是方程组????=??的最佳最小二乘解。

  2) 如果矩阵A的??????为??=??Λ????,那么A的伪逆为??+=??Λ+????,其中Λ+是Λ的伪逆,是将Λ主对角线上非零元素????取倒数变成1/????之后再取转置。

4.  主成分分析(PCA)

(1)  计算样品数据的协方差矩阵 ??=(S????)??×??,其中

(2)  对矩阵??进行正交分解,并对特征值进行排序

(3) 确定最小的m,使得贡献率

或者大于设定的某个值。

(4) 则主成分变量为:???? = ?????? (i=1…m),其中

??= (??1,…,????)??

????为正交矩阵??的第??列向量

 

      -tany 2017年10月3日 于杭州

赞 (0) 评论 分享 ()