PCA

主成分分析是处理多维数据时降维的方法。举例说明,不同处理组中上万个基因的表达量矩阵,也就对应着上万个维度。

Step 1

投射Gene1 与Gene2 的表达量。取其中点(重心)为原点,平移图像。在取得最适合的过原点的直线。其到各点的距离(b)和最短,或各点在直线上映射点到原点的距离(c)和最大。

由于 $$ a^2 = b^2 + c^2 $$

计算映射点到原点的距离平方之和 $$ d1^2 + d2^2 + d3^3+d4^2+d5^2+d6^2=sum of squared distances=SS(distances) $$ 取得的这一直线就被称为principal component one (PC1)

PC1 的斜率反映了Gene1 与Gene2在PC1上的分布

how the data are spread out

特征向量

Terminology Alert!!!

linear combination

PC1 is a linear combination of variables

PCA with Singular Value Decomposition (SVD)

特征向量 Singular Vector / Eigenvector

Eigenvalue for PC1

词汇表

projected point 映射点

inversely related 负相关

intuitively 直觉地

rotate the line

spread out

Pour over ice and serve!

proportion

e.g. proportions of each gene are called loading scores.

perpendicular 垂直的

approximation 近似

informative 有信息的

substantial 相当可观的

参考来源

https://www.youtube.com/watch?v=FgakZw6K1QQ

https://en.wikipedia.org/wiki/Eigenvalues_and_eigenvectors