数据科学基础(十) 降维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 10.1 主成分分析(PCA)不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨. 目标PCA 常用于高维数据的降维,可用于提取数据的主要特征分量. 对于原始数据矩阵 A=\begin{bmatrix} x_{11} &x_{12} & \cdots & x_{1n}\\ x_{21} &x_{22} & \cdots & x_{2n}\\ \vdots & \vdots & \cdots &\vdots \\ x_{r1} &x_{r2} & \cdots & x_{rn}\\ \end{bmatrix}其中, 列向量(x_{1i},x_{2i},\cdots,x_{ri})^T 为 $n$ 个样本中的一个. $r$ 行表示 $r$ 个维度. 对该矩阵进行中心化,得到中心化矩阵 $X$ X 中心化后, 样本点的中心点即原点, 寻找点分散程度最大的方向, 即让这些点投影后的分散程度最大. ...
数据科学基础(九) 回归分析和方差分析
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 9.1 回归分析9.1.1 相关性分析 皮尔逊 (Pearson) 相关系数. r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y}$\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差. Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ . 取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强. 对称性. 原样本经过线性变换不影响 $r$ 值. 不描述因果关系. 对相关系数 $r$ 进行显著性检验 H_0:\rho = 0, H_1:\rho\neq 0构造统计量: \begin{aligned}\\ t&=\frac{r}{S_r}\sim t(n-2), S_r = \sqrt{\frac {1-r^2}{n-2} } \end{aligned}若原假 ...
数据科学基础(八) 多维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 8.1 多维概率分布分布函数: $F(x,y) = P\{X \leq x,Y \leq y\}$ 密度函数: $\displaystyle f(x,y) = \frac{\partial F}{\partial x\partial y}$ 边缘分布: 设 $(X, Y)$ 为二维随机变量,称一维随机变量 $X$ 或 $Y$ 的概率分布为二维随机变量 $(X, Y)$ 关于 $X$ 或 $Y$ 对应的边缘分布; 分别记作: $F_{X}(x), F_{Y}(y)_{}$ 二维离散型边缘分布率:设二维随机变量 $(X, Y)$ 的分布律为 $p_{i j},$ 那么对千随机变量 $X, Y$ 其各自的分布律对于固定的 $i, j=1,2, \cdots,$ 满足 P\left\{X=x_{i}\right\}=\sum_{j} p_{i j}=p_{i}则称 $p_{i} .$ 为随机变量 $(X, Y)$ 的边缘分布律。 二维连续型的边缘概率密 ...
数据科学基础(七) 假设检验
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 7.1. 假设检验7.1.1. 假设检验问题 参数估计:讨论如何根据样本得到总体分布所含参数的优良估计. 假设检验:讨论怎样在样本的基础上观察上面所得到的估计值与真实值之间在统计意义上相拟合,从而做出一个有较大把握的结论. 例子: 设菜厂生产一种灯管,其寿命X $\sim \mathrm{N}(\mu, 40000),$ 从过去较长一段 时间的生产情况看,灯管的平均寿命为 1500 小时,现在使用了新工艺后,在所生产的灯管中抽取25只,测得的平均寿命为1675 小时,问:采用新工艺后,灯管的寿命是否有显著提高?为了判别新产品的寿命是否显著提高,提出两个假设: 原假设 $H_0:$ 新产品的寿命 $\mu=1500$ 接受 $H_0:$ 新产品寿命没有提高 备择假设 $H_1:$ 新产品的寿命 $\mu > 1500$ 拒绝 $H_0:$(接受$H_1$) 新产品的寿命有所提高. 注意:一般情况下,将希望成立的假设设为 $H_1$ ...
数据科学基础(六) 参数估计
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 6.1. 参数的点估计 总体分布 X 的分布形式已知,未知的只是分布中的参数,要估计的只是参数或者参数的某一函数. 6.1.1. 矩估计法 公式 \displaystyle \frac{1}{n}\sum_{i=1}^{n}x_i^k=A_k=\mu_k=E(x^k) 样本矩 \qquad\qquad\quad\quad 总体矩 注意: 样本阶中的计算都是 $n$ 而不会用到样本方差 $S^2$ 6.1.2. 极大似然估计 估计参数值,使得出现该样本的可能性最大. XX X1X_1 X2X_2 X3X_3 …\ldots XnX_n PP(离散型) P1P_1 P2P_2 P3P_3 …\ldots PnP_n PP(连续型) f(X1)f(X_1) f(X2)f(X_2) f(X3)f(X_3) …\ldots f(Xn)f(X_n) 则 似然函数: \begin{aligned}\\ &L(\theta) ...
数据科学基础(五) 数理统计的基本概念
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 5.1. 总体与样本5.2. 常用统计量定义 样本均值: $\overline{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i$ 修正后的样本方差: $\begin{aligned}S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\end{aligned}$ 样本均值和样本方差的性质 定理: 设总体$X$的均值为$EX=\mu$,方差为$DX=\sigma^2$,样本{$X_1,X_2,\ldots ,X_n$} 来自总体$X$ ,则: $E\overline{X}=\mu$ $\displaystyle D\overline{X} = \frac{1}{n}\sigma^2$ $ES^2=\sigma^2$ 前两者证明略. $ES^2=\sigma^2$ 的证明: \beg ...
数据科学基础(四) 大数定律与中心极限定理
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 4.1 大数定律 大量重复实验的平均结果的稳定性. 4.1.1. 马尔可夫不等式 $P\{X\geq a\}\leq\displaystyle\frac{EX}{a}$ 证明:$EX=\displaystyle\int_0^{\infty}xf(x)dx=\int_a^{\infty}xf(x)dx+\int_0^{a}xf(x)dx\geq\int_a^{\infty}xf(x)dx\geq\int_a^{\infty}af(x)dx=a P\{X\geq a\}$ 4.1.2. 切比雪夫不等式 定理: 若 $EX$ 和 $DX$ 均存在, $\forall \epsilon >0$,均有 ${|X-EX|\geq \epsilon } \leq \frac{DX}{\epsilon ^2}$ 证明: \begin{aligned}\\{|X-EX|\geq \epsilon \\}&=\int_{|X-EX|\geq \eps ...
数据科学基础(三) 期望和方差
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 3.1 数学期望3.1.1 离散型数据的数学期望 $P(X=x_k)= p_k,$ 若 $\sum^\infty_{k=1}x_kp_k$ 绝对收敛,则 $E(X)=\sum^\infty_{k=1}x_kp_k$.注意:数学期望不一定均存在. 3.1.2 连续型数据的数学期望 $X$ 的密度函数为 $f(x),\int_{-\infty}^{\infty}xf(x)dx$ 绝对收敛,则$Ex = \int_{-\infty}^{\infty}xf(x)dx$ 3.1.3 随机变量函数的期望$Y=g(X)$ 离散 $E(X)=\sum x_i p_i,Y=g(X)$则$E(Y)=\sum g(x_i)p_i$ 3.1.4 期望的性质 $EC=C$ $E(C_1X+C_2)=C_1EX+C_2$ 若$X,Y$ 独立,则 $E(XY)=E(X)E(Y)$ $E(X \pm Y)=EX \pm EY$ 3.2 方差3.2 ...
数据科学基础(二) 随机变量及其分布
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 2.1 随机变量将样本空间 $\Omega$ 中的每个元素 e 与实数对应起来. 定义:设随机试验的样本空间为 $S = \{e\}.\space X = X(e)$ 是定义在样本空间的实值单值函数. 称 $X = X(e)$ 为随机变量. 2.3 离散型随机变量及其分布律 离散型随机变量定义: 有限个 无限可列个 满足条件: $p_k\geq0,k=1,2…$ $\sum^n_{k=1}p_k=1$ 分布律: P\\{X = x_k\\}=p_k,k=1,2...也可以用表格: \begin{array}{|c|c|c|c|c|c|} \hline X & x_{1} & x_{2} & \ldots & x_{n} & \ldots \\ \hline p_{k} & p_{1} & p_{2} & \ldots & p_{n} & \ldots \\ \hline \end{array} 2.4 连续型随 ...
数据科学基础(一) 随机事件及其概率
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维 1.1 随机试验与随机事件 随机试验: 相同条件可重复 结果不止一个 无法预测 事件:每种结果,随机事件A、B、C. 基本事件: 相对于实验目的不可再分. 复合事件: 由基本事件复合. 1.2 样本空间 样本空间: 所有基本事件复合, 记作 $\Omega$. 样本点: $\Omega$ 中的元素 $\omega$. 以下两种是非随机\极端: 必然事件: 一定会发生的事件. 不可能事件: 一定不发生的事件. 无限可列个: 按某种规律排成一个序列. 1.3 事件间的关系 包含 交( 积 ) 并( 和 ) 差: $A - B = A - AB$ 互不相容事件: $A$ 与 $B$不同时发生 对立事件: $A + B = \Omega$ 且 $AB = \phi$与互不相容事件的不同: 互不相容事件可以有多个, 对立事件只有两个. 互不相容事件可以均不发生, 对立事件必定发生一个.相关公式: $A-B=A - AB=A\overline ...







