Skip to content

2024-2025秋-统计分析-试题回忆

文档信息

编者: Egopposer(line2345)
日期: 2025/01/03
学院: 大数据与软件学院
课程代码: SE21709

前言及试题概览

说明

斜体为记忆模糊的题目
黑体为我认为需要关注的点

试题概览

评价项 评分/说明
题量 ?isture(你找到了原题)中(60分钟):大(100分钟)
难易度(软院专业课中) ?isture(你找到了原题)1/10 :8/10
送分题占比 不好评价
背诵记忆占比 0%(one cheatsheet)
21-23总均分 83.083
21-23平均满绩率 31%

重要说明

未考察内容

本卷未考察第九章对应分析*,复习时请额外关注。网上的野题中,对应分析的出题占比量也是相当少的,这一部分大部分都是作为选择题简答题出现。这部分不太好出题。



一、填空题(20分)

1. 矩阵求逆

计算矩阵的逆矩阵 \(\_\_\_\_\)

\[ \begin{pmatrix} 1 & 1 & 2 \\ -1 & 2 & 0 \\ 1 & 0 & 3 \\ \end{pmatrix} \]

2. 协方差计算

\(X \sim N_2(\mu, \Sigma)\),其中 \(X = (x_1, x_2)\)\(\mu = (\mu_1, \mu_2)\)\(\Sigma = \sigma^2 \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}\),则 \(\text{Cov}(x_1 + x_2, x_1 - x_2) = \_\_\_\_\)


3. 相关矩阵

设随机向量 \(X = (x_1, x_2, x_3)'\),且协方差矩阵

\[\Sigma = \begin{pmatrix} 4 & -4 & 3 \\ -4 & 9 & -2 \\ 3 & -2 & 16 \end{pmatrix}\]

则它的相关矩阵 \(R = \_\_\_\_\_\_\_\_\_\_\_\_\)


4. 因子分析

\(X = (x_1, x_2, x_3)'\) 的相关系数矩阵通过因子分析分解为

\[R = \begin{pmatrix} 1 & \frac{1}{3} & \frac{2}{3} \\ \frac{1}{3} & 1 & 0 \\ \frac{2}{3} & 0 & 1 \end{pmatrix} = \begin{pmatrix} 0.934 & 0 \\ -0.417 & 0.894 \\ 0.835 & 0.447 \end{pmatrix} \begin{pmatrix} 0.934 & -0.417 & 0.835 \\ 0 & 0.894 & 0.447 \end{pmatrix} + \begin{pmatrix} 0.128 & 0 & 0 \\ 0 & 0.027 & 0 \\ 0 & 0 & 0.103 \end{pmatrix}\]

\(X_i\) 的共性方差 \(h_i^2 = \_\_\_\_\_\_\_\)\(X_i\) 的方差 \(\sigma_{11} = \_\_\_\_\_\_\_\)
公因子 \(f_1\)\(X\) 的贡献 \(g_1^2 = \_\_\_\_\_\_\_\)


5. T²分布

\(X_i, i = 1, \cdots, 16\) 来自多元正态总体 \(N_p(\mu, \Sigma)\)\(\bar{X}\)\(A\) 分别为正态总体 \(N_p(\mu, \Sigma)\) 的样本均值和样本离差矩阵,则

\[T^2 = 15(\bar{X} - \mu)'A^{-1}(4(\bar{X} - \mu)) \sim \_\_\_\_\_\_\_\_\_\_\_\]

二、简答题(35分)

1. 费希尔判别(5分)

简述费希尔判别的思想。


2. 统计分析比较(6分)

简述基于总体的统计分析和基于样本的统计分析有什么相同点和不同点。


3. 主成分分析与因子分析(6分)

分析主成分分析和因子分析的相同点与不同点。


4. K-means算法(6分)

叙述K-means聚类算法的基本流程。


5. 聚类分析实践(12分)

现在有5个样本 \({1,4,5,7,8}\),使用离差平方和法和任意一种其他的聚类方法对数据进行聚类分析,给出计算过程和树形图。


三、计算题(45分)

1. 均值向量假设检验(15分)

对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市 2 周岁男婴的这三个指标的均值

\[\mu_0 = (90, 58, 16)'\]

现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。

已知数据:

\[ \bar{X} = \begin{pmatrix} 82.0 \\ 60.2 \\ 14.5 \end{pmatrix}, \quad (5S)^{-1} = (115.6924)^{-1} \begin{pmatrix} 4.3107 & -14.6210 & 8.9464 \\ -14.6210 & 3.172 & -37.3760 \\ 8.9464 & -37.3760 & 35.5936 \end{pmatrix} \]
\[\alpha = 0.01, \quad F_{0.01}(3, 2) = 99.2, \quad F_{0.01}(3, 3) = 29.5, \quad F_{0.01}(3, 4) = 16.7\]

2. 主成分分析(15分)

\(X = (X_1, X_2, X_3, X_4)^T \sim N_4(0, \Sigma)\),协方差矩阵

\[ \Sigma = \begin{pmatrix} 1 & \rho & \rho & \rho \\ \rho & 1 & \rho & \rho \\ \rho & \rho & 1 & \rho \\ \rho & \rho & \rho & 1 \end{pmatrix}, \quad 0 < \rho \leq 1 \]

(1) 试从 \(\Sigma\) 出发求 \(X\) 的第一总体主成分;

(2) 试问当 \(\rho\) 取多大时才能使第一主成分的贡献率达 95% 以上。


3. 典型相关分析(15分)

\(X = (X_1, X_2)^T\)\(Y = (Y_1, X_2)^T\) 为标准化向量,令 \(Z = \begin{pmatrix} X \\ Y \end{pmatrix}\),且其协方差矩阵

\[ \text{V}(Z) = \Sigma = \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix} = \begin{pmatrix} 100 & 0 & 0 & 0 \\ 0 & 1 & 0.95 & 0 \\ 0 & 0.95 & 1 & 0 \\ 0 & 0 & 0 & 100 \end{pmatrix} \]

求其第一对典型相关变量和它们的典型相关系数?