数据分析大作业汇总

发布 2022-07-17 06:16:28 阅读 2163

第一章数据描述分析。

一)目的与要求:

掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。

理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。

二)重点与难点:

掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。

掌握多元数据的数字特征及相关性的判断,并会应用程序结果。

1.1 某小学60名11岁学生的身高(单位:cm)数据如下:

1) 计算均值、方差、标准差、变异系数、偏度、峰度;

2) 计算中位数、下和上四分位数、四分位极差、三均值;

3) 作出直方图;

4) 作出茎叶图;

5) 进行正态w检验();

6) 进行经验分布函数的检验。

1.2 1949-2023年全国历年人口(单位:亿人)如下:

1) 计算均值、方差、标准差、变异系数、偏度、峰度;

2) 计算中位数、下、上四分位数、四分位极差、三均值;

3) 作出直方图;

4) 作出茎叶图;

5) 找出异常值。

6) 进行正态w检验();

7) 进行经验分布函数的检验。

1.3 2023年至2023年我国居民消费数据如表1.3所示。

1) 计算均值、方差、标准差、变异系数、偏度、峰度;

2) 计算中位数、下、上四分位数、四分位极差、三均值;

3) 作出直方图;

4) 作出茎叶图;

5) 找出异常值。

1.4 2023年11月以及1至11月全国各省、市、区财政预算收入数据如下:

1) 计算均值、方差、标准差、变异系数、偏度、峰度;

2) 计算中位数、下、上四分位数、四分位极差;

3) 作出直方图;

4) 作出经验分布函数图;

5) x1和x2的观测值的pearson相关系数与spearman相关系数。

北京 35.22 499.80

天津 10.41 161.37

河北 17.22 273.29

山西 10.70 134.79

内蒙古 10.29 90.92

辽宁 18.66 348.99

吉林 4.41 106.89

黑龙江 6.24 196.44

上海 49.72 656.95

江苏 47.70 580.70

浙江 36.55 518.10

安徽 14.85 179.41

福建 19.46 250.16

江西 10.93 122.06

山东 40.26 552.74

河南 19.82 268.20

湖北 19.49 221.43

湖南 16.01 197.68

广东 99.32 1080.26

广西 14.77 160.60

海南 3.96 39.51

重庆 10.49 111.76

四川 21.71 250.09

贵州 13.06 95.87

云南 20.34 183.62

** 0.77 6.08

陜西 11.38 133.50

甘肃 3.66 64.86

青海 1.21 18.30

宁夏 2.31 23.81

新疆 3.24 103.81

1.5 对某民族的21人测量其血液4种成分的含量,观测数据如下:

求总体均值向量及总体协方差矩阵的估计。

1.7 一组人体的胸部、腹部、手臂部分**的有关数据如下:

1) 计算观测数据均值向量和中位数向量;

2) 计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。

第二章线性回归分析。

一)目的与要求:

掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作**与控制。

二)重点与难点:

会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握sas输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行**或控制。

2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量y(单位:箱)与该城市中适合使用该化妆品的人数x1(单位:

千人)以及他们人均月收入x2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:

1) 求回归系数的最小二乘估计和误差方差的估计,写出回归方程并对回归系数作解释;

2) 求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方的值并解释其意义;

3) 分别求和的置信度为95%的置信区间;

4) 对,分别检验人数x1及收入x2对销量y的影响是否显著,利用与回归系数有关的一般假设方法检验x1和x2的交互作用(即x1x2)对y的影响是否显著;

5) 该公司欲在一个适宜使用该化妆品的人数x01=200,人均月收入x02=2500的新的城市中销售该化妆品,求其销量的**值及其置信度为95%的置信区间;

2023年数据分析汇总

兰州城临石油钻采设备 数据资料汇总。2012年度 汇总。批准。日期。兰州城临石油钻采设备 数据汇总要求。兰州城临石油钻采设备 数据分析结果 2012年度 数据 一顾客满意。顾客满意度大于86.0 顾客投诉处理率100 二与产品要求的符合性。培训完成率100 三过程和产品的特性及趋势。设备。一 二保计...

数据分析作业2答案

一 简答题。3.用例之间有哪几种关系?答 泛化关系,包含关系,扩展关系。4.用例叙述应该包括哪些基本内容?答 包括 用例编号,用例名,参与者,前置条件,事件流,后置条件。二 填空题。1.用例图的要素包括 参与者 用例和 关系 2 参与者的英名名称是 actor 参与者也被称为 活动者 3 参与者的类...

spss数据分析结果 作业

已知某大型游乐园五月份 六月份 七月份 八月份每天不同时间段入园游玩人数统计表,现在利用spss统计分析原理对这些数据进行一些分析处理。1.打开 分析 比较均值 均值 菜单项 统计100个个案中,12点至20点之间入园人数的均值 标准差 极小值以及方差。2.将数据中12点至14点之间入园人数小于等于...