数据分析培训提纲

1．概论。

1.1数据分析的重要性。

1）贯彻质量管理8项原则的需要。

qm的8项原则之一为：基于事实的决策方法。要避免决策失误必须提供足够的信息，以及进行科学决策。

信息：有意义的数据。

数据：能客观反映事实的资料和数字。

要使数据提升为信息，才能将其增值。为此，必须从数据收集和分析上运用科学的方法，使之便于利用。

2）通过数据的收集和分析可证实qms是否适宜和有效。

3）帮助识别和评价qms持续改进的机会。

4）增强对各种意见和决策的分析、判断、评审、质疑能力。

因此，数据分析是保障qms有效运行的重要手段。

1.2数据分析的一般过程。

1.2.1数据收集。

1）收集范围。

产品、体系和过程的数据，如：产品检测中的不合格，qms质量目标完成情况、持续改进情况、过程监视和测量情况等。

事实上在qms的各个过程中，都会产生一些数据，在管理中必须根据当前及长远目标的需要，确定应收集那些数据，重点如何。

2）收集方法。

1）各种报表和原始记录（注意分类）

2）区域网中的数据库。

3）注意明确收集人、收集时间、收集方式、传递方式。

3）收集的要求。

1）及时。2）准确数据的质量，“进来的是垃圾，出去的还是垃圾”

3）完整数据项目齐全，数量符合要求。

1.2.2数据分析、处理。

1）数据的审查和筛选。

剔除奇异点，确定数据是否充分。

2）数据排序。

按其重要度进行排序，以确定分析处理的对象和顺序。

3）确定分析内容，进行统计分析。

4）分析判断。

在统计分析的基础上，以目标值或标准为依据，对统计分析结果（绘图或计算）作进一步分析，以获得指导过程改进的明确信息，找出主要问题和薄弱环节，并提出相应的改进建议。

5）编写报告。

对分析判断得出的规律、趋势整理成报告（附有直观的图表）

1.2.3数据的利用。

不能为分析而分析，要有“的”放矢，数据分析应指导管理。数据分析是为了科学决策，决策的结果，可通过前后对比来分析判断其有效性。数据分析应对其全过程做到闭环管理。

为此，应将数据分析信息有效地传递，做到信息共享。在风险评估的基础上，采取适当措施。

2．统计分析技术。

2.1概述。

2.1.1什么是统计分析技术。

1）统计技术。

运用数理统计的方法对数据进行分析，找出其规律和趋势。如：常用的控制图、回归分析、试验设计等。

2）分析技术。

运用逻辑分析的方法对数据进行分析，找出影响事物的因素及其影响程度。如常用的排列图、因果图、饼图、qfd和 fmea等方法。

2.1.2统计技术应用的基础条件。

1）日常管理秩序健全，产品质量有可追溯性。

2）生产过程相对稳定。

影响质量的因素已规范化，过程质量处于受控状态。

3）具备必要的物质、技术基础。

测试手段适用，必要的图表及计算处理用具或软件。

4）大量的数据计算和处理运用计算机。

2.2统计技术的基础知识。

2.2.1随机变量及其分布。

1）什么是随机变量：

变量——数值有变化的量，相对常量而言。

随机因素——随机（不是人为偏向）因素（多种因素），如：年降雨量，抛硬币。

加工尺寸——由模具磨损、机器磨损、材料、人的操作重复性、环境……等决定。

随机变量——受随机因素影响的在一定范围内取值的量抽样必须随机，不能有倾向性，。

2）分布。直方图：

fin——数据总数。

频率：fi=

ni——第i组的频数

连续型随机变量： δx o 为一光滑曲线，此曲线为分布函数。

分布的特征：形状（对称、偏斜）、位置、分布宽度（最大值—最小值）。

2.2.2总体与样本。

总体——研究对象的全体，如一批电缆，可视为总体，研究其总长，每一根（或段）电缆则为总体中的一个个体（成员），一批所有电缆的总长为总体。

总体用变量x表示。

样本——从总体中抽出的部份个体组成的集合称为样本。

抽样因为不可能研究每一个个体。

从样本推断总体，必须正确反映总体的信息，正确抽样。

随机抽样——简单随机样本、随机数表。

xi 0~99 可以构成2500个随机数。

2.2.3正态分布。

钟形曲线，曲线下的面积表示概率。

对称，中间高，两边低。

x~（μ2）

x总体的均值；σ—总体标准差。

正态分布检验：

·直方图。·概率纸横坐标——x的等距取值；纵坐标——不等距0.01%~99.99%

在概率纸上描出的点呈一直线，则为正态分布。正态分布的分布函数值。

近似正态分布——总趋势符合正态分布，但有个别的奇异点。

2.2.4常用统计特征量（样本）

统计量——不含未知数的样本函数称为统计量。

统计量是由样本得出，但其对估计总体状况（产品的某些特性值）具有重要意义。

1）反映样本位置的统计量。

1）均值——样本的算术平均值 x

样本中的数据多数分布在样本均值附近，因此它是表示样本位置的最好的统计量。

局限性：容易受数据中的特大、特小值（异常值）的影响。

若有5个样本，观测值为 3，5，7，9，11 x=7

如果误将11记为21 x=9

当数据异常时，把x作为数据的代表不太合适，需要引入新的统计量。

2）中位数——样本中的数据从大到小排列后处在中间位置上的数。

样本容量 n为奇数时，它为中间的一个数。

n为偶数时，它为中间的两个数的平均值，记为mα

如样本为 10，15，23，30 则mα=（15+23）/2=19

10，15，23，30，35 则mα=23

中位数受异常值的影响较小，如：

2）反映数据波动的统计量。

1）极差r=xmax —xmin

极差计算简便，但对样本信息利用不够，且它受异常值的影响较大。

如：前例中 3，5，7，9，21 则极差为18

3，5，7，9，11 极差为8

2）方差和标准差。

样本方差：较充分利用数据，反映数据的波动。

s22= σxi—x）2/（n—1）

即单个样本数据与样本均值之差的平方和除以（样本容量—1）

若样本为 3，5，7，9，11

n=5 s2=（3—7）2+（5—7）2+（7—7）2+（9—7）2+（11—7）2/4=10

5，6，7，8，9 则s2=2.5 s2**明数据波动小，即数据较为集中。

标准差——方差的平方根 s2 =s，如s2=16，则s=4

因为方差虽可反映数据的波动，但其量纲为原始数据的量纲的平方，在量纲上不明确，故引入标准差。

2.2.5正态分布总体参数估计。

当一个特征量（总体函数）服从正态分布时，其分布可由μ，σ2唯一确定，若样本的观察数据服从正态分布时，则可用样本的均值和方差去估计总体。

估计值 μ=x σ2=s2

这时需注意三个层次对应的三种符号。

、σ—总体； x、s——样本； μ2——估计值。

2.3常用统计分析方法。

2.3.1记实统计（描述性统计）

1）记实统计的概念。

记实统计是揭示数据分布特性的概述和显示定量数据的程序。

重要的数据特性：

1）趋中性（多数常常分布在中间）可以通过模型或中位数来描述。

2）数据范围如最大、最小值的区间，标准区域。

3）数据分布如对称度，分布规律（可用数学模型描述）

2）记实统计的表达方法。

常用简单的图形来有效地传递信息，如：饼图、条形图表、直方图等，其优点在于能显示定量分析中不易发现的数据的异常特性，可以显示复杂数据，适于非专业人员分析相关数据，它易于理解并能够在所有层次用于分析和判断。

3）记实统计的应用。

用于数据的概述并描述特征，通常是定量数据分析的第一步，它可提供抽样数据特性（如均值和标准偏差）的定量量值，然而其量值取决于抽样大小和所采用的抽样方法。

记实统计对收集定量数据的所有领域均适用，如：

描述产品特性的关键量值（如中值或范围）

描述过程参数（如温度）

对顾客调查中收集数据的统计。

2.3.2抽样检查。

抽样是为得到关于一个总体的一些特性的信息，而去研究总体的代表性部份（即样本），通过样本的特性来推断总体的特性的方法。

可利用抽样技术，如简单随机的、系统的、连续的、跳批等，来获取样本。抽样方法的选择取决于抽样的目的和具体条件。

针对不同的对象和目的，有许多抽样标准，如gb/t2828是针对连续批产品验收，gb/t15239针对孤立批产品验收。

2.3.3统计过程控制（spc）

2.3.3.1概述。

1）历史：休哈特2023年发明控制图，30~60年代世界质量管理以此为基础来控制质量特性。

财务管理大数据分析提纲

第一章大数据时代的来临。第一节大数据及大数据产业。一大数据。1 什么是数据。2 大数据4v基本特征。二大数据产业分类。1 二分法。2 三分法。3 五分法。三数据的商业价值举例。1 金融制裁。swift环球同业银行金融电讯协会。2 百度付费搜索广告。3 大数据是人工智能的基础。第二节大数据...

物价数据分析

内需疲弱和输入型通缩加重致物价创五年新低观点摘要。正文。一 cpi自2009年12月以来首次跌入1 以下。2015年1月份cpi同比 0.8 比上月大幅回落 0.7个百分点其中食品 1.1 非食品 0.6 cpi环比上升0.3个百分点其中食品环比上升0.7 非食品持平。食品与非食品都处于...

持仓数据分析简报

股指1106 偏多，多空都在减仓，总体上空头减仓幅度更大，特别是中证大幅减空单，说明做空力量减弱。铜1108 数据偏多，注意浙江永安做空800多手，经易金瑞减空。锌1108 数据偏空，注意国泰君安做空4500多手。橡胶1109 多空对峙，观望，注意浙江永安减多做空。螺纹钢1110 数据偏...

数据分析培训提纲

财务管理大数据分析提纲

物价数据分析

持仓数据分析简报

其他用户还读了