
统计学统计数据的描述学习培训模板课件
《统计学统计数据的描述学习培训模板课件》由会员分享,可在线阅读,更多相关《统计学统计数据的描述学习培训模板课件(147页珍藏版)》请在万象文库上搜索。



1、统计学统计学第2章统计数据的描述第第1章章回顾回顾知识点统计学内涵统计学概念及含义要求掌握统计学的涵义了解统计学产生与发展掌握统计学几个概念是一门收集、整理、是一门收集、整理、显示和分析统计数据显示和分析统计数据的科学,其目的是探的科学,其目的是探索数据内在的规律性索数据内在的规律性。
2、总体变量样本参数统计量第第2章章统计数据的描述统计数据的描述1数据的计量尺度2统计数据的来源3统计数据的质量4统计数据的整理5分布集中趋势的测度6分布离散程度的测度7分布偏态与峰度的测度8茎叶图与箱线图9统计表与统计图数据整理数据分析数据显示结果1数据的计量尺度数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度1数据的计量尺度数据的计量尺度分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度。
3、列名尺度列名尺度顺序尺度顺序尺度间隔尺度间隔尺度比例尺度比例尺度精精确确程程度度良好良好134公斤公斤休斯顿火箭休斯顿火箭俱乐部:健康状况:出生年份:体重:列名尺度列名尺度(NominalScale)例如:性别、民族、职业数据表现为“类别”各类之间无等级次序各类别可以用数字代码表示根据列名尺度得到的数据为分类数据。
4、顺序尺度(OrdinalScale)例如健康状况、质量等级数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值根据顺序尺度得到的数据为顺序数据。
5、间隔尺度IntervalScale例如年份、摄氏温度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据间隔尺度得到的数据为间隔数据。
6、比例尺度RatioScale例如体重、身高数据表现为“数值”可以进行加减、乘除运算“0”表示“没有”或“不存在”根据比例尺度得到的数据为比例数据。
7、间隔尺度与比例尺度的区别间隔尺度中“0”表示一个具体数值,不表示“没有”或“不存在”,比例尺度中“0”表示“没有”或“不存在”。
8、间隔尺度间隔尺度-15-85比例尺度比例尺度0KM150KM300KM课堂练习下列数据中哪些采用了间隔尺度?下列数据中哪些采用了间隔尺度?海拔海拔米米960960万平方公里万平方公里100100元元北纬北纬3838度度四种计量尺度的比较四种计量尺度的比较四种尺度所包含的信息量是依次递增的。
根据较高层次的计量尺度可以获得较低层次的计量尺度。
四种计量尺度的比较:数学性质四种计量尺度的比较:数学性质“”表示该尺度所具有的特性四种计量尺度的比较四种计量尺度的比较列名尺度列名尺度顺序尺度顺序尺度间隔尺度间隔尺度比例尺度比例尺度分类分类(=,)排序排序()间距间距(+,-)比值比值(,)数据和变量类型数据的类型数据的类型分类数据顺序数据定性数据定量数据间隔数据比例数据品质变量AttributeCategorical数量变量Numerical变量类型变量的类型变量变量是用来描述现象某种令人感兴趣的特是用来描述现象某种令人感兴趣的特征的概念。
征的概念。
品质变量品质变量是描述现象有关属性特征的变量,本是描述现象有关属性特征的变量,本质上不能用数字来表示。
例如性别。
质上不能用数字来表示。
例如性别。
数量变量数量变量是描述现象有关数量特征的变量,都是描述现象有关数量特征的变量,都是用数字来表示的。
例如人数,年龄等。
是用数字来表示的。
例如人数,年龄等。
离散型变量离散型变量指的是有限个数值或诸如指的是有限个数值或诸如0,1,2之之类无限可列值的变量。
类无限可列值的变量。
如果某一变量可以取某一区间或多个区间中任意数值,如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为则该变量称为连续型变量连续型变量。
1例子例子请判断下列数据分别属于什么类型?灯炮使用寿命将产业划分为三类广州市8月份各天的气温记录将服务质量分为五个等级:好、较好、一般、差、较差。
分类数据顺序数据比例数据间隔数据2统计统计数据的来源数据的来源一、间接获取的数据一、间接获取的数据二、直接获取的数据二、直接获取的数据间接取得的数据间接取得的数据间接取得的数据间接取得的数据Internet/WWW.中中国国人人口口统统计计年年鉴鉴中中国国市市场场统统计计年年鉴鉴统计部门和政府部门公布的有关资料,如各类统计年鉴各类经济信息中心、信息咨询机构、专业调查机构等提供的数据各类专业期刊、报纸、书籍所提供的资料各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料从互联网或图书馆查阅到的相关资料提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构网址网址数据内容数据内容国家统计局:/统计年鉴、统计月报等国务院发展研究中心信息网:/宏观经济、财经、货币金融等中国经济信息网:/经济信息及各类网站华通数据中心:/国家统计局授权的数据中心中国决策信息网:/决策知识及案例三农数据网:/三农信息、论坛及相关网站提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构网址网址数据内容数据内容人口普查局:/.census.gov人口和家庭等联邦储备局:/.bog.frb.fed.us货币供应、信誉、汇率等预算编制办公室:/.whitehouse.gov/omb财政收入、支出、债券等商务部:/.doc.gov商业、工业等直接取得的数据直接取得的数据普查普查(census)为特定目的专门组织的非经常性全面调查通常是一次性或周期性的一般需要规定统一的标准调查时间数据的规范化程度较高应用范围比较狭窄总体抽样调查抽样调查(slingsurvey)从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法总体总体随机样本随机样本具有经济性、时具有经济性、时效性强、适应面广、效性强、适应面广、准确性高等特点准确性高等特点3数据的质量数据的质量非抽样误差:由于调查过程中各有关环节工作失误造成的。
调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差。
人为干扰:隐瞒、虚报。
从理论上看,这类误差可以避免。
加强培训掌握获取完整抽样框的方法,科学抽样的方法与技术。
抽样误差:利用样本推断总体时产生的误差。
不可避免可以计量、可以控制抽样框全部总体单元或范围。
1抽样误差样本容量3统计统计数据的质量数据的质量数据的误差数据的误差抽样误差抽样误差抽样框误差抽样框误差回答误差回答误差无回答误差无回答误差调查员误差调查员误差非抽样误差非抽样误差数据的误差数据的误差抽样误差抽样误差(slingerror)由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素样本容量的大小总体的变异性非抽样误差非抽样误差(non-slingerror)相对于抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中有抽样框误差、回答误差、无回答误差、调查员误差、测量误差数据来源与数据质量数据来源与数据质量1936年,罗斯福和兰登竞选总统。
文学摘要调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜。
实际结果是罗斯福以62%获胜。
1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在2至4个百分点之间。
数据来源与数据质量数据来源与数据质量第二次世界大战期间,美国国家民意调查中心(TheNationalOpinionResearchCenter)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成。
3个问题:问题一:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?”黑人调查组中,9的被调查者回答“变好”,25回答“变坏”;白人调查组中,2回答“变好”,45回答变坏。
问题二:用“纳粹分子”代替“日本”,两组的结果大体相同。
问题三:“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”黑人调查组中,选择“打败轴心国”的比例是39,而白人调查组则是62。
是什么原因造成了调查结果的差异呢?误差的控制误差的控制抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度4统计统计数据的整理数据的整理一、统计数据的分组一、统计数据的分组二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图四、洛伦茨曲线四、洛伦茨曲线统计数据的分组统计数据的分组4数据的整理数据的整理统计数据的分组统计数据的分组按照统计研究目的,将数据分别列入不同的组内。
按品质标志分组:列名尺度和顺序尺度。
按数量标志分组:间隔尺度和比例尺度。
4数据的整理数据的整理次数分配次数分配次数分配是观察值按其分组标志分配在各组内的次数。
分组目的:找出数据分布的规律。
步骤:分多少组?确定组数每一组的范围?确定组距=(Max.-Min.)/组数等组距分组、不等组距分组开口组经验:组数不少于5组,也不应多于15组原则:“不重不漏”、上组限(一个组的最大值)不在内累积次数分配向下累积:由表的上方向表的下方累加向上累积:由表的下方向表的上方累加组距分组组距分组(步骤步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的确定组距:组距(classwidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距组距(最大值最大值-最小值最小值)组数组数统计出各组的频数并整理成频数分布表频数(frequency):每个组中的数据个数,也称次数。
频率(relativefrequency):频数/总数据个数。
补充补充Sturges提出的经验公式:分组组数K应满足)2ln()ln(1nK其中n为数据的个数(总体单位数或样本数),一般对结果取整数。
组距分组组距分组(几个概念几个概念)下限下限(lowlimit):一个组的最小值上限上限(upperlimit):一个组的最大值组距组距(classwidth):上限与下限之差组中值组中值(classmidpoint):下限与上限之间的中点值下限值下限值+上限值上限值2组中值组中值=次数分配表的编制次数分配表的编制(例题分析例题分析)【例例】某车间30名工人每周加工某种零件件数如右表试对数据进行分组。
Max=128Min=84频数分布表频数分布表Max=128Min=84(Max-Min)/5=(128-/5=810上组限(一个组的最大值)不在内。
120这几个数究竟属于哪一组?课堂练习:课堂练习:某月啤酒公司某月啤酒公司60个销售点的销量个销售点的销量单位:桶Max=81Min=16(Max-Min)/8=(81-/8=1259啤酒销售量的频数分布销售桶数销售桶数销售点数销售点数频率频率(%).......3合计合计0频数/次数啤酒销售量的累计次数(频率)表啤酒销售量的累计次数(频率)表销售桶数销售桶数频数频数相对频数相对频数向下累计向下累计向上累计向上累计(%)(%)次数次数频率频率次数次数频率频率......3合计合计次数分配直方图次数分配直方图Excel直方图直方图(histogram)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积面积来表示各组的频数分布分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)某车间工人周加工零件直方图某车间工人周加工零件直方图我一眼就看出来了,周加工零件在100110之间的人数最多!折线图折线图(frequencypolygon)折线图也称次数多边形图折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴S直方图=S折线图,二者所表示的频数分布是一致的分组数据的图示分组数据的图示(折线图的绘制折线图的绘制)S直方图直方图=S折线图折线图某车间工人周加工零件折线图某车间工人周加工零件折线图次数分布曲线次数分布曲线次数分布曲线:当观察次数越多,组距越小且组数越多,所给出的折线图就会越光滑,然后直方图抹掉,就只剩一条光滑的曲线,用于反映数据或统计量的分布规律。
正态分布曲线偏态曲线J形曲线U形曲线次数分配的类型次数分配的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布几种常见的频数分布洛伦茨曲线与基尼系数洛伦茨曲线与基尼系数洛伦茨曲线洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成。
描述了收入和财富分配性质的,这条曲线用于分析某国家或地区收入分配的公平程度。
AB累积的人口百分比累积的收入百分比绝对公平线基尼系数基尼系数20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线计算出一个数值,用这个统计指标可以衡量收入分配的平等程度。
A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值ABA基尼系数=A+B4,分配不公洛伦茨曲线与基尼系数计算步骤:洛伦茨曲线与基尼系数计算步骤:假设一个国家有假设一个国家有100100个人,计算这个国家的基尼系数分为下面个人,计算这个国家的基尼系数分为下面四步:四步:将这将这100100人按收入从低往高排列,第一名是收入最低的,人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;第一百名是收入最高的;画一个边长为一的正方形,并将左下角与右上角的对画一个边长为一的正方形,并将左下角与右上角的对角线相连;角线相连;依次计算前十名,前二十名,前三十名依次计算前十名,前二十名,前三十名一直到前一直到前九十名所拥有的收入占整个九十名所拥有的收入占整个100100人的收入的比值;人的收入的比值;以正方形的左下角为原点,用水平边标记累计人口,以正方形的左下角为原点,用水平边标记累计人口,垂直边标记累积的收入比,将在上面计算出的累计收入比值,垂直边标记累积的收入比,将在上面计算出的累计收入比值,在正方形中标出。
然后,将这些点同原点以及正方形的右上在正方形中标出。
然后,将这些点同原点以及正方形的右上角连接,就可以得到一条曲线。
角连接,就可以得到一条曲线。
这条曲线被称为这条曲线被称为洛洛伦伦茨茨曲线。
基尼系数就是对角线与基尼系数就是对角线与洛洛伦伦茨茨曲线之间的面积,与对角曲线之间的面积,与对角线以下的三角形的面积之比。
线以下的三角形的面积之比。
各国基尼系数的比较各国基尼系数的比较美国8%英国1%法国7%俄罗斯0%韩国6%德国30%意大利3%匈牙利9%瑞典25%日本9%4,分配不公1978-20XX中国基尼系数变化情况中国基尼系数变化情况亚行揭露:中国基尼系数扩大到亚行揭露:中国基尼系数扩大到473,己达到拉美平均水平,勇夺亚洲冠军己达到拉美平均水平,勇夺亚洲冠军20XX年8月8日,亚洲开发银行发表了减少不平等,中国需要具有包容性的增长的新闻稿并公布了亚洲的分配不均的研究报告。
在22个纳入亚行研究范围的国家中,中国勇夺贫富差距之冠,在衡量分配不平等的两个常见指标中,收入最高的20%人口的平均收入与收入最低的20%人口的平均收入的比率,中国是11倍,高出其它国家一大截;基尼系数,20XX年中国的数值是4725,仅比尼泊尔的4730低微小,远远高于印度、韩国、台湾。
亚行指出,从1993到20XX年,中国的基尼系数从407扩大到473,己达到拉丁美洲的平均水平,不得不让人怀念“公平的增长”的典范:韩国和台湾(地区)。
贫富差距排名贫富差距排名国家最高20%人口收入/最低20%人口收入基尼系数中国37倍4725尼泊尔47倍4730菲律宾11倍4397土库曼斯坦33倍4302泰国72倍4196马来西亚7倍4033柬埔寨04倍3805斯里兰卡83倍4018越南24倍3708台湾05倍3385阿塞拜疆95倍3650哈萨克斯坦61倍3383印度52倍3622印度尼西亚52倍3430韩国47倍3155蒙古44倍3284老挝4倍3463塔吉克斯坦14倍3263亚美尼亚08倍338文莱03倍3408巴基斯坦46倍3118吉尔吉斯43倍5分布集中趋势的测度分布集中趋势的测度一、一、众数(mode)二、二、中位数(median)三、四三、四分位数四、四、均值(mean)五、五、几何平均数(geometricmean)六、六、切尾均值(trimmedmean)七、众数、中位数和均值的比较七、众数、中位数和均值的比较集中趋势集中趋势常用的集中趋势的测度指标:算术平均数调和平均数几何平均数中位数众数集中趋势:一组数据向其中心值靠拢的倾向和程度。
集中趋势测度:寻找数据水平的代表值或中心值。
众数众数众数众数Mo(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据众数众数(不惟一性不惟一性)无众数无众数原始数据:一个众数一个众数原始数据:659855多于一个众数多于一个众数原始数据:2众数(众数(mode)Mo数据按大小顺序排队形成次数分配后,在统计分布中有明显集中趋势的数值。
正态分布和一般偏态分布中,分布的最高峰点所对应的数值就是众数。
是一种位置代表值。
112oiML众数众数对于分组数据来说,计算众数的近似公式为:112oiML其中:L:表示众数所在组的下组限1:表示众数组次数与下一组次数之差2:表示众数组次数与上一组次数之差i:表示众数所在组的组距众数的计算:分组资料众数的计算:分组资料*,例子,例子众数所在的组:80-90。
或者:众数等于众数所在组的组中值85。
成绩频数60以下360-70870-801280-901590以上4合计11dLMo【例】【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。
调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。
右边就是记录的原始数据绿色绿色健康饮品健康饮品例题分析结果例题分析结果Mo可口可乐可口可乐用用Excel求出求出Mo插入插入函数函数mode216频数可口可乐旭日升冰茶百事可乐汇源果汁露露品牌不同品牌饮料的频数分布不同品牌饮料的频数分布中位数中位数中位数中位数Me(median)排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即min1niiMxe中位数中位数(位置的确定位置的确定)原始数据:原始数据:21n中位数位置分组数据:分组数据:2n中位数位置数值型数据的中位数数值型数据的中位数【例例】9个家庭的人均月收入数据原始数据原始数据:排排序序:位位置置:中位数中位数n位置数值型数据的中位数数值型数据的中位数【例例】:10个家庭的人均月收入数据排排序序:00位位置置:521102。
- 1、本文档共147页,下载后即可获取全部内容。
- 2、此文档《统计学统计数据的描述学习培训模板课件》由用户(清凉的夏天)提供并上传,付费之前,请先通过免费阅读内容等途径辨别内容,本站所有文档下载所得的收益全部归上传人(卖家)所有;如有侵权或不适当内容,请进行举报或申诉。
- 3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买。
- 4、万象文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请谨慎购买。
- 5、本站文档的总页数、文档格式和文档大小以系统显示为准(内容中显示页数不一定正确),网站客服只以系统显示页数、文件格式、文档大小作为仲裁依据。

链接地址:https://www.2wx.com/view-6469915.html