数据、模型与决策.ppt
《数据、模型与决策.ppt》由会员分享,可在线阅读,更多相关《数据、模型与决策.ppt(381页珍藏版)》请在麦多课文档分享上搜索。
1、数据、模型与决策 Data, Models and Decisions,1、主要讲授课程: 计量经济学、运筹学、经济预测与决策技术 2、主要研究方向: 多元统计 半参数统计中估计问题 因果效应推断,本课程的主要内容,数据分析的基本内容 计量模型的基本方法 预测与决策的基本技术 软件的简单应用,本课程的特点 数据、模型与决策流程,数据、模型与决策的目的 是在科学、符合逻辑和合理的基础上制定决策,特点:,以数据为基础。将数据作为基本的信息来源,以对实际问题的了解为基本结构,以数据对结构的吻合程度为标准。 以模型为手段。以数学理论与方法为工具定量研究社会经济现象之间的关系,形成较严密的研究特色,具有
2、较好的可试验性。 决策是目的且具有量的特征,定量可以对问题的描述较精确,能对问题的本质进行深入、广泛的推断,为科学决策提供依据。 是一门多学科交叉的科学,数理统计学与运筹学、管理学是其基础 计算机技术是必不可少的工具。,实际问题1:资源分配问题,潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨
3、光作业)。你们公司有这样的经历吗?,实际问题2:销售量评估,某食品公司生产各种系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?预测对生产计划有多重要?,案例1,有兄弟姐妹一起成长,不仅增添亲情,而且有预防疾病的好处 一项来自澳大利亚的研究表明:兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能,并预防多发性硬化症。 塔斯马尼亚州研究者观察了136名多发性硬化症患者,并与272名健康者进行了对比。,有兄弟姐妹的人得病少,科
4、学家发现:在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88%,而与兄弟姐妹接触1-3年的人可降低43%。,案例2,科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不住,小动作很多,日常消耗的热量就多,就能保持苗条的身材。 美国梅欧医院请来了20位志愿者,进行了为期一年的研究。志愿者分为两组,一组较瘦,另一组轻度微胖。所有志愿者都穿上一种带有传感器的特制内衣,内衣里的装置每隔半秒钟记录一次人体的姿态与活动,“坐立不安”让人苗条,志愿者照常进行他们的日常工作与活动,所有食物由研究人员提供 研究人员发现,轻度微胖者更喜欢坐着,而身材苗条组的人闲不住。瘦人组的平均“坐立不安
5、”的时间比胖人组多2个小时,相当于多消耗350卡热量 如果胖人组也这么不“消停”的话,一年下来完全可以减轻14-18磅的体重 此外,研究人员还发现:一个人爱动还是喜静是天生的,与体重无关。在研究的第二阶段,让瘦人多吃1000卡,热量,胖人少吃1000卡热量,他们的生活习惯没有改变。这项研究为肥胖者提供了新的希望。以上几个问题说明在现实生活中,不管是进行决策还是进行研究发现新结果,都离不开数据。,第一章、数据与数据展示,1.数据概述:可分为科学数据、社会数据、商业数据。(依来源与用途) 分类:数值型与属性型静态数据与动态数据时间序列数据、截面数据、面板数据 定类数据、定序数据、定距数据与定比数据
6、,(一)数据的来源,1、已存在的数据。包括存在于组织中的一些个人信息资料;一些专门收集与维护数据的公司所拥有的商务数据;政府机构 2、调查研究获得的数据。可分为实验性研究与观察性研究,(二)数据收集的道德准则与行为规范,基本准则:数据的客观性与可重复性 行为规范:(1)尽可能收集原始数据或第一手数据(2)引用数据时,要辨别是否侵犯知识产权,合法引用要注明数据的来源。(3)原始数据有异常时,要分析异常的原因,不得随意删除、篡改数据。(4)要说明数据处理的工具、方法及处理过程(5)通过问卷调查的数据,要说明调查内容、调查表的设计等,(三)数据图表表示,数据收集好了,那我们就来看看从数据中能挖到什么
7、宝藏了! 3.1 类别数据的表格表示 例3.1 交通事故的驾驶因素分析 造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析,得到的原始数据如下:,从例3.1的数据,你能看出些什么? 也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好! 其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。 一些常用的软件如Excel,几乎能完美地为你完成这些图表!,我们从表1很容易看出: 哪些因素是比较主要的因素? 各因素之间频率
8、的差异有多大? 等等。 有时,累积频率也需要在频数频率分布表中列出。 每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。 譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。,表2 分析驾驶因素中主要因素的频数频率分布表,用Excel制作定性数据频数频率分布表,累积频率更常用于有序数据的分析中。我们来看一个例子。例3.2 博客调查 (http:/ Perseus Development 公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供
9、的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。,表3 各年龄段的博客创建情况,数据的图形表示 用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。 当我们在考虑各种图的时候,把变量稍加分类会有帮助。 有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别、职业或教育程度。 类别变量只记录所属类别,譬如,例1的变量就是类别变量,它包含5个类,个体的数据就是指个体属于其中某个类。 要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例3.1的图形表示。
10、,柱形图与条形图作法垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。例:创建我国20012004年第一、第二和第三产业产值数量的变化的柱形图。,打开Excel表,单击“插入图标”工具图标,选择图表类型柱形图和子图标类型,点击“下一步”。,2. 选择目标数据,用鼠标选定B4:D8 ,单击“系列”卡片,点击“下一步”。,3. 输入系列名称,用鼠标选定“分类(X)轴标志” A5:A8 ,单击“下一步”,4. 输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。,5. 选择图表位置,单击“完成”。,6. 图表完成。如果需要,可以双击图表中任
11、何一部分进行修改。,图表区,分类轴,分类轴标题,数值轴,图例,图表标题,系列“第一产业”,绘图区,数值轴主要网格线,数值轴标题,系列“第二产业”,系列“第三产业”,直方图,因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比较清楚。这就是本节中我们将重点介绍的图形直方图(histogram),它是描述数量变量分布最常用的图。 在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方
12、形所组成的图形,就叫做频数分布直方图,简称直方图。通过直方图,我们可以比较快速、直观地把握整体的分布情况。,直方图作法,步骤: 1)确定直方图的区间个数,填入每个组界值;2)打开“工具”菜单;3)选择“数据分析”;4)选择“直方图”;5)在“直方图”对话框中填入数据,用Excel制作定量数据频数频率分布表和直方图 见例1.14,(四)数据集中与分散属性的度量,某两个班DMD考试成绩如下: 80 85 76 78 67 93 88 90 75 66 65 77 74 83 81 70 83 64 96 60 79 86 80 71 79 8987 74 78 65 97 89 91 61 79
13、77 85 89 78 72 86 84 88 84 66 69 78 74 77 89 81 如何评价这两个班的学习成绩呢?,描述数据的分布属性是描述统计的主要内容,数据的分布属性包括: 数据的频数分布和直方图 数据集中属性的指标(平均数、中位数、众数、比例) 数据离散属性的指标(极差、方差、标准差) 数据分布形态的指标(偏度、峰度) 数据的计数和求和 数据之间的相关程度的指标(相关系数) Excel中的统计功能有以下三种实现方法 使用Excel的菜单统计工具 使用Excel统计函数 使用Excel统计插件(例如PHStat等),数据集中趋势的测度 均值:一组数据的平均值。中位数:数据序列中
14、位于中间的值。众数:发生次数最多的值。,不同年龄段每周上网时间的平均值,=AVERAGE(B23:B158),=AVERAGE(C23:C279),=AVERAGE(D23:D186),=AVERAGE(E23:E133),=AVERAGE(F23:F86),一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两个的平均值。,=MEDIAN(B23:B158),=MEDIAN(C23:C279),=MEDIAN(D23:D186),=MEDIAN(E23:E133),=MEDIAN(F23:F86),众数是一组数据出现次数最多的数值。如果一
15、组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:,=MODE(B23:B158),=MODE(C23:C279),=MODE(D23:D186),=MODE(E23:E133),=MODE(F23:F86),标准差:反映数据的离散程度。方差:是标准差的平方。 极差:最大与最小之差。 标准误:通常只针对抽样均值而言。,标准差的重要性 切比雪夫定理:任何一组数据,设它的平均数为,标准差为,这组数据落在 范围内的数据个数占数据总数的比例,至少是 。 这个定理说明了标准差是数据分散程度的一个普遍性的指标。,在工业生产中,产品的指标总会出现波动,一般都把产品
16、指标的变动控制在指标平均值加减3个标准差的范围内,认为这是生产正常的标志。,如果产品指标波动超出这个范围,说明生产系统不正常。,在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(平均值),另一个是收益的标准差。投资收益的标准差表示投资风险的大小,标准差越大,风险越大。,低收益 低风险,低收益 高风险,高收益 低风险,高收益 高风险,变异系数 标准差是测定数据离散程度的标志,但由于不同的数据数值大小不同,相同的离散程度,数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据:为了比较大小不同的几组数据的离散程度,定义如下的变异系数(Coefficient of Varia
17、tion ):,(五)数据频数分布形态,描述数据频数分布形态的指标有两个 峰度:设数据个数为N个,峰度计算公式为峰度系数是描述数据分布陡峭或平坦的指标。正态分布的峰度为0. 比正态分布平坦的峰度为负值。,偏度:描述数据分布对称性指标。公式为正态分布偏度为0,数据频数右偏,偏度系数为负;左偏为正。,(六) 数据的统计相关性,1.因果相关性:指变量X与变量Y之间存在因果关系。因果关系可以通过理论或实验证实。 2. 统计相关性:指变量X的数值与变量Y的数值之间可以找出统计关系,统计关系是一种数量关系,不需要、还没有或不可能解释二者之间的相关的原因。 因果相关的变量不一定有统计相关性,有统计相关的也不
18、一定有因果关系,线性相关系数:反映两个变量之间线性统计关系的指标。分总体相关系数与样本相关系数。设有两个变量X,Y,其均值与方差分别为则总体相关相关系数为,其中称为X,Y的协方差。 样本相关系数的计算公式为,用R表示总体相关系数,r表示样本相关系数。相关系数反映了数据之间的线性相关程度。即便数据存在非线性相关,R与r可能为0. 以后一般指线性相关。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关, r绝对值反应两变量间相关关系的密切程度,绝对值越大说明相关关系越密切, r的绝对值等于1为完全相关,r=0为零相关。,第二章、概率论与统计学基础,(一) 随机事件、随机变
19、量与频数 事件分类:确定性与随机性。 随机变量:表示随机事件各种可能结果的变量。每一个随机变量都有确定的可能取值。 随机变量分类:离散型与连续型。,随机事件的运算 随机事件的交(Intersection):事件A和事件B同时发生的事件称为事件A和事件B的交。记为AB或A and B 随机事件的并(Union):事件A和事件B至少一个发生的事件称为事件A和事件B的并。记为AB或A or B。 如果两个事件不可能同时发生,则这两个事件是互斥(Mutually exclusive)的。随机事件的差:事件A发生而事件B不发生,则称这个事件是A与B的差事件。A-B,样本数、频数,对随机变量,我们感兴趣的
20、是它的各种可能结果发生几率有多大。可以通过记录随机变量发生的次数,称为样本数。观察它的各种可能结果出现的次数,称之为随机变量频数。 假设随机变量X可能取 这m个结果,记取 的次数为 称为随机变量取值的频数。那么,当样本数为N时,有,相对频数:随机变量可能结果的频数与样本数之比,记为:显然,所有相对频数之和为1,即例:见教材P50例,(二)离散随机变量及分布,当样本量不断增加时,离散随机变量相对频数趋向于一个稳定的值,称之为随机变量的概率。记随机变量X取某一个值 的概率为 即有 几个概率法则 法则1:概率值都在01之间。 法则2:所有可能性的概率之和等于1 法则3:如果事件A和事件B互斥,那么两
21、个事件的并发生的概率等于两事件发生的概率之和。即 P(AB)=P(A)+P(B),法则4:如果两事件不是互斥的,那么两个事件的并发生的概率等于两事件发生的概率之和,减去两事件的交发生的概率。即:P(AB)=P(A)+P(B)-P(AB) 离散随机变量分布律:离散随机变量可以用分布律表示其取值的概率。 分布函数:对给定的一个实数,随机变量不超过这个值的概率(也称累积概率)。,记分布函数为F(x), 则表达式为 很显然,分布函数是一个分段右连续函数。 2、几个重要的离散分布贝努利分布:如果一个随机变量X只有两个结果,而且两个结果发生概率是不变的,则称这个随机变量服从贝努利。记X的两个取值分别为0与
22、1,取0的概率为p, 则X的概率分布律为,二项分布:重复了 n 次的贝努利分布试验。设成功的概率为P,则在n次试验中成功了x次的概率为记为 . 二项分布的均值为np, 方差为np(1-p).泊松分布:在排队系统中,比如到公交站的人数,到银行的人数,常常假定单位时间内到达的客人数满足如下条件:(1)单位时间内到达的顾客数的均值与到达时间无关,这称为随机变量的平稳性。(2)任何两个到达的顾客之间是独立的,称为普遍性。,(3)前面到达顾客人数不影响后面到达顾客人数,称为无后效性。(4)所有有限时间内到达的顾客总数是有限的,称为有限性。可以得出有k个顾客到达的概率为 其中, 为单位时间到达的顾客数量的
23、均值。,(三)连续型随机变量及概率分布,例(略) 对连续型随机变量X,概率曲线记为f(x),即随机变量X的概率密度函数,简称密度函数;累积概率曲线记为F(x), 即随机变量X的累积概率分布函数,简称分布函数。 命题1:设连续型随机变量X的取值范围为a, b, 密度函数为f(x), 分布函数为F(x), 则有 (1) 随机变量X落在区间 中的概率为:,(2)密度函数在随机变量所有取值范围内的积分为1.(3)(4)(5),几个重要的连续随机变量分布,1.正态分布:若随机变量的密度函数为:其中, 为正态分布的均值与标准差。分布函数为:,正态分布,x,O,+,-,f(x),标准正态分布:当 时,正态分
24、布称为标准正态分布。一般正态分布做变换即可化为标准正态分布,标准正态分布密度函数(x)的曲线有以下特征: 是偶函数,关于y轴对称,即 当x=0时, 取得最大值 x取值离原点越远,(x) 值越小。 在x=1有两个拐点。 曲线与x轴间所夹面积为1对分布函数有,如果 ,则X的分布函数 例 设XN(0,1),求P|X|x,并计算P|X|1.28。 设某种产品的重量X服从N(100,16)。如果产品的重量在95105之间属于合格品,求产品是合格品的概率。 已知小麦穗长服从N(9.978, 1.4412),求下列概率:(1)穗长小于6.536cm。(2)穗长大于12.128cm。(3)穗长在8.573cm
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 模型 决策 PPT
