概率统计题型汇总及解题思路

(一)解题思路思维导图

(二)常见题型及解题思路

1.正确读取统计图表的信息

解题思路及步骤

注意事项

理解背景

读懂题目所给的背景,理解统计图表各个量的意义

对选项逐一判断

对选项逐一判断,统计图表是否能得出该选项的结论,错误选项一般是概念错误、计算错误、以偏概全的错误等

典例1:(2017全国3卷理科3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图,根据该折线图,下列结论错误的是(   ).

A.月接待游客量逐月增加

B.年接待游客量逐年增加

C.各年的月接待游客量高峰期大致在7,8月份

D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳

【解析】由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误,选A.

2.古典概型概率问题

解题思路及步骤

注意事项

求基本事件总数m

每个基本事件要求等可能,若是条件概率问题,在有条件则基本事件总数相对减少

求事件A包含基本事件个数n

确定A包含基本事件个数时要不重不漏

代入公式求概率

,事件A已经发生的条件下在事件B发生概率

典例2:(2018全国2卷理科8)我国数学家陈景润在哥德巴赫猜想的研究中取得了世界领先的成果.哥德巴赫猜想是“每个大于2的偶数可以表示为两个素数的和”,如

.在不超过30的素数中,随机选取两个不同的数,其和等于30的概率是

A.

B.

C.

D.

解:不超过30的素数有2,3,5,7,11,13,17,19,23,29,共10个,随机选取两个不同的数,共有

种方法,因为

,所以随机选取两个不同的数,其和等于30的有3种方法,故概率为

,选C.

典例3: (2014全国2卷理科5)某地区空气质量监测资料表明,一天的空气质量为优良的概率是0.75,连续两天为优良的概率是0.6,已知某天的空气质量为优良,则随后一天的空气质量为优良的概率是 (  )

  1. 0.8     B. 0.75    C. 0.6      D. 0.45

解:设某天空气质量优良,则随后一天空气质量也优良的概率为p,则据条件概率公式得,故选A.

3.几何概型问题

解题思路及步骤

注意事项

求试验全部结果所构成区域长度(或面积或体积)

明确表示实验结果的是一个变量、两个变量还是三个变量,它们分别用长度(或角度)、面积和体积来表示

求构成事件A的区域长度(或面积或体积)

确定构成事件A的区域长度(或面积或体积)

代入公式求概率

典例4:(2016全国1卷理科4)某公司的班车在7:30,8:00,8:30发车,小明在7:50至8:30之间到达发车站乘坐班车,且到达发车站的时刻是随机的,则他等车时间不超过10分钟的概率是 (  )

A.             B.          C.          D.

解:如图所示,画出时间轴:

小明到达的时间会随机地落在图中线段AB中,而当他到达时间落在线段AC或DB时,才能保证他等车的时间不超过10分钟,根据几何概型,所求概率P==.选B.

4.类似超几何分布的离散型随机变量分布列问题(古典概型求概率)

解题思路及步骤

注意事项

写出随机变量可能取值

明确随机变量取每一个值的意义

求出随机变量取每个值的概率

“从M个不同元素中不放回抽取(或同时抽取)n个元素”类型概率问题,用古典概型求概率

写出分布列

检验所有概率之和是否等于1

求数学期望

若服从超级和分布

,则可带入公式快速求出

5.类似二项分布的离散型随机变量分布列问题(频率估计概率,相互独立事件概率计算)

解题思路及步骤

注意事项

写出随机变量可能取值

明确随机变量取每一个值的意义

求出随机变量取每个值的概率

当有“把频率当成概率或用频率估计概率”条件时,“从M个不同元素中抽出n个元素”类型概率问题就变成相互独立事件的问题

写出分布列

检验所有概率之和是否等于1

求数学期望

若服从二项分布,则可带入公式快速求出

典例5(超几何分布与二项分布辨析):某工厂为检验其所生产的产品的质量,从所生产的产品中随机抽取10件进行抽样检验,检测出有两件次品.

(1)从这10件产品中随机抽取3件,其中次品件数为X,求X分布列和期望;

(2)用频率估计概率,若所生产的产品按每箱100件装箱,从一箱产品中随机抽取3件,其中次品件数为Y,求Y分布列和期望;

(3)用频率估计概率,从所生产的产品中随机抽取3件,其中次品件数为Z,求Z分布列和期望.

分析:第(1)问中,抽取产品的总体N=10,所含次品件数M=2,都是明确的,所以该随机变量的分布为超几何分布。第(2)问是从一箱产品中抽取,产品的总体N=100是明确的,但其中有多少件次品M是不明确的,有的同学根据样本可认为M=20,但违背了题目中的“用频率估计概率”这一条件,或者说没有理解这句话的含义,本质上就是概率的定义没有理解。根据概率定义,“用频率估计概率”这一条件应理解为:从这100件产品中任意抽取1件产品,该件产品是次品的概率是0.2,同时抽取3件等同于不放回抽1件3次,由于每次的概率都是0.2,因此,可以看成独立重复实验,该随机变量的分布为二项分布。第(3)问是从所生产的全部产品中抽取,而全部产品有多少件题目条件没给出,这时总体N不明确(若总体N明确,就属于第(2)问情况),其中所含次品件数M自然也是不明确的。因此,类似的,在“用频率估计概率”这一条件,该随机变量的分布为二项分布。

以上分析用一个表归纳如下:

抽取总体个数N

总体中所含次品M个数

随机变量分布类型

明确

明确

超几何分布

明确

不明确

二项分布

不明确

不明确

二项分布

从该例以看到,当保持不变,若N越大,每次不放回抽取,抽到次品的概率与相差越小,因此,当N很大时,超几何分布可以近似看成二项分布。

典例6:据报道,全国很多省市将英语考试作为高考改革的重点,一时间“英语考试该如何改革”引起广泛关注,为了解某地区学生和包括老师、家长在内的社会人士对高考英语改革的看法,某媒体在该地区选择了3000人进行调查,就“是否取消英语听力”问题进行了问卷调查统计,结果如下表:

态度调查人群

应该取消

应该保留

无所谓

在校学生

2100人

120人

社会人士

500人

已知在全体样本中随机抽取1人,抽到持“应该保留”态度的人的概率为0.06.

(1)现用分层抽样的方法在所有参与调查的人中抽取300人进行问卷访谈,问应在持“无所谓”态度的人中抽取多少人?

(2)在持“应该保留”态度的人中,用分层抽样的方法抽取6人,再平均分成两组进行深入交流,求第一组中在校学生人数的分布列和数学期望.

典例7(与函数结合):(2018全国1卷理科20)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验,设每件产品为不合格品的概率都为

,且各件产品是否为不合格品相互独立.

(1)记20件产品中恰有2件不合格品的概率为

,求

的最大值点

(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的

作为

的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.

(i)若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为

,求

;

(ii)以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?

解:(1)20件产品中恰有2件不合格品的概率为

.因此

.令

,得

.当

时,

;当

时,

.所以

的最大值点为

.

(2)由(1)知,

.

(i)令

表示余下的180件产品中的不合格品件数,依题意知

,即

.所以

.

(ii)如果对余下的产品作检验,则这一箱产品所需要的检验费为400元.由于

,故应该对余下的产品作检验.

6.其他离散型随机变量分布列问题(频率估计概率,方案选择,随机变量取值意义,与其他知识结合)

解题思路及步骤

注意事项

写出随机变量可能取值

这类题重点考查是否理解随机变量取每一个值的意义

求出随机变量取每个值的概率

注意对随机变量所取的值表示多种的情况,多数情况由频率估计估计概率

写出分布列

检验所有概率之和是否等于1

求数学期望

通过数学期望进行决策

典例8(与函数结合):(2107全国3卷理科18)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为瓶;如果最高气温位于区间,需求量为瓶;如果最高气温低于20,需求量为瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:

以最高气温位于各区间的频率代替最高气温位于该区间的概率.

(1)求六月份这种酸奶一天的需求量(单位:瓶)的分布列;

(2)设六月份一天销售这种酸奶的利润为(单位:元),当六月份这种酸奶一天的进货量(单位:瓶)为多少时,的数学期望达到最大值?

7.连续型随机变量分布问题——正态分布

解题思路及步骤

注意事项

明确总体的均值和方差

一般用样本的均值和方差估计总体的均值和方差

求随机变量在某范围概率

利用正态密度曲线关于对称性求概率

9.95

10.12

9.96

9.96

10.01

9.92

9.98

10.04

10.26

9.91

10.13

10.02

9.22

10.04

10.05

9.95

8.最小二乘法求两个线性变量的回归方程问题

解题思路及步骤

注意事项

画散点图

若样本点大致分布在一条直线附近,则可判断两个变量具有线性相关,若题设已知两个变量线性相关,可省略该步骤

求和

准确计算和

列表计算

根据样本数据特点合理选用公式计算,若各数据与平均数差的有效数学字比原数据少,则选用作差再相乘的公式

求,写出回归方程

运算结果保留两位小数位数应与题目要求

典例11:(2016全国3卷理科18)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.

注:年份代码1-7分别对应年份2008-2014.

(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.

(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.

附注:

参考数据: yi=9.32, tiyi=40.17, =0.55,≈2.646.

参考公式:相关系数r=  回归方程中斜率和截距的最小二乘估计公式分别为:,

解:(1)由折线图中的数据和附注中参考数据得

因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.

(2)由=1.331及(1)得≈0.103,

≈1.331-0.103×4≈0.92.所以,y关于t的回归方程为=0.92+0.10t.

将2016年对应的t=9代入回归方程得:=0.92+0.10×9=1.82.

所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.

9.两个变量通过换元可转化为线性相关问题

解题思路及步骤

注意事项

画散点图

根据样本点分布情况确定两个变量适用的函数模型,若题设已知两个变量的函数模型,可省略该步骤

换元

通过换元,使得换元后的两个变量线性相关(一次函数关系)

求线性回归程

用最小二乘法求线性回归方程

还原

还原为原来两个变量的回归方程

典例12:(2015全国1卷理科19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

(xi-)2

(wi-)2

(xi-)(yi-)

(wi-)(yi-)

46.6

563

6.8

289.8

1.6

1 469

108.8

表中wi=,=wi.

(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.

(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:

①年宣传费x=49时,年销售量及年利润的预报值是多少?

②年宣传费x为何值时,年利润的预报值最大?

附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归线v=α+βu的斜率和截距的最小二乘估计分别为:

=,

=-

.

解:(1)由散点图的变化趋势可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.

(2)令w=,先建立y关于w的线性回归方程.由于

=-

=563-68×6.8=100.6,所以y关于w的线性回归方程为

=100.6+68w,因此y关于x的回归方程为

=100.6+68.

(3)①由(2)知,当x=49时,年销售量y的预报值

=100.6+68=576.6,年利润z的预报值

=576.6×0.2-49=66.32.

②根据(2)的结果知,年利润z的预报值,

=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,

取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.

10.两个分类变量是否有关的独立性检验问题

解题思路及步骤

注意事项

2×2列联表

注意是用样本数据而不是总体数据

计算卡方

注意运算策略,处理分子的交叉相乘时应先提公因式,平方数写成乘积形式再约分,最后除法运算保留三位小数

比较经验值

要根据题设中的百分比找对应的经验值做比较

下结论

根据比较结果,把结论完整的表述出来,不能只是说有关或无关

典例13:(2018全国3卷理科18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;

(2)求40名工人完成生产任务所需时间的中位数

,并将完成生产任务所需时间超过

和不超过

的工人数填入下面的列联表:

超过

不超过

第一种生产方式

第二种生产方式

(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?

附:

解:(1)第二种生产方式的效率更高.理由如下:

(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.

(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.

(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.

(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.

(0)

相关推荐