【导与练】(新课标)2016届高三数学一轮复习 第9篇 第3节 变量间的相关关系与统计案例课件 理_图文


第3节

变量间的相关关系与统计
案例

最新考纲 1.会作两个有关联变量的数 据的散点图 , 并利用散点图 认识变量间的相关关系. 2. 了解最小二乘法的思想 , 能根据给出的线性回归方程 系数公式建立线性回归方程 ( 线性回归方程系数公式不 要求记忆).

3. 了 解 回 归 分 析 的 思 想、方法,并能初步应用 回归分析的思想、方法 解决一些简单的实际问 题. 4.了解独立性检验的思 想、方法,并能初步应用 独立性检验的思想、方 法解决一些简单的实际 问题.

编写意图

变量的相关关系与独立性检验在近几年高考中考查较

多,命题主要考查回归直线方程的求解与应用以及独立性检验,三种 题型都有,本节根据高考命题重点,设计了三个考点:相关关系的判 断、回归直线方程的求解与应用、独立性检验,并以后两考点为重

点,精心编制例题和练习.

夯基固本

考点突破 思想方法

夯基固本
知识梳理
1.变量间的相关关系

抓主干

固双基

(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是 相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变

量的这种相关关系称为正相关,点分布在左上角到右下角的区域
内,两个变量的相关关系为负相关.

质疑探究:相关关系与函数关系有何异同点? (提示:(1)相同点:两者均是指两个变量的关系. (2)不同点:①函数关系是一种确定的关系,相关关系是一种非确定 的关系; ②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能 是伴随关系)

2.回归方程与回归分析 (1)线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在一条直线 附近,就称这两个变量之 间具有线性相关关系,这条直线叫做回归直线. (2)回归方程 ①最小二乘法:求回归直线使得样本数据的点到回归直线的 距离的平方和 最
小的方法叫做最小二乘法. ? x+ a ? =b ②回归方程:方程 y ? 是两个具有线性相关关系的变量的一组数据
? 是待定数. (x1,y1),(x2,y2),?,(xn,yn)的回归方程,其中 a ? ,b
n ? xi ? x yi ? y ? ? ? i ?1 ? ? ?b ? n ? ( xi ? x)2 ? ? i ?1 ? ? . ? ? y ? bx ? ?a

?

??

? ? x y ? nx y
n i ?1 n i i

?x
i ?1

2 i

? nx

2

,

(3)回归分析 ①定义:对具有 相关关系 的两个变量进行统计分析的一种常用方法.
1 (x1+? n

②样本点的中心:在具有线性相关关系的数据(x1,y1),(x2,y2),?,(xn,yn)中, x = +xn), y =
1 ? ,( x , y )称为样本点的中心. (y1+?+yn), a ? = y - bx n

③相关系数 r=

? ? x ? x ?? y
n i ?1 i n 2 n i ?1 i i ?1

i

?y
i

?

,当 r>0 时,两变量正 相关,当 r<0 时,两变量负 相

? ( x ? x) ? ( y

? y)2

关,当|r|≤1 且|r|越接近于 1,相关程度越强,当|r|≤1 且|r|越接近于 0,相关程度越弱 .

3.独立性检验 (1)独立性检验的有关概念 ①分类变量 可用变量的不同“值”表示个体所属的 不同类别 的变量称为分类变量. ②2×2列联表 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本 频数列联表(称为2×2列联表)为 y1 y2 总计

x1
x2 总计

a
c a+c

b
d b+d

a+b
c+d a+b+c+d

(2)独立性检验 利用随机变量 K2=

? a ? b ?? c ? d ?? a ? c ?? b ? d ?

n ? ad ? bc ?

2

(其中 n=a+b+c+d 为样本容量)来判断

“两个变量有关系”的方法称为独立性检验. 步骤如下: ①计算随机变量 K2 的观测值 k,查表确定临界值 k0:
P(K2 ≥k0) k0 0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过 P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能 推断“X与Y有关系”.

基础自测
1.下列两个变量之间的关系是相关关系的是(
(A)正方体的棱长与体积 (B)单位面积的产量为常数时,土地面积与总产量

C

)

(C)日照时间与水稻的亩产量
(D)电压一定时,电流与电阻 解析:A,B,D中两个变量间的关系都是确定的,所以是函数关系;C中的

两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的
亩产量.

2.(2014 衡阳模拟)设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性 相关关系,根据一组样本数据(xi,yi)(i=1,2,?,n),用最小二乘法建立的回归方程
? =0.85x-85.71,则下列结论中不正确的是( 为y

D

)

(A)y 与 x 具有正的线性相关关系 (B)回归直线过样本点的中心( x , y ) (C)若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg (D)若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg
解析:根据线性回归方程中各系数的意义求解.由于线性回归方程中 x 的系数为 0.85,因此 y 与 x 具有正的线性相关关系,故 A 正确.又线性回归方程必过样本中心 点( x , y ),因此 B 正确.由线性回归方程中系数的意义知,x 每增加 1 cm,其体重约 增加 0.85 kg,故 C 正确.当某女生的身高为 170 cm 时,其体重估计值是 58.79 kg, 而不是具体值,因此 D 不正确.

3.(2014高考湖北卷)根据如下样本数据 x y 3 4.0 4 2.5
(B)a>0,b<0 (D)a<0,b<0

5 -0.5 B

6 0.5
)

7 -2.0

8 -3.0

? =bx+a,则( 得到的回归方程为 y

(A)a>0,b>0 (C)a<0,b>0

解析:根据题中表内数据画出散点图如图所示, 由散点图可知b<0,a>0.故选B.

4.(2014河北石家庄二模)通过随机询问200名性别不同的大学生是 否爱好“踢毽子运动”,计算得到统计量K2的观测值k≈4.892,参 照附表,得到的正确结论是( A ) 附表: P(K2≥k0) k0 0.10 2.706 0.05 3.841 0.025 5.024

(A)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性 别有关” (B)在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性 别无关” (C)有97.5%以上的把握认为“爱好该项运动与性别有关” (D)有97.5%以上的把握认为“爱好该项运动与性别无关”

解析:根据独立性检验的定义,由K2≈4.892∈(3.841,5.024)可知,我 们有95%以上不足97.5%的把握认为“爱好该项运动与性别有关”.故 选A.

5.调查了某地若干户家庭的年收入 x(单位:万元)和年饮食支出 y(单位:万元),调查显示年收入 x 与年饮食支出 y 具有线性相关关
? =0.254x+0.321.由 系,并由调查数据得到 y 对 x 的线性回归方程: y

线性回归方程可知,家庭年收入每增加 1 万元,年饮食支出平均增加 万元.
解析:由题意,知其回归系数为0.254, 故家庭年收入每增加1万元,

年饮食支出平均增加0.254万元.
答案:0.254

考点突破

剖典例

找规律

考点一 相关关系的判断 【例1】 (1)对变量x,y有观测数据(xi,yi)(i=1,2,?,10),得散点图 (1);对变量u,v有观测数(ui,vi)(i=1,2,?,10),得散点图(2).由这两 个散点图可以判断( )

(A)变量x与y正相关,u与v正相关 (B)变量x与y正相关,u与v负相关 (C)变量x与y负相关,u与v正相关 (D)变量x与y负相关,u与v负相关

(2)对四组数据进行统计,获得以下散点图,关于其相关系数比较,正

确的是(

)

(A)r2<r4<0<r3<r1 (C)r4<r2<0<r3<r1

(B)r4<r2<0<r1<r3 (D)r2<r4<0<r1<r3

解析: (1)由正、负相关的定义知,x与y负相关;

u与v正相关,故选C.
(2)由题图知①③为正相关,①中的点大致集中在一条直线附近, ③较分散,所以r1>r3>0,

又②④为负相关且②较集中在直线附近,④较分散,
所以r2<r4<0. 综上得r2<r4<0<r3<r1.故选A.

反思归纳

两个变量相关关系的判断

(1)散点图中的点大致在一条直线附近,就说明两个变量之间具有线 性相关关系,否则就说明不具有线性相关关系.
(2)由 x、y 的一组数据代入两变量的相关系数的计算公式

r=

? ? x ? x ?? y
n i ?1 i

i

?y

?

? ( xi ? x)
i ?1

n

2

2 ( y ? y ) ? i i ?1

n

若 r∈[-1,-0.75]∪[0.75,1],则两变量相关性很强.若 r∈ (-0.75,-0.30]∪[0.30,0.75),则两变量相关性一般,否则即说无相 关性.

【即时训练】 变量X与Y相对应的一组数据为(10,1),(11.3,2), (11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为

(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间
的线性相关系数,r2表示变量V与U之间的线性相关系数,则( (A)r2<r1<0 (B)0<r2<r1 )

(C)r2<0<r1

(D)r2=r1

解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对 于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,所以有 r2<0<r1.故选C.

考点二 线性回归方程及其应用 【例2】 (2014济南模拟)某工厂为了对新研发的一种产品进行合理 定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价x/元 销量y/件 8 90 8.2 84 8.4 83 8.6 80 8.8 75 9 68

? x+ a ? =-20, a ? ; ? =b (1)求回归直线方程 y ? ,其中 b ? = y - bx

(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的 成本是 4 元/件,为使工厂获得最大利润,该产品的单价应定为多少元? (利润=销售收入-成本)

解:(1)由于 x =
y=

1 (8+8.2+8.4+8.6+8.8+9)=8.5, 6

1 (90+84+83+80+75+68)=80, 6

? =-20, 又b
? =80+20×8.5=250, 所以 a ? = y - bx
? =-20x+250. 从而回归直线方程为 y

(2)设工厂获得的利润为 L 元,依题意得 L=x(-20x+250)-4(-20x+250) 2 =-20x +330x-1000 =-20(x-8.25)2+361.25. 当且仅当 x=8.25 时,L 取得最大值. 故当单价定为 8.25 元时,工厂可获得最大利润.

? ,求解 反思归纳 (1)求回归直线方程,关键在于正确求解系数 a ? 与b

过程需把握两点:一是求解回归直线方程的前提是两个变量线性相关, 可以利用散点图进行判断,如果两变量不线性相关,则求出的方程无 意义;二是把握中心点( x , y )必在回归直线上的特性.
(2)利用回归直线方程可以进行预测估计总体,但要注意代入相应的数 值后求得的结果只是一个估计值,因为这两个变量之间仅是相关关系, 而不是函数关系.

【即时训练】 以下是某地搜集到的新房屋的销售价格 y 和房屋的
面积 x 的数据:
房屋面积 x/m
2

115 24.8

110 21.6

80 18.4

135 29.2

105 22

销售价格 y/万元

(1)求线性回归方程; (2)据(1)的结果估计当房屋面积为 150 m2 时的销售价格.
1 解:(1) x = ×(115+110+80+135+105)=109, 5
y=

1 ×(24.8+21.6+18.4+29.2+22)=23.2. 5

? x+ a ? =b 设所求的线性回归方程为 y ? ,则

?= b

?? x
5 i ?1

i

? x yi ? y

??

?

2 ( x ? x ) ? i i ?1

5

308 = ≈0.1962, 1570

308 ? ∴a ≈1.8166. ? = y - bx =23.2-109× 1570
? =0.1962x+1.8166. ∴所求的线性回归方程为 y

(2)由第(1)问可知,当 x=150 m2 时,销售价格的估计值为
? =0.1962×150+1.8166=31.2466(万元). y

考点三 独立性检验的基本思想及应用
【例3】 (2014高考安徽卷)某高校共有学生15000人,其中男生10500人,女生

4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,
收集300位学生每周平均体育运动时间的样本数据(单位:小时). (1)应收集多少位女生的样本数据?

(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图
(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10], (10,12].估计该校学生每周平均体育运动时间超过4小时的概率.

(3)在样本数据中,有 60 位女生的每周平均体育运动时间超过 4 小时. 请完成每周平均体育运动时间与性别列联表,并判断是否有 95%的把 握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K ≥k0) k0
2

0.10 2.706

0.05 3.841

0.010 6.635

0.005 7.879

附:K =

2

? a ? b ?? c ? d ?? a ? c ?? b ? d ?
4500 =90,所以应收集 90 位女生的样本数据. 15000

n ? ad ? bc ?

2

解: (1)300×

(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平 均体育运动时间超过4小时的概率的估计值为0.75. (3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超 过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有 210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性 别列联表如下: 每周平均体育运动时间与性别列联表
男生 每周平均体育运动时间不超过 4 小时 每周平均体育运动时间超过 4 小时 总计 45 165 210 女生 30 60 90 总计 75 225 300

结合列联表可算得 K2=
300 ? ? 45 ? 60 ? 30 ?165? 75 ? 225 ? 210 ? 90
2

=

100 ≈4.762>3.841. 21

所以有 95%的把握认为 “该校学生的每周平均体育运动时间与性别有关” .

反思归纳

独立性检验的步骤

(1)根据样本数据制成2×2列联表.

(2)根据公式 K2=

? a ? b ?? a ? c ?? b ? d ?? c ? d ?

n ? ad ? bc ?

2

计算 K2 的观测值.

(3)比较 K2 与临界值的大小关系作统计推断.

【即时训练】 (2014银川模拟)为调查某地区老年人是否需要志愿 者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结 果如下: 性别 是否需要志愿者 需要 男 40 女 30

不需要 160 270 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区老年人是否需要志愿者提供帮助 与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区老年人 中,需要志愿者提供帮助的老年人的比例?说明理由.

附:
P(K ≥k0) k0
2

0.050 3.841
2

0.010 6.635

0.001 10.828

K2 =

? a ? b ?? c ? d ?? a ? c ?? b ? d ?

n ? ad ? bc ?

.

解:(1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此 该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值
70 为 =14%. 500

(2)K =

2

500 ? ? 40 ? 270 ? 30 ? 160? 70 ? 430 ? 200 ? 300

2

≈9.967.

由于 9.967>6.635, 所以有 99%的把握认为该地区老年人是否需要志愿者提供帮助与性 别有关.

(3)由(2)的结论知,该地区老年人是否需要志愿者提供帮助与性别 有关,并且从样本数据能看出该地区男性老年人与女性老年人中需 要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中 男、女的比例,再把老年人分成男、女两层,采用分层抽样方法,这 要比采用简单随机抽样方法更好.

助学微博

1.相关关系与函数关系的区别是函数关系是一种确定的关系,而相关 关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一 定是因果关系,也可能是伴随关系.
2.求回归直线方程的前提是两组变量线性相关,把握住样本数据的中 心点( x , y )必在回归直线上这一个重要特征.
3.独立性检验要明确 2×2 列联表中相应数据与 K2 公式中相关数值的对 应关系,能根据得到的 K2 值准确分析两组变量的相关性.

思想方法
是部分统计数据: 年份 需求量(万吨) 2006 236 2008 246

融思想

促迁移

转化思想在线性回归分析中的应用 【典例】 (2014大连模拟)某地最近十年粮食需求量逐年上升,下表

2010 257

2012 276

2014 286

? x+ a ? =b (1)利用所给数据求年需求量与年份之间的回归直线方程 y ?;

(2)利用(1)中所求出的直线方程预测该地 2016 年的粮食需求量.

解: (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回 归直线方程,为此对数据预处理如下:
年份 -2010 需求量 -257 -4 -21 -2 -11 0 0 2 19 4 29

对预处理后的数据,容易算得,
x =0, y =3.2,

? ?4 ? ? ? ?21? ? ? ?2 ? ? ? ?11? ? 2 ? 19 ? 4 ? 29 ? 5 ? 0 ? 3.2 260 ? b= = =6.5, 2 2 2 2 2 40 ? ?4 ? ? ? ?2 ? ? 2 ? 4 ? 5 ? 0
? =3.2. ? = y - bx a

由上述计算结果,知所求回归直线方程为 ? (x-2010)+ a ? -257= b y ? =6.5(x-2010)+3.2,
? =6.5(x-2010)+260.2.(*) 即y (2)利用直线方程(*),可预测 2016 年的粮食需求量为

6.5(2016-2010)+260.2=6.5×6+260.2=299.2(万吨).

方法点睛

实际问题中,通过回归分析可建立函数模型,对于较

大的数据,可进行适当的处理,转化为较小的数据.


相关文档

【导与练】(新课标)高三数学一轮复习 第9篇 第3节 变量间的相关关系与统计案例课时训练 理
高三数学一轮复习第9篇第3节变量间的相关关系与统计案例课件理讲述
2016届高三数学一轮复习第9篇第3节变量间的相关关系与统计案例课时训练理
【导与练】(新课标)高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理
2018届高三数学一轮复习第十一章统计、统计案例第三节变量间的相关关系、统计案例课件理
【第一方案】高三数学一轮复习 第十一章 统计、统计案例第三节 变量间的相关关系和统计案例课件
导与练重点班高三数学一轮复习第十篇统计与统计案例第3节变量的相关性与统计案例课件理08300188
【导与练】(新课标)2016届高三数学一轮复习 第9篇 第3节 变量间的相关关系与统计案例课时训练 理
【导与练】(新课标)2016届高三数学一轮复习 第9篇 变量间的相关关系与统计案例学案 理
高三数学一轮复习 第9篇 第3节 变量间的相关关系与统计案例课件 理
电脑版
?/a>