当前位置:首页 >> 数学 >>

第三章统计案例课件二_图文

数学3——统计内容 1. 画散点图 2. 了解最小二乘法的思想 3. 求回归直线方程 y=bx+a

4. 用回归直线方程解决应用问题

复习 变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 y = x2 确定性关系 问题2:某水田水稻产量y与施肥量x之间是否 有一个确定性的关系? 例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得

到如下所示的一组数据:
施化肥量x 水稻产量y

15

20

25 365

30

35

40

45

330 345

405 445

450 455

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455

y
500 450 400 350 300 10

水稻产量

··
20

·

·

·· ·
施化肥量

30

40

50

x

1、定义:
自变量取值一定时,因变量的取值带有一定 随机性的两个变量之间的关系叫做相关关系。 注 1):相关关系是一种不确定性关系; 2): 对具有相关关系的两个变量进行统计 分析的方法叫回归分析。

现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量;

商品的销售额与广告费;
家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?

施化肥量x
水稻产量y

15

20

25
365

30

35

40

45

330 345

405 445

450 455 散点图

y
500 450 400 350 300 10

水稻产量

··
20

·

·

·· ·

施化肥量
30 40 50

x 发现:图中各点,大致分布在某条直线附近。
探索2:在这些点附近可画直线不止一条,哪条直 线最能代表x与y之间的关系呢?

y
500

水稻产量

450
400 350 300 10

· · ··
20 30

··

·

y ? ? x ??

施化肥量
40 50

x

探究
对于一组具有线性相关关系的数据 ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn ),

我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:

a ? yn? b x,......(1) n ? ( xi ? x)( yi ? y) ? xi y i ? nx y ^ b ? i ?1 n ? i ?1n ,......(2) 2 2 2 ? ( xi ? x) ? xi ? nx
i ?1 i ?1

^

^

1 n 1 n 其中x ? ? xi , y ? ? yi . ( x, y ) 称为样本点的中心。 n i ?1 n i ?1
你能推导出这个公式吗?

假设我们已经得到两个具有相关关系的变量的一组数据 ^ ( x1 , y1 ), ( x2 , y2 ),..., ( xn , yn ) 且回归方程是:y=bx+a,
其中,a,b是待定参数。当变量x取

它与实际收集到的

xi (i ? 1, 2,..., n) 时 yi 之间的偏差是 yi ? ?i ? yi ? (bxi ? a) y
( xi , yi ) yi ? ?i y

y
( x1 , y1 )

o

( x2 , y2 )

x

取最小值时 ? , ? 的值。由于 n Q(? , ? ) ? ? [ yi ? ? xi ? ( y ? ? x) ? ( y ? ? x) ? ? ]2
? ?{[ yi ? ? xi ? ( y ? ? x)]2 ? 2[ yi ? ? xi ? ( y ? ? x)] ? [( y ? ? x) ? ? ] ? [( y ? ? x) ? ? ]2} ? ? [ yi ? ? xi ? ( y ? ? x)] ? 2? [ yi ? ? xi ? ( y ? ? x)] ? ( y ? ? x ? ? ) ? n( y ? ? x ? ? ) 2 ,
2 i ?1 i ?1 n n i ?1 n

i ?1

i 1 注意到,n [ yi ? ? xi2 ? ( y ??? x)] ? ( y ? ? x ? ? ) ? n( y ? ? x ? ? )? [ yi ? ? xi ? ( y ? ? x)] 2 ? n i ?1 ? n n ? ? 2 ? ( xi ? x) ? 2? ? ( xi ? x)( yi ? y ) ? ? ( yi ? y ) ? in1( y ? ? x ? ? ) 2
n ? 2 ? 2 ?n(iy ?)(?i x)])? 0,[? ( xi ? x)( yi ? y)]2 n n ? ( y ? ? x ?2? )[n y ? n? x ??1 ( x ? x y ? y ? i ?1 ? ? ? n( y ? ? x ? ? ) ? ? ( xi ? x) ? ? ? i n ? ? ( yi ? y ) n ? i ?1 i ?1 ? ( xi ? x)2 ? ? ( xi ? x)2 ? ? i ?1 i ?1 ? ?

因此,Q(? , ? ) ? ? [ yi ? ? xi ? ( y ? ? x)]2 ? n( n ? ? x ? ? ) 2 y n
i ?1

? ?1 ? ( y ? ? ix1? ? )[? yi ? ? i? xi ? n( y ? ? x)]

i ?1

^

易知,截距

a

^

和斜率 b 分别是使

Q(? , ? ) ? yi ? ?i ? yi ? ( ? xi ? ? ) y

n

i ?1 ?

n

2

在上式中,后两项和 ? , ? 无关,而前两项为非负 数,因此要使Q取得最小值,当且仅当前两项的值 均为0,即有

??

? ( x ? x)( y ? y)
i ?1 i i

n

( xi ? x) 2 ?
i ?1

n

? ? y??x

这正是我们所要推导的公式。

1、回归直线方程
1、所求直线方程叫做回归直线方程; 相应的直线叫做回归直线。

?

2、对两个变量进行的线性分析叫做线性回归分析。

? b?

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

n

? ( x ? x)
i ?1 i

n

?

i ?1 n

i

i

2

?x
i ?1

,
2

2 i

? nx

? ? a ? y ? bx

最小二乘法:

? ? ? ? bx ? a y

n n ? ? (x i -x)(yi -y) ? x i yi -nxy ? ? b= i=1 ? = i=1 , ? n n 2 2 -nx 2 ? ? (x i -x) ? xi ? i=1 i=1 ? ? ?a=y-bx. ? ? 1 n 1 n 其中x= ? x i ,y= ? yi . n i=1 n i=1

(x, y)

称为样本点的中心。

2、求回归直线方程的步骤:
1 n 1 n (1)求 x ? ? xi , y ? ? yi n i ?1 n i ?1

(2)求? xi 2 , ? xi yi .
i ?1 i ?1

n

n

(3)代入公式

?

b?

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

n

? ( x ? x)
i ?1 i

n

?

i ?1 n

i

i

2

?x
i ?1

,
2

2 i

? nx

a ? y ? bx,......(1)

^

^ (4)写出直线方程为y=bx+a,即为所求的回归直线方程。

例1、观察两相关量得如下数据: x -1 -2 -3 -4 -5 5 y -9 -7 -5 -3 -1 求两变量间的回归方程. 解:列表: i xi yi xiyi 1 -1 -9 9 2 -2 -7 14 3 -3 -5 15 4 -4 -3 12
10

3 5

4 3

2 7

1 9

1

5 -5 -1 5

6 5 1 5
10

7 3 5 15

8 4 3 12

9 2 7 14

10 1 9 9

x ? 0, y ? 0,

?x
i ?1

10

2 i

? 110, ? y ? 330, ? x i y ? 110.
2 i ?1 i i ?1 i

?b ?

?x y
i ?1 10 i

10

i

? 10 x ? y
2

?x
i ?1

2 i

? 10 x

110 ? 10 ? 0 ? ?1 110 ? 10 ? 0

a ? y ? bx ? 0 ? b ? 0 ? 0
?
所求回归直线方程为

? ? x. y

例2:已知10只狗的血球体积及血球的测量值如下:
x 45
6.5 3

42
6.3 0

46
9.5 2

48

42

35

58
9.4 9

40
9.2 0

39
6.5 5

50
8.7 2

y

7.5 6.99 5.9 0 0

x(血球体积,mm), y(血球数,百万) (1)画出上表的散点图; (2)求出回归直线并且画出图形; (3)回归直线必经过的一点是哪一点?

3、利用回归直线方程对总体进行线性相关性的检验 例3、炼钢是一个氧化降碳的过程,钢水含碳量的多少 直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼 时间的关系。如果已测得炉料熔化完毕时,钢水的含碳 量x与冶炼时间y(从炉料熔化完毕到出刚的时间)的一 列数据,如下表所示:

x(0.01%) y(min)

104 180 190 177 147 134 150 191 204 121
100 200 210 185 155 135 170 205 235 125

(1)y与x是否具有线性相关关系;
(2)如果具有线性相关关系,求回归直线方程; (3)预测当钢水含碳量为160个0.01%时,应冶炼多少分 钟?

(1)列出下表,并计算
i xi yi xiyi
1 104 100 10400 2 180 200 3600 0 3 190 210 3990 0 4 177 185 3274 5 5 147 155 2278 5 6 134 135 1809 0 7 150 170 2550 0 8 191 205 3915 5 9 204 235 4794 0 10 121 125 1512 5

x ? 159.8, y ? 172,

?x
i ?1

10

2 i

? 265448, ? y ? 312350, ? x i y ? 287640
2 i ?1 10 i i ?1 i

10

10

于是,r ?

? x y ? 10 x ? y
i ?1 i i 2 10 i ?1 2 i 2

(? x ? 10 x )(? y ? 10 y )
i ?1 2 i

10

? 0.9906.

(2)设所求的回归方程为
?b ?
^
^

? ? ? y ? bx ? a
? 1.267
2

?x y
i ?1 10 i

10

i

? 10 x ? y

?x
i ?1

2 i

? 10 x

a ? y ? bx ? ?30.51.
? 所以回归直线的方程为 y =1.267x-30.51
? 1.267.160-30.51=172 (3)当x=160时, y ?

例题4 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1 2 165 57 3 157 50 4 5 6 7 8 170 59

身高 165 体重 48

170 175 54 64

165 155 61 43

求根据一名女大学生的身高预报她的体重的 回归方程,并预报一名身高为172cm的女 大学生的体重。

分析:由于问题中 要求根据身高预报 体重,因此选取身 高为自变量,体重 为因变量.

1. 散点图; 2.回归方程: ? y ? 0.849 x ? 85.172

身高172cm女大学生体重 ? y = 0.849×172 - 85.712 = 60.316(kg)

相关系数

? n ? ? (x i -x)(yi -y) ? i=1 r= ? n n ? 2 ? (y -y) 2 ? (x i -x) ? i ? i=1 i=1 ?

r>0正相关;r<0负相关.通常, r>0.75,认为两个变量有很强的相关性.

本例中,由上面公式r=0.798>0.75.

探究?
身高为172cm的女大学生的体重一定 是60.316kg吗?如果不是,其原因是什 么?

如何描述两个变量之间线性相关关系的强弱?
在《数学3》中,我们学习了用相关系数r来衡量两个变量 之间线性相关关系的方法。

相关系数r ?

? ( x ? x)( y ? y)
i ?1 i i

n

( xi ? x) 2 ? ( yi ? y ) 2 ?
i ?1 i ?1

n

n

.

当r ? [0.75, 表明两个变量正相关很强; 1], 当r ? [?1, ?0.75], 表明两个变量负相关很强; 当r ? [?0. 0.25], 表明两个变量相关性较弱。 25,

相关关系的测度
(相关系数取值及其意义)
完全负相关 无线性相关 完全正相关

-1.0

-0.5

0

+0.5
正相关程度增加

+1.0

r
负相关程度增加