GOOD CONNECTION

Transcripción

GOOD CONNECTION
Regresión Lineal
Dra. Noemí L. Ruiz Limardo
2008 © Derechos Reservados, Rev 2010
Objetivos de la Lección
• Conocer el significado de la regresión lineal
• Determinar la línea de regresión cuando hay
correlación lineal
• Predecir un valor de y basado en un valor de x
dado, cuando hay variables correlacionadas
• Determinar el error de predicción en una
regresión
Introducción
Correlación y Predicción
• Predicción es el proceso de estimación de valores
de una variable y (variable de criterio) basado en el
conocimiento de otra variable x (variable
predictora).
• Cuando hay correlación entre dos variables x, y se
puede predecir el valor que asume la y basado en el
valor que tiene x.
• Ejemplo: Si las variables creatividad (y) y
razonamiento lógico (x) están relacionadas, uno
quisiera saber cuál es el mejor estimado de la
medida de creatividad que está relacionado con una
puntuación específica de razonamiento lógico.
Línea de Regresión
• Cuando hay correlación entre dos variables, en
una gráfica de puntos (“scatterplot”) los puntos
tienden a estar alrededor de una línea recta.
• Si podemos dibujar la línea recta, ésta
representaría, en promedio, cómo el cambio en
una variable x está asociada a otra variable y.
• Esta línea recta se llama la línea de regresión.
• Cuando usamos la variable x para predecir la
variable y, la línea se llama la regresión de y
en x.
Correlación y Relación de
Causalidad (Causa-Efecto)
• El mero hecho de que dos variables x, y estén
asociadas no implica que los cambios en x
causará cambios en y.
• Ejemplo: Una manzana al día mantiene al
médico alejado.
– Esta correlación negativa se fundamenta en el
número de manzanas consumidas anualmente y el
número de visitas anuales al médico.
– Esto no implica que si una persona tiene muchas
visitas al médico se debe a que comió pocas
manzanas. Quizás se deba a otros factores tales
como accidentes automovilísticos, aún comiendo la
manzana mientras guiaba.
Correlación y Relación de
Causa-Efecto
• Hay variables en las cuales el cambio no se
puede atribuir al cambio en la otra variable.
• Ejemplo: Relación positiva entre la ejecución en
una tarea física y la edad cronológica.
– Esto no nos permite argumentar que la edad
cronológica es afectada por la ejecución en la tarea
física.
– La edad cronológica solo puede ser afectada por el
paso del tiempo desde el nacimiento del sujeto.
Correlación y Relación de
Causa-Efecto
• Hay combinación de variables que están altamente
correlacionadas, y en esos casos, una de las
variables es una predictora precisa (con precisión) de
la otra.
• Pero, predicción precisa no necesariamente implica
que la variable predictora es la causa de la otra
variable (variable de criterio).
• Por tanto, no se debe confundir correlación con
relación de causa y efecto. Para establecer relaciones
de causa y efecto se requieren otras medidas en otros
contextos de investigación.
Línea de Regresión
Proceso de predecir
Dos pasos:
1. Determinar la línea de regresión. (Determinar
la ecuación de la recta.)
– Como la relación que estudiamos es correlación
lineal entre dos variables, la línea de regresión es
una ecuación lineal en dos variables.
2. Predecir una valor específico de la variable y
dado cierto valor de la variable x.
– Sustituyendo el valor de x en la ecuación que
representa la línea de regresión se obtiene el valor
de y.
Línea de Regresión
ŷ
ŷ
bx a
Puntuación que se predice
b = Pendiente de la recta (inclinación respecto a eje de x)
Fórmula de Pendiente:
b
a = Intercepto en y de la recta
Cuando x = 0
y2
x2
y1
x1
Línea de regresión
• Ejemplo:
(Figura 6.1,
página 123 del
libro de
Hinkle)
Gráfica de:
y = 0.5x + 2
Ver partes de la
ecuación y su
relación con la
gráfica.
5
4
3
2
1
0
0
1
2
3
4
5
Determinación de la línea de
regresión
• ¿Cómo se ajusta la línea de regresión en una
“scatterplot”? (Ver Figura 6.2 en pág. 126)
• Se ajusta determinando primero para cada
punto: e ( y yˆ )
• e se conoce como el error de predicción.
• Para ajustar la línea de regresión, se
determina e y luego se usa el método de los
cuadrados mínimos.
Determinación de la línea de
regresión
• El método de los cuadrados mínimos ajusta
la línea de tal manera que la suma de los
cuadrados de las distancias de los puntos a la
línea es un mínimo. (Ver Figura 6.3 en pág. 126)
• Esto es similar al concepto de desviación
estándar de la muestra.
• Los cuadrados mínimos se determinan con la
siguiente fórmula:
y
ŷ
2
Coeficiente de regresión y
Constante de regresión
ŷ
bx a
• Coeficiente de regresión b: Pendiente de la recta
sy
n xy
x y
b
r
b
2
2
ó
sx
n x
x
• Constante de regresión a: Intercepto en y de la recta
a
y b
n
x
ó
a
y bx
Ejemplo 1:
Predecir valores de y, dados
valores de x
Ejemplo 1:
x 11 .65
s x 4.12
y 12.85
s y 3.66
s xy 11 .16
r
0.74
Datos de la Tabla 6.1,
pág. 125, Libro de
Hinkle
Est.
Punt Raz Log (x)
Punt Creat (y)
x2
y2
xy
1
15
12
225
144
180
2
10
13
100
169
130
3
7
9
49
81
63
4
18
18
324
324
324
5
5
7
25
49
35
6
10
9
100
81
90
7
7
14
49
196
98
8
17
16
289
256
272
9
15
10
225
100
150
10
9
12
81
144
108
11
8
7
64
49
56
12
15
13
225
169
195
13
11
14
121
196
154
14
17
19
289
361
323
15
8
10
64
100
80
16
11
16
121
256
176
17
12
12
144
144
144
18
13
16
169
256
208
19
18
19
324
361
342
20
7
11
49
121
77
Total
233
257
3037
3557
3205
Ejercicio 1
• Usa los datos del ejemplo 1 para predecir la puntuación
de creatividad de un estudiante que tiene una
puntuación de razonamiento lógico de 12.
• Hay que calcular tres cosas:
– Coeficiente de regresión:
sy
n xy
x y
ó
b r
b
n
x2
x
sx
2
– Constante de regresión:
a
– Ecuación lineal:
ŷ
bx a
y b
n
x
ó
a
y bx
Veamos cómo se hace
en las otras pantallas
Coeficiente de Regresión
Primero, calculamos el coeficiente de regresión:
b
n xy
n x2
x
y
x
b
2
20 3205
233 257
2
20 3037
233
ó también se puede hallar:
b
r
sy
sx
b
3.66
0.74
4.12
0.65
0.65
Constante de Regresión
Segundo, calculamos la constante de regresión:
a
y b
n
x
a
257
0.65 233
20
5.28
ó también se puede hallar:
a
y bx
a 12 .85
0.65 11 .65
5.28
Ecuación de Regresión
Tercero, determinamos la ecuación de regresión:
ŷ
bx a
yˆ 0.65x 5.28
Finalmente, podemos predecir la puntuación de
creatividad de un estudiante que tiene una
puntuación de razonamiento lógico de 12.
ŷ
0.65 12
13.08
5.28
Ejemplo 2:
Predecir valores estandarizados
de y usando puntuaciones
estándarizadas de x
Introducción al Ejercicio 2
• Se pueden predecir valores estandarizados de y
usando puntuaciones estándarizadas de x
• Este proceso ayuda cuando se va a determinar
correlación múltiple y regresión lineal múltiple (Cap. 18)
• La correlación múltiple se utiliza cuando se desea
determinar la relación entre la variable de criterio y y
múltiples variables predictoras xi (1 ≤ i ≤ k; k ≥ 2)
Introducción al Ejercicio 2
• Para realizar esta predicción se utiliza la siguiente fórmula:
z yˆ
r zx
• zx es la puntuación estándarizada de x
• r es el índice de correlación de Pearson de las variables x, y
• z yˆ es la puntuación estándarizada de y
• A continuación se presenta un ejemplo de cómo se realiza
esta predicción.
Si se desea ver de dónde viene la fórmula,
véase las últimas dos transparencias o haz
clic aquí.
Ejemplo 2:
x 11 .65
s x 4.12
y 12.85
s y 3.66
s xy 11 .16
r
0.74
Datos del Ejemplo 1
anterior.
Est.
Punt Raz Log (x)
Punt Creat (y)
x2
y2
xy
1
15
12
225
144
180
2
10
13
100
169
130
3
7
9
49
81
63
4
18
18
324
324
324
5
5
7
25
49
35
6
10
9
100
81
90
7
7
14
49
196
98
8
17
16
289
256
272
9
15
10
225
100
150
10
9
12
81
144
108
11
8
7
64
49
56
12
15
13
225
169
195
13
11
14
121
196
154
14
17
19
289
361
323
15
8
10
64
100
80
16
11
16
121
256
176
17
12
12
144
144
144
18
13
16
169
256
208
19
18
19
324
361
342
20
7
11
49
121
77
Total
233
257
3037
3557
3205
Ejercicio 2
• Usando los datos del Ejercicio 1 anterior, predice el valor
estandarizado de y usando la puntuación estándarizada de x
del sujeto 1.
• El sujeto 1 tuvo una puntuación x = 15. Primero hallamos la
puntuación estandarizada de este valor de x:
zx
x x
sx
15 11.65
4.12
0.81
• Ahora, se puede sustituir la puntuación estandarizada de z y el
valor que corresponde a r (r = 0.74) en la ecuación para hallar
la puntuación estandarizada de y:
z yˆ
r zx
(0.74 )( 0.81)
0.60
Error de Predicción
Error de Predicción
• Como se presentó antes, si la correlación lineal entre dos
variables x,y es perfecta, las puntuaciones en el diagrama de
scatterplot caerán en una línea recta.
• Si hay correlación, pero esta no es perfecta, las puntuaciones
caerán alrededor de la línea recta.
• Para ajustar las puntuaciones se usa el método de los
cuadrados mínimos. La aplicación de este método se conoce
como el error de predicción.
• El error de predicción es la suma de los cuadrados de las
distancias (desviaciones) desde cada punto hasta la línea
recta, donde se produce un mínimo.
y yˆ
• Simbólicamente, el error está dado por la fórmula: e
Error Estándar del Estimado
• Se puede calcular la media de este error de pedicción
mediante la siguiente fórmula:
e 0
e
0
n
n
• Se puede calcular también la varianza y la desviación estándar
mediante las fórmulas a continuación:
sy x
2
e e
n 2
2
e
2
n 2
sy x
e2
n 2
• La desviación estándar se conoce como el error estándar del
estimado.
Error Estándar del Estimado
e2
sy x
n 2
• Para aplicar la fórmula anterior, primero hay que obtener el
error de cada punto individualmente.
• Este proceso puede ser bien tedioso, especialmente en
muestra grandes.
• La fórmula siguiente es una fórmula alterna más conveniente
en estos casos:
sy x
sy
1 r
2
n 1
n 2
Fórmula
Alterna
Ejemplo 3
• Usando los datos del ejercicio anterior que aparecen en la
Tabla 6.2 de la página 128, calcula el error estándar del
estimado usando la fórmula:
sy x
e
2
n 2
Ejemplo 3:
x 11 .65
s x 4.12
y 12.85
s y 3.66
s xy 11 .16
r
0.74
Datos del Ejemplo 1
anterior.
Est.
Punt Raz
Log (x)
Punt
Creat (y)
ŷ
y yˆ
1
15
12
15.03
-3.03
9.18
2
10
13
11.78
1.22
1.49
3
7
9
9.83
-0.83
0.69
4
18
18
16.98
1.02
1.04
5
5
7
8.53
-1.53
2.34
6
10
9
11.78
-2.78
7.73
7
7
14
9.83
4.17
17.39
8
17
16
16.33
-0.33
0.11
9
15
10
15.03
-5.03
25.30
10
9
12
11.13
0.87
0.76
11
8
7
10.48
-3.48
12.11
12
15
13
15.03
-2.03
4.12
13
11
14
12.43
1.57
2.46
14
17
19
16.33
2.67
7.13
15
8
10
10.48
-0.48
0.23
16
11
16
12.43
3.57
12.74
17
12
12
13.08
-1.08
1.17
18
13
16
13.73
2.27
5.15
19
18
19
16.98
2.02
4.08
20
7
11
9.83
Total
233
257
1.17
0
y
ŷ
2
1.37
116.59
Ejemplo 3
• Sustituyendo en la fórmula del error estándar del estimado
tenemos:
sy x
e2
n 2
116.59
18
6.48
2.55
Ejemplo 3
• Usando los datos del ejercicio anterior que aparecen en la
Tabla 6.2 de la página 128, calcula el error estándar del
estimado usando la fórmula alterna.
n 1
2
sy x sy 1 r
n 2
sy x
3.66
1 (0.74 )
2
19
18
2.53
Las centésimas de diferencia con la fórmula
anterior se deben al uso del redondeo.
Observe que cuando la correlación es alta, el
error estándar es pequeño.
Fin de la lección
Derivando la fórmula z yˆ
r zx
• Recordando que una puntuación estándarizada z se obtiene
aplicando la fórmula:
x x
z
• Para derivar la fórmula de
ecuación de regresión:
ŷ
z yˆ
s
bx a
• Si se sustituye el valor de a , a
anterior se obtiene:
ŷ
r z x , comencemos con la
bx
y bx , en la ecuación
y bx
• Reagrupando términos y factorizando se obtiene:
ŷ
y bx x
Derivando la fórmula z yˆ
ŷ
y bx x
• Si se sustituye el valor de b , b r s y
sx
anterior se obtiene:
yˆ
r zx
y (r )
sy
sx
, en la ecuación
x x
• Manipulando algebraicamente la ecuación se obtiene:
yˆ y
sy
x x
(r )
sx
• Esta ecuación es equivalente a:
z yˆ
r zx