GOOD CONNECTION
Transcripción
GOOD CONNECTION
Regresión Lineal Dra. Noemí L. Ruiz Limardo 2008 © Derechos Reservados, Rev 2010 Objetivos de la Lección • Conocer el significado de la regresión lineal • Determinar la línea de regresión cuando hay correlación lineal • Predecir un valor de y basado en un valor de x dado, cuando hay variables correlacionadas • Determinar el error de predicción en una regresión Introducción Correlación y Predicción • Predicción es el proceso de estimación de valores de una variable y (variable de criterio) basado en el conocimiento de otra variable x (variable predictora). • Cuando hay correlación entre dos variables x, y se puede predecir el valor que asume la y basado en el valor que tiene x. • Ejemplo: Si las variables creatividad (y) y razonamiento lógico (x) están relacionadas, uno quisiera saber cuál es el mejor estimado de la medida de creatividad que está relacionado con una puntuación específica de razonamiento lógico. Línea de Regresión • Cuando hay correlación entre dos variables, en una gráfica de puntos (“scatterplot”) los puntos tienden a estar alrededor de una línea recta. • Si podemos dibujar la línea recta, ésta representaría, en promedio, cómo el cambio en una variable x está asociada a otra variable y. • Esta línea recta se llama la línea de regresión. • Cuando usamos la variable x para predecir la variable y, la línea se llama la regresión de y en x. Correlación y Relación de Causalidad (Causa-Efecto) • El mero hecho de que dos variables x, y estén asociadas no implica que los cambios en x causará cambios en y. • Ejemplo: Una manzana al día mantiene al médico alejado. – Esta correlación negativa se fundamenta en el número de manzanas consumidas anualmente y el número de visitas anuales al médico. – Esto no implica que si una persona tiene muchas visitas al médico se debe a que comió pocas manzanas. Quizás se deba a otros factores tales como accidentes automovilísticos, aún comiendo la manzana mientras guiaba. Correlación y Relación de Causa-Efecto • Hay variables en las cuales el cambio no se puede atribuir al cambio en la otra variable. • Ejemplo: Relación positiva entre la ejecución en una tarea física y la edad cronológica. – Esto no nos permite argumentar que la edad cronológica es afectada por la ejecución en la tarea física. – La edad cronológica solo puede ser afectada por el paso del tiempo desde el nacimiento del sujeto. Correlación y Relación de Causa-Efecto • Hay combinación de variables que están altamente correlacionadas, y en esos casos, una de las variables es una predictora precisa (con precisión) de la otra. • Pero, predicción precisa no necesariamente implica que la variable predictora es la causa de la otra variable (variable de criterio). • Por tanto, no se debe confundir correlación con relación de causa y efecto. Para establecer relaciones de causa y efecto se requieren otras medidas en otros contextos de investigación. Línea de Regresión Proceso de predecir Dos pasos: 1. Determinar la línea de regresión. (Determinar la ecuación de la recta.) – Como la relación que estudiamos es correlación lineal entre dos variables, la línea de regresión es una ecuación lineal en dos variables. 2. Predecir una valor específico de la variable y dado cierto valor de la variable x. – Sustituyendo el valor de x en la ecuación que representa la línea de regresión se obtiene el valor de y. Línea de Regresión ŷ ŷ bx a Puntuación que se predice b = Pendiente de la recta (inclinación respecto a eje de x) Fórmula de Pendiente: b a = Intercepto en y de la recta Cuando x = 0 y2 x2 y1 x1 Línea de regresión • Ejemplo: (Figura 6.1, página 123 del libro de Hinkle) Gráfica de: y = 0.5x + 2 Ver partes de la ecuación y su relación con la gráfica. 5 4 3 2 1 0 0 1 2 3 4 5 Determinación de la línea de regresión • ¿Cómo se ajusta la línea de regresión en una “scatterplot”? (Ver Figura 6.2 en pág. 126) • Se ajusta determinando primero para cada punto: e ( y yˆ ) • e se conoce como el error de predicción. • Para ajustar la línea de regresión, se determina e y luego se usa el método de los cuadrados mínimos. Determinación de la línea de regresión • El método de los cuadrados mínimos ajusta la línea de tal manera que la suma de los cuadrados de las distancias de los puntos a la línea es un mínimo. (Ver Figura 6.3 en pág. 126) • Esto es similar al concepto de desviación estándar de la muestra. • Los cuadrados mínimos se determinan con la siguiente fórmula: y ŷ 2 Coeficiente de regresión y Constante de regresión ŷ bx a • Coeficiente de regresión b: Pendiente de la recta sy n xy x y b r b 2 2 ó sx n x x • Constante de regresión a: Intercepto en y de la recta a y b n x ó a y bx Ejemplo 1: Predecir valores de y, dados valores de x Ejemplo 1: x 11 .65 s x 4.12 y 12.85 s y 3.66 s xy 11 .16 r 0.74 Datos de la Tabla 6.1, pág. 125, Libro de Hinkle Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy 1 15 12 225 144 180 2 10 13 100 169 130 3 7 9 49 81 63 4 18 18 324 324 324 5 5 7 25 49 35 6 10 9 100 81 90 7 7 14 49 196 98 8 17 16 289 256 272 9 15 10 225 100 150 10 9 12 81 144 108 11 8 7 64 49 56 12 15 13 225 169 195 13 11 14 121 196 154 14 17 19 289 361 323 15 8 10 64 100 80 16 11 16 121 256 176 17 12 12 144 144 144 18 13 16 169 256 208 19 18 19 324 361 342 20 7 11 49 121 77 Total 233 257 3037 3557 3205 Ejercicio 1 • Usa los datos del ejemplo 1 para predecir la puntuación de creatividad de un estudiante que tiene una puntuación de razonamiento lógico de 12. • Hay que calcular tres cosas: – Coeficiente de regresión: sy n xy x y ó b r b n x2 x sx 2 – Constante de regresión: a – Ecuación lineal: ŷ bx a y b n x ó a y bx Veamos cómo se hace en las otras pantallas Coeficiente de Regresión Primero, calculamos el coeficiente de regresión: b n xy n x2 x y x b 2 20 3205 233 257 2 20 3037 233 ó también se puede hallar: b r sy sx b 3.66 0.74 4.12 0.65 0.65 Constante de Regresión Segundo, calculamos la constante de regresión: a y b n x a 257 0.65 233 20 5.28 ó también se puede hallar: a y bx a 12 .85 0.65 11 .65 5.28 Ecuación de Regresión Tercero, determinamos la ecuación de regresión: ŷ bx a yˆ 0.65x 5.28 Finalmente, podemos predecir la puntuación de creatividad de un estudiante que tiene una puntuación de razonamiento lógico de 12. ŷ 0.65 12 13.08 5.28 Ejemplo 2: Predecir valores estandarizados de y usando puntuaciones estándarizadas de x Introducción al Ejercicio 2 • Se pueden predecir valores estandarizados de y usando puntuaciones estándarizadas de x • Este proceso ayuda cuando se va a determinar correlación múltiple y regresión lineal múltiple (Cap. 18) • La correlación múltiple se utiliza cuando se desea determinar la relación entre la variable de criterio y y múltiples variables predictoras xi (1 ≤ i ≤ k; k ≥ 2) Introducción al Ejercicio 2 • Para realizar esta predicción se utiliza la siguiente fórmula: z yˆ r zx • zx es la puntuación estándarizada de x • r es el índice de correlación de Pearson de las variables x, y • z yˆ es la puntuación estándarizada de y • A continuación se presenta un ejemplo de cómo se realiza esta predicción. Si se desea ver de dónde viene la fórmula, véase las últimas dos transparencias o haz clic aquí. Ejemplo 2: x 11 .65 s x 4.12 y 12.85 s y 3.66 s xy 11 .16 r 0.74 Datos del Ejemplo 1 anterior. Est. Punt Raz Log (x) Punt Creat (y) x2 y2 xy 1 15 12 225 144 180 2 10 13 100 169 130 3 7 9 49 81 63 4 18 18 324 324 324 5 5 7 25 49 35 6 10 9 100 81 90 7 7 14 49 196 98 8 17 16 289 256 272 9 15 10 225 100 150 10 9 12 81 144 108 11 8 7 64 49 56 12 15 13 225 169 195 13 11 14 121 196 154 14 17 19 289 361 323 15 8 10 64 100 80 16 11 16 121 256 176 17 12 12 144 144 144 18 13 16 169 256 208 19 18 19 324 361 342 20 7 11 49 121 77 Total 233 257 3037 3557 3205 Ejercicio 2 • Usando los datos del Ejercicio 1 anterior, predice el valor estandarizado de y usando la puntuación estándarizada de x del sujeto 1. • El sujeto 1 tuvo una puntuación x = 15. Primero hallamos la puntuación estandarizada de este valor de x: zx x x sx 15 11.65 4.12 0.81 • Ahora, se puede sustituir la puntuación estandarizada de z y el valor que corresponde a r (r = 0.74) en la ecuación para hallar la puntuación estandarizada de y: z yˆ r zx (0.74 )( 0.81) 0.60 Error de Predicción Error de Predicción • Como se presentó antes, si la correlación lineal entre dos variables x,y es perfecta, las puntuaciones en el diagrama de scatterplot caerán en una línea recta. • Si hay correlación, pero esta no es perfecta, las puntuaciones caerán alrededor de la línea recta. • Para ajustar las puntuaciones se usa el método de los cuadrados mínimos. La aplicación de este método se conoce como el error de predicción. • El error de predicción es la suma de los cuadrados de las distancias (desviaciones) desde cada punto hasta la línea recta, donde se produce un mínimo. y yˆ • Simbólicamente, el error está dado por la fórmula: e Error Estándar del Estimado • Se puede calcular la media de este error de pedicción mediante la siguiente fórmula: e 0 e 0 n n • Se puede calcular también la varianza y la desviación estándar mediante las fórmulas a continuación: sy x 2 e e n 2 2 e 2 n 2 sy x e2 n 2 • La desviación estándar se conoce como el error estándar del estimado. Error Estándar del Estimado e2 sy x n 2 • Para aplicar la fórmula anterior, primero hay que obtener el error de cada punto individualmente. • Este proceso puede ser bien tedioso, especialmente en muestra grandes. • La fórmula siguiente es una fórmula alterna más conveniente en estos casos: sy x sy 1 r 2 n 1 n 2 Fórmula Alterna Ejemplo 3 • Usando los datos del ejercicio anterior que aparecen en la Tabla 6.2 de la página 128, calcula el error estándar del estimado usando la fórmula: sy x e 2 n 2 Ejemplo 3: x 11 .65 s x 4.12 y 12.85 s y 3.66 s xy 11 .16 r 0.74 Datos del Ejemplo 1 anterior. Est. Punt Raz Log (x) Punt Creat (y) ŷ y yˆ 1 15 12 15.03 -3.03 9.18 2 10 13 11.78 1.22 1.49 3 7 9 9.83 -0.83 0.69 4 18 18 16.98 1.02 1.04 5 5 7 8.53 -1.53 2.34 6 10 9 11.78 -2.78 7.73 7 7 14 9.83 4.17 17.39 8 17 16 16.33 -0.33 0.11 9 15 10 15.03 -5.03 25.30 10 9 12 11.13 0.87 0.76 11 8 7 10.48 -3.48 12.11 12 15 13 15.03 -2.03 4.12 13 11 14 12.43 1.57 2.46 14 17 19 16.33 2.67 7.13 15 8 10 10.48 -0.48 0.23 16 11 16 12.43 3.57 12.74 17 12 12 13.08 -1.08 1.17 18 13 16 13.73 2.27 5.15 19 18 19 16.98 2.02 4.08 20 7 11 9.83 Total 233 257 1.17 0 y ŷ 2 1.37 116.59 Ejemplo 3 • Sustituyendo en la fórmula del error estándar del estimado tenemos: sy x e2 n 2 116.59 18 6.48 2.55 Ejemplo 3 • Usando los datos del ejercicio anterior que aparecen en la Tabla 6.2 de la página 128, calcula el error estándar del estimado usando la fórmula alterna. n 1 2 sy x sy 1 r n 2 sy x 3.66 1 (0.74 ) 2 19 18 2.53 Las centésimas de diferencia con la fórmula anterior se deben al uso del redondeo. Observe que cuando la correlación es alta, el error estándar es pequeño. Fin de la lección Derivando la fórmula z yˆ r zx • Recordando que una puntuación estándarizada z se obtiene aplicando la fórmula: x x z • Para derivar la fórmula de ecuación de regresión: ŷ z yˆ s bx a • Si se sustituye el valor de a , a anterior se obtiene: ŷ r z x , comencemos con la bx y bx , en la ecuación y bx • Reagrupando términos y factorizando se obtiene: ŷ y bx x Derivando la fórmula z yˆ ŷ y bx x • Si se sustituye el valor de b , b r s y sx anterior se obtiene: yˆ r zx y (r ) sy sx , en la ecuación x x • Manipulando algebraicamente la ecuación se obtiene: yˆ y sy x x (r ) sx • Esta ecuación es equivalente a: z yˆ r zx