Review of Probability and Statistics

Transcripción

Review of Probability and Statistics
Universidad Austral de Chile
Escuela de Ingeniería Comercial
ICPM050, Econometría
Clase 02
Modelo Lineal
Simple
Profesor: Carlos R. Pitta
Econometría, Prof. Carlos R. Pitta, Universidad Austral de Chile.
El Modelo de Regresión Simple
y = b0 + b1x + u
Econometría, Prof. Carlos R. Pitta
2
Algunos términos nuevos
En el modelo de regresión lineal simple, en
donde y = b0 + b1x + u, normalmente nos
referimos a y como:




Variable Dependiente, o
Variable de Lado Izquierdo, o
Predicha, Explicada, o
Regresandos, Endógena u Objetivo
Econometría, Prof. Carlos R. Pitta
3
Algunos términos nuevos
En la regresión lineal simple de y sobre x,
típicamente describiremos a x como:






Variable Independiente, o
Predictor, o
Variable Explicativa, o
Regresor, o
Independiente, o
Exógena
Econometría, Prof. Carlos R. Pitta
4
Supuestos
El Valor Promedio de u, el término de
error, en la población es 0. Es decir,
E(u) = 0
Esta no es un supuesto restrictivo, dado que
siempre podemos usar b0 para normalizar
E(u) a 0
Econometría, Prof. Carlos R. Pitta
5
Media Condicional Nula
Necesitamos hacer un supuesto crucial
sobre la manera en que se relacionan u y x
Queremos que sea cierto que el conocer
algo sobre x no nos brinde ninguna
información sobre u, de manera que estén
completamente no relacionados. Es decir:
E(u|x) = E(u) = 0, lo que implica qué:
E(y|x) = b0 + b1x
Econometría, Prof. Carlos R. Pitta
6
E(y|x) como una función lineal de x, donde para
cada x la distribución de y se centra en E(y|x)
y
f(y)
.
x1
. E(y|x) = b + b x
0
1
x2
Econometría, Prof. Carlos R. Pitta
7
Mínimos Cuadrados Ordinarios
(MICO)
Idea básica: estimar parámetros
poblacionales a partir de una muestra
Defina {(xi,yi): i=1, …,n} como una
muestra aleatoria de tamaño n obtenida a
partir de la población
Para cada observación de la muestra, será
cierto qué:
yi = b0 + b1xi + ui
Econometría, Prof. Carlos R. Pitta
8
Línea de regresión poblacional, datos muestrales
y sus términos de error asociados
E(y|x) = b0 + b1x
.{
u4
y
y4
y3
y2
y1
u2 {.
.} u3
} u1
.
x1
x2
x3
Econometría, Prof. Carlos R. Pitta
x4
x
9
Derivando un estimador MICO
Para encontrar un estimador MICO
tenemos que darnos cuenta que nuestro
supuesto principal de que E(u|x) = E(u) = 0
también implica qué:
Cov(x,u) = E(xu) = 0
¿Porqué? Recuerde de probabilidad básica
que Cov(X,Y) = E(XY) – E(X)E(Y)
Econometría, Prof. Carlos R. Pitta
10
Derivando un estimador MICO
Podemos escribir nuestras 2 restricciones
solo en términos de x, y, b0 y b1 , dado que
u = y – b0 – b1x
E(y – b0 – b1x) = 0
E[x(y – b0 – b1x)] = 0
Dichas ecuaciones son llamadas
restricciones de momentos
Econometría, Prof. Carlos R. Pitta
11
Derivando MICO vía Momentos
El método de momentos para la estimación
implica imponer las restricciones de los
momentos poblacionales a los momentos
muestrales
¿Qué significa esto? Recuerde que para
E(X), la media de una distribución
poblacional, un estimador muestral de E(X)
es simplemente la media aritmética de la
muestra.
Econometría, Prof. Carlos R. Pitta
12
Derivando MICO vía Momentos
Queremos escoger los valores de los parámetros
que nos aseguren que las versiones muestrales de
nuestras restricciones de momentos son verdad
Las versiones muestrales son:
n
1
 y
n
i 1
n
1
n
i

 bˆ 0  bˆ1 xi  0


ˆ  bˆ x  0
x
y

b
 i i 0 1 i
i 1
Econometría, Prof. Carlos R. Pitta
13
Derivando MICO vía Momentos
Dada la definición de media muestral, y las
propiedades de suma, podemos escribir la primera
condición cómo:
y  bˆ0  bˆ1 x ,
ó
bˆ0  y  bˆ1 x
Econometría, Prof. Carlos R. Pitta
14
Derivando MICO vía Momentos
n
 


ˆ x  bˆ x  0
x
y

y

b
 i i
1
1 i
i 1
n
n
i 1
i 1
ˆ


x
y

y

b
 i i
1  xi  xi  x 
n
n
i 1
i 1
2
ˆ
 xi  x  yi  y   b1  xi  x 
Econometría, Prof. Carlos R. Pitta
15
De manera que el estimador
MICO de la pendiente es:
n
bˆ1 
 x  x  y
i
i 1
n
 y
i
 x  x 
i 1
2
i
n
siempre que   xi  x   0
2
i 1
Econometría, Prof. Carlos R. Pitta
16
Estimador MICO de la pendiente
El estimador de la pendiente es la
covarianza muestral entre x e y dividida por
la varianza muestral de x
Si x e y están correlacionadas
positivamente, la pendiente será positiva
Si x e y se encuentran correlacionadas
negativamente, la pendiente será negativa
Solo necesitados que x varíe en la muestra
Econometría, Prof. Carlos R. Pitta
17
Más sobre MICO
Intuitivamente, MICO es encontrar una
línea a través de los puntos muestrales tales
que la suma de los residuos al cuadrado sea
lo más pequeña posible, de allí el término
mínimos cuadrados.
El residuo, û, es una estimación del término
de error, u, y es la diferencia entre la línea
estimada (la función de regresión muestral)
y el punto de la muestra.
Econometría, Prof. Carlos R. Pitta
18
Línea de regresión muestral, dato muestral
y los términos de error estimados asociados
y
.
y4
û4 {
yˆ  bˆ0  bˆ1 x
y3
y2
y1
û2 { .
.} û3
û1
}
.
x1
x2
x3
Econometría, Prof. Carlos R. Pitta
x4
x
19
Métodos alternativos para la
derivación
Dado lo intuitivo de la idea de encontrar una
línea, podemos escribir el problema formal de
minimización
Esto es, queremos escoger nuestros parámetros de
manera de minimizar lo siguiente:
n
n

ˆ
ˆ
ˆ
 ui    yi  b 0  b1 xi
i 1
2
i 1
Econometría, Prof. Carlos R. Pitta

2
20
Métodos alternativos para la
derivación
Si usamos cálculo para resolver el problema de
minimización en dos parámetros obtenemos las
siguientes condiciones de primer orden, que son
las mismas que obtuvimos antes, multiplicadas por
n
n
ˆ

y

b

i 1
n
i

ˆ x 0

b
0
1 i


ˆ  bˆ x  0
x
y

b
 i i 0 1i
i 1
Econometría, Prof. Carlos R. Pitta
21
Propiedades Algebraicas de
MICO
La suma de los residuos MICO es cero
Por lo tanto, el promedio muestral de los
residuos MICO también será cero
La covarianza muestral entre los regresores
y los residuos MICO es cero
La línea de regresión MICO siempre pasa
por las medias muestrales.
Econometría, Prof. Carlos R. Pitta
22
En términos más precisos:
n
n
 uˆ
i 1
i
 0 y por lo tanto,
n
 x uˆ
i 1
i i
 uˆ
i 1
n
i
0
0
y  bˆ0  bˆ1 x
Econometría, Prof. Carlos R. Pitta
23
Más terminología
Podemos pensar a cada observació n como la composición de
una parte explicada, y una parte no explicada,
yi  yˆ i  uˆi Entonces definiremo s :
2


y

y
suma de cuadrados totales (SCT)
 i
2
ˆ


y

y
suma de cuadrados explicada (SCE)
 i
2
ˆ
u
 i suma de cuadrados residuales (SCR)
Entonces, SCT  SCE  SCR
Econometría, Prof. Carlos R. Pitta
24
Prueba de SCT = SCE + SCR
  y  y     y  yˆ    yˆ  y 
  uˆ   yˆ  y 
  uˆ  2 uˆ  yˆ  y     yˆ  y 
 SCR  2 uˆ  yˆ  y   SCE
y sabemos qué :  uˆ  yˆ  y   0
2
2
i
i
i
i
2
i
i
2
2
i
i
i
i
i
i
i
i
Econometría, Prof. Carlos R. Pitta
25
Bondad del Ajuste
¿Cómo sabremos qué tan bien se ajusta
nuestra línea de regresión a los datos
muestrales?
Podemos calcular la fracción de la suma de
cuadrados totales (SCT) que es explicada
por el modelo, y le llamaremos el Rcuadrado de la regresión:
R2 = SCE/SCT = 1 – SCR/SCT
Econometría, Prof. Carlos R. Pitta
26
Usando Stata para calcular MICO
Ahora que hemos derivado la fórmula para
calcular los estimados MICO de nuestros
parámetros, estarás feliz de saber que no
tenemos que calcularlos a mano
La regresión en Stata es muy simple, para
correr la regresión de y en x, solo hay que
escribir:
reg y x
Econometría, Prof. Carlos R. Pitta
27
Los estimadores MICO son
insesgados
Asumamos que el modelo poblacional es
lineal en parámetros y = b0 + b1x + u
Asumamos que podemos usar una muestra
aleatoria de tamaño n, {(xi, yi): i=1, 2, …,
n}, extraída del modelo poblacional.
Entonces podemos escribir el modelo
muestral como yi = b0 + b1xi + ui
Asumamos que E(u|x) = 0 y por que por lo
tanto, E(ui|xi) = 0
Asumamos que existe variación en las xi
Econometría, Prof. Carlos R. Pitta
28
Los estimadores MICO son
insesgados
Para poder pensar en el sesgo, necesitamos
reescribir nuestro estimador en términos de los
parámetros poblacionales
Comenzamos simplemente reescribiendo la
fórmula cómo:
bˆ
1
x  x  y


i
s
2
x
i
, donde
s   xi  x 
2
x
2
Econometría, Prof. Carlos R. Pitta
29
Los estimadores MICO son
insesgados
 x  x y  x  x b  b x
 x  x b   x  x b x
   x  x u 
b  x  x   b   x  x x
   x  x u
i
i
i
0
i
0
i
i
1 i
 ui  
1 i
i
i
i
0
1
i
i
i
Econometría, Prof. Carlos R. Pitta
30
Los estimadores MICO son
insesgados
 x  x   0,
 x  x x   x  x 
i
2
i
i
i
así que el numerador puede ser reescrito como :
b s   xi  x ui , y entonces :
2
1 x
bˆ1  b1
x  x u


i
s
i
2
x
Econometría, Prof. Carlos R. Pitta
31
Los estimadores MICO son
insesgados
defina d i  xi  x , de manera que :
 1 
ˆ
b i  b1   2  d i ui , Entonces :
 sx 
 1 
ˆ
E b1  b1  
2  d i E ui   b1
 sx 
 
Econometría, Prof. Carlos R. Pitta
32
Conclusiones sobre Sesgo
Los estimadores MICO de b1 y b0 son
insesgados
La prueba para ello depende de 4
supuestos– si alguno de ellos falla, entonces
los estimadores MICO no son
necesariamente es insesgado
Recuerde que es sesgo es una descripción
del estimador – en una muestra dada,
podemos estar “cerca” (insesgado) o “lejos”
(sesgado) delEconometría,
parámetro
poblacional.
Prof. Carlos R. Pitta
33
Varianza de los Estimadores
MICO
Ahora sabemos que la distribución
muestral de nuestra estimación se centra
alrededor del parámetro real
Queremos determinar qué tan dispersa se
encuentra la distribución
Es mucho más fácil pensar a esta varianza
bajo un supuesto adicional
Asumiremos que Var(u|x) = s2
(Homocedasticidad)
Econometría, Prof. Carlos R. Pitta
34
Varianza de los Estimadores
MICO
Var(u|x) = E(u2|x)-[E(u|x)]2
E(u|x) = 0, so s2 = E(u2|x) = E(u2) = Var(u)
Entonces s2 es también la varianza no
condicional, llamada la varianza del error
s, la raíz cuadrada de la varianza del error,
es llamada la desviación estándar del error.
Podemos decir que: E(y|x)=b0 + b1x y
Var(y|x) = s2
Econometría, Prof. Carlos R. Pitta
35
Homocedasticidad
y
f(y|x)
.
x1
. E(y|x) = b + b x
0
1
x2
Econometría, Prof. Carlos R. Pitta
36
Heterocedasticidad
f(y|x)
.
.
x1
x2
x3
Econometría, Prof. Carlos R. Pitta
.
E(y|x) = b0 + b1x
x
37
Varianza de los Estimadores
MICO
 


 1 
ˆ
Var b1  Var  b1  

2   d i ui 

 sx 


2
 1 
 1 

2  Var  d i ui   
2
 sx 
 sx 
 1 

2
 sx 
2
2
2
d
 i Var ui 
 1 
 d s  s  sx2 
2
i
2
2
2
2
2
d
 i
 
 1  2 s2
ˆ
s 
2  sx 
2  Var b1
sx
 sx 
2
Econometría, Prof. Carlos R. Pitta
38
Varianza de los Estimadores
MICO: Un Resumen
Entre mayor sea la varianza del error, s2, mayor
será la varianza del estimador de la pendiente
Entre mayor sea la variabilidad en los xi, menor
será la variabilidad el estimador de la pendiente
Cómo resultado, un tamaño de muestra mayor
deberá disminuir la varianza del estimador de la
pendiente
El problema es que la varianza del error es
desconocida
Econometría, Prof. Carlos R. Pitta
39
Estimando la varianza del error
En realidad no conocemos la varianza del
error, s2, porque no podemos observar los
errores, ui
Lo que sí observamos son los residuos, ûi
Podemos usar los residuos para formar un
estimado de la varianza del error
Econometría, Prof. Carlos R. Pitta
40
Estimando la varianza del error
uˆi  yi  bˆ0  bˆ1 xi
 b 0  b1 xi  ui   bˆ0  bˆ1 xi
 u  bˆ  b  bˆ  b
i

0
0
 
1
1

Entonces, un estimador insesgado de s 2 es :
1
2
2
ˆ
sˆ 
u

i  SCR / n  2 
n  2
Econometría, Prof. Carlos R. Pitta
41
Estimando la varianza del error
sˆ  sˆ 2  Error Estándar de la Regresión
Recuerde que : sd bˆ  s

sx
Si sustituimos sˆ por s tendremos :
El error Estándar de bˆ1 ,
 

se bˆ1  sˆ /   xi  x 
2

1
2
Econometría, Prof. Carlos R. Pitta
42