APUNTE_EXTENSIONES DE REGRESIÓN

Transcripción

APUNTE_EXTENSIONES DE REGRESIÓN
ECONOMETRÍA
FORTINO VELA PEÓN
EL MODELO EN DESVIOS
Considere los datos proporcionados en el cuadro siguiente para estimar el modelo
de regresión lineal
Yi = β 1 + β 2 X i + ei
t
1
2
3
4
5
media
Y
3
1
8
3
5
4
X
3
1
5
2
4
3
Y-Ybar X-Xbar
-1
0
-3
-2
4
2
-1
-1
1
1
0
0
Sabemos que los estimadores de MCO están dados por las expresiones:
n
βˆ 2 =
∑(X
i =1
i
− X )(Yi − Y )
∑(X
i =1
βˆ1 = Y − βˆ 2 X
2
n
i
− X)
que al aplicar a los datos mostrados rinden los siguientes resultados:
regress
y x
Source |
SS
df
MS
-------------+-----------------------------Model |
25.6
1
25.6
Residual |
2.4
3
.8
-------------+-----------------------------Total |
28
4
7
Number of obs
F( 1,
3)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
5
32.00
0.0109
0.9143
0.8857
.89443
-----------------------------------------------------------------------------y |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------x |
1.6
.2828427
5.66
0.011
.6998683
2.500132
_cons |
-.8
.9380832
-0.85
0.456
-3.785399
2.185399
------------------------------------------------------------------------------
Ahora, considere el mismo modelo pero estimado en términos de sus
desviaciones respecto a la media, esto es, donde las variables están dadas por X*
y Y*, es decir,
X* = (X i − X )
Y * = (Yi − Y )
Una diferencia importante es que el estimador de β̂ 2 -bajo estas condicionesqueda expresado como
UAM-X
1
10P
ECONOMETRÍA
FORTINO VELA PEÓN
n
β̂ 2 =
∑x y
i =1
n
i
∑x
i =1
i
2
i
mientras que β̂1 se puede obtener de la manera acostumbrada, esto es,
βˆ1 = Y − βˆ 2 X (aunque Stata considera a β̂1 =0 (¿por qué?), como se muestra a
continuación. Para recuperar al estimador de β̂1 en Stata se puede considerar la
expresión βˆ1 = Y − βˆ 2* X ).
regress
yybar xxbar
Source |
SS
df
MS
-------------+-----------------------------Model |
25.6
1
25.6
Residual |
2.4
3
.8
-------------+-----------------------------Total |
28
4
7
Number of obs
F( 1,
3)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
5
32.00
0.0109
0.9143
0.8857
.89443
-----------------------------------------------------------------------------yybar |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------xxbar |
1.6
.2828427
5.66
0.011
.6998683
2.500132
_cons |
0
.4
0.00
1.000
-1.272979
1.272979
------------------------------------------------------------------------------
REGRESIÓN A TRAVÉS DEL ORIGEN
Se ha considerado el modelo
Yi = β 1 + β 2 X i + ei
el cuál es una recta de regresión con un intercepto. En ocasiones puede ser
necesario estimar el modelo
Yi = β 2 X i + ei
esto es, una línea que pasa a través del origen. Este modelo se llama modelo sin
intercepto.
El forzar que la línea pase a través del origen puede deberse a razones teóricas o
por otras consideraciones físicas y/o materiales del caso particular en estudio( por
ejemplo, la distancia de viaje es una función del tiempo pero no debe tener ninguna
constante).
La estimación aplicando el principio de mínimos cuadrados del modelo sin
intercepto da por resultado (se recomienda al lector elaborar este ejercicio)
UAM-X
2
10P
ECONOMETRÍA
FORTINO VELA PEÓN
n
∑X Y
β̂ 2 =
i i
i =1
n
∑X
i =1
2
i
donde el valor ajustado para i-ésima observación esta dado por
Yˆi = βˆ 2 X i + ei
i= 1, 2,…, n.
y la residual correspondiente es
eˆ1 = Yi − Yˆi
i= 1, 2,…, n
El error estándar del coeficiente β̂ 2 es igual a
ee( βˆ 2 ) =
σˆ
n
∑X
i =1
2
i
donde
σˆ 2 =
SCE
n −1
Observe que los grados de libertad para SCE son n-1, y ya no n-2, como lo es en el
caso del modelo con intercepto.
Además los residuales señalados arriba no necesariamente suman cero como si
ocurría con el modelo con intercepto. También, la identidad SCT= SCR+SCR
tampoco se cumple en general. Por esta razón, algunas medidas de la calidad de
ajuste de los modelos con intercepto como no resultan ser apropiadas para los
modelos sin intercepto. La identidad apropiada modelos sin intercepto se obtiene
substituyendo a Y = 0 en la sumas de cuadrados. Por lo tanto, la identidad
fundamental de la SCT se convierte
n
n
n
i =1
i =1
i =1
VT = VE + VNE = SCT = SCR + SCE = ∑ Yi 2 =∑ Yˆi 2 + ∑ ei
lo que se a su vez redefine a
R2
2
como
n
R2 =
n
∑ Yˆi 2
= 1−
i =1
n
∑Y
i =1
2
i
∑e
i =1
n
2
i
∑Y
i =1
2
i
Ésta es la forma apropiada de R2 para los modelos sin intercepto. Note, sin
embargo, que las interpretaciones para los casos del modelo con y sin intercepto
UAM-X
3
10P
ECONOMETRÍA
FORTINO VELA PEÓN
de R2 son diferentes. En el caso de modelos con intercepto, R2 se puede interpretar
como la proporción de la variación de Y que es explicada por la variable X (después
de ajustar a Y por su media). Para los modelos sin intercepto, esta interpretación
ya no es posible mantenerla dado que incluso R2 puede llegar a ser negativa.
Por otra parte, la fórmula basada en el estadístico t para la pruebas de significancia
individual sobre β 2 , esto es, cuando HO: β 2 = 0 vs la alternativa H1: β1 ≠ 0 ,
continúa sosteniéndose pero con la nueva definición de ee( β̂ 2 ) antes señalada.
Como se apunto anteriormente, los modelos sin intercepto deben ser utilizados
siempre que sean consistentes con la teoría que esta en estudio o debido a
consideraciones físicas y materiales. En algunos usos, sin embargo, uno puede no
estar seguro qué modelo debe ser utilizado. En estos casos, la decisión entre los
modelos dados (con y sin intercepto) tiene que ser tomada con cuidado1.
_______________________________________________________________________________________________
Ejemplo
_______________________________________________________________________________________________
Uno puede preguntarse si la gente de altura similar tiende a casarse. Con este fin,
una muestra de parejas recientemente casados fue seleccionada. Sea X la altura del
esposo y Y la altura de la esposa. Las alturas se encuentran dadas en centímetros y
se muestran en el cuadro siguiente.
a) Calcule la covarianza entre las alturas de los esposos y las esposas.
b) Cuál sería la covarianza si las alturas fueron medidas en pulgadas
(recuerde que 1cm=0.39 pulgadas).
c) Calcule el coeficiente de correlación entre las alturas de los esposos.
d) ¿Cuál sería si la correlación de las alturas si fueran medidas en
pulgadas en lugar de centímetros?
e) ¿Cuál sería la correlación si cada hombre se casa con a una mujer
exactamente 5 centímetros más pequeña que él?
f) Deseamos ajustar un modelo de regresión que relacione a las alturas de
los esposos y las esposas. ¿Cuál de las dos variables usted elegiría como
la variable de la respuesta? Justifique su respuesta.
g) Usando su opción de la variable de la respuesta del inciso anterior,
pruebe la hipótesis nula de que el coeficiente pendiente es cero.
h) Usando su opción sobre la variable de respuesta del inciso (f), pruebe
la hipótesis nula de que el intercepto es cero.
i) Usando su opción de la variable de la respuesta en (f), pruebe el
hipótesis nula de que el intercepto y el coeficiente pendiente son cero.
j) ¿Cuál de las hipótesis y pruebas antedichas elegiría usted para probar
que la gente de altura similar tiende a casarse? ¿Cuál es su conclusión?
1
Una exposición excelente de los modelos de regresión a través del origen es proporcionada por
Eisenhauer (2003) que también alerta a los usuarios de los modelos de regresión a través del
origen a tener cuidado cuando ajustan estos modelos usando los programas de computo, ya que
algunos de ellos dan los resultados incorrectos.
UAM-X
4
10P
ECONOMETRÍA
FORTINO VELA PEÓN
k) ¿Si ninguna de las pruebas antedichas son apropiadas para probar la
hipótesis que la gente de altura similar tiende a casarse, que prueba
utilizaría usted ? Cuál es su conclusión basada en esta prueba?
Cuadro 1. Altura de los esposos
id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
UAM-X
Altura
Esposo
Esposa
86
175
180
168
160
154
186
166
163
162
172
152
192
179
170
163
174
172
191
170
182
170
178
147
181
165
168
162
162
154
188
166
168
167
183
174
188
173
166
164
180
163
176
163
185
171
169
161
id
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
5
Altura
Esposo
Esposa
182
167
162
160
169
165
176
167
180
175
157
157
170
172
186
181
180
166
188
181
153
148
179
169
175
170
165
157
156
162
185
174
172
168
166
162
179
159
181
155
176
171
170
159
165
164
183
175
10P
ECONOMETRÍA
FORTINO VELA PEÓN
Altura
Esposo
Esposa
162
156
192
180
185
167
163
157
185
167
170
157
176
168
176
167
160
145
167
156
157
153
180
162
172
156
184
174
185
160
165
152
181
175
170
169
161
149
188
176
181
165
156
143
161
158
152
141
id
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
Altura
Esposo
Esposa
179
160
170
149
170
160
165
148
165
154
169
171
171
165
192
175
176
161
168
162
169
162
184
176
171
160
161
158
185
175
184
174
179
168
184
177
175
158
173
161
164
146
181
168
187
178
181
170
86
altura esposo
192
id
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
140
UAM-X
150
160
altura esposa
6
170
180
10P
ECONOMETRÍA
FORTINO VELA PEÓN
correlate, covariance
(obs=96)
|
esposo
esposa
-------------+-----------------esposo | 178.794
esposa | 57.7243 83.3364
33.54
pesposo
74.88
gen pesposo= .39*esposo
gen pesposa= .39*esposa
55
60
65
70
pesposa
correlate pesposo pesposa, covariance
(obs=96)
| pesposo pesposa
-------------+-----------------pesposo | 27.1945
pesposa | 8.77987 12.6755
pwcorr esposo esposa, sig
|
esposo
esposa
-------------+-----------------esposo |
1.0000
esposa |
0.4729
1.0000
|
0.0000
pwcorr pesposo pesposa, sig
| pesposo pesposa
-------------+-----------------pesposo |
1.0000
UAM-X
7
10P
ECONOMETRÍA
pesposa |
|
FORTINO VELA PEÓN
0.4729
0.0000
1.0000
regress esposo esposa
Source |
SS
df
MS
-------------+-----------------------------Model | 3798.45368
1 3798.45368
Residual | 13186.9526
94 140.286729
-------------+-----------------------------Total | 16985.4063
95
178.79375
Number of obs
F( 1,
94)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
96
27.08
0.0000
0.2236
0.2154
11.844
-----------------------------------------------------------------------------esposo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------esposa |
.6926666
.1331156
5.20
0.000
.4283623
.9569708
_cons |
59.75608
21.85056
2.73
0.007
16.37127
103.1409
------------------------------------------------------------------------------
regress esposo esposa, noconst
Source |
SS
df
MS
-------------+-----------------------------Model | 2885282.85
1 2885282.85
Residual | 14236.1458
95 149.854167
-------------+-----------------------------Total |
2899519
96 30203.3229
Number of obs
F( 1,
95)
Prob > F
R-squared
Adj R-squared
Root MSE
=
96
=19253.94
= 0.0000
= 0.9951
= 0.9950
= 12.241
-----------------------------------------------------------------------------esposo |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------esposa |
1.056149
.0076114
138.76
0.000
1.041038
1.071259
------------------------------------------------------------------------------
twoway lfit esposo esposa , estopts(nocons)
UAM-X
8
10P
ECONOMETRÍA
FORTINO VELA PEÓN
Regresión sobre variables estandarizadas
Otro aspecto importante de considerar es lo que se obtendría si estimamos un
modelo donde las variables se encuentren estandarizadas, esto es, libres de
unidades de medida (recuerde que una variable estandarizada se caracteriza por
contar con media igual a cero y desviación estándar a 1).
Para ver esto consideraremos nuevamente al conjunto de datos relativos a los
gastos en diversión de las familias y al tamaño de las mismas. Calcularemos
entonces las variables estandarizadas y*= gasto y x*=tamaño, mediante la siguiente
expresión general:
Z=
x−x
s
Los resultados se muestran en el siguiente cuadro.
Tamaño Gasto
2
id
y
x
(y-ybar)
(y-ybar)
1
3
1287
-1.5
2.25
-157.30
2
3
4
5
6
5
6
6
1352
1963
1677
1846
1.5
0.5
1.5
1.5
2.25
0.25
2.25
2.25
-92.30
518.70
232.70
401.70
6
3
1443
-1.5
2.25
-1.30
7
4
962
-0.5
0.25
-482.30
8
9
4
5
1183
1547
-0.5
0.5
0.25
0.25
-261.30
102.70
10
3
45
4.5
1183
14443
1444.3
-1.5
2.25
14.5
-261.30
media
varianza
desv. estándar
(x-xbar)
1.6111
1.2693
(x-xbar)
2
*
*
y
x
24743.29 1.1818 0.4981
8519.29 1.1818 0.2923
269049.69 0.3939 1.6425
54149.29 1.1818 0.7369
161362.89 1.1818 1.2720
1.69 1.1818 0.0041
232613.29 0.3939 1.5273
68277.69 0.3939 0.8274
10547.29 0.3939 0.3252
68277.69 1.1818 0.8274
897542.1 0.0000 0.0000
99726.9
315.7957
Estimemos entonces los modelos:
y = β1 + β 2 x + e
y * = β 1* + β 2* x * + e *
original
con variables estandarizadas
donde se puede comprobar que
 Sx 


S
 y
βˆ 2* = βˆ 2 
UAM-X
9
10P
ECONOMETRÍA
FORTINO VELA PEÓN
donde
S x = desviación estándar de x (original).
S y = desviación estándar de y (original).
A los coeficientes de la ecuación de regresión con variables estandarizadas, es
decir, β1* y β 2* , se les denomina coeficientes beta.
La interpretación de los valores de los coeficientes beta es muy particular: “si el tamaño
de la familia estandarizado aumenta en una desviación estándar, en promedio, el
gasto en diversión aumenta en β 2* unidades de desviación estándar”.
Observe además que si al estimar al modelo con variables estandarizadas empleamos las
formulaciones antes establecidas para encontrar a los coeficientes estimados, a los
coeficientes betas, en particular para β1* , se tiene
βˆ1* = Y * − βˆ 2* X *
Pero dado que las medias de Y y X están estandarizadas, su valor es cero, por lo
que β1* =0, esto es. Se tiene un modelo sin intercepto. Así, tenemos para los datos
considerados los siguientes resultados.
regress gasto tamaño, noheader
-----------------------------------------------------------------------------gasto |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------tamaño |
146.5862
71.07385
2.06
0.073
-17.31039
310.4828
_cons |
784.6621
331.0852
2.37
0.045
21.17832
1548.146
------------------------------------------------------------------------------
regress ys xs, noheader
-----------------------------------------------------------------------------ys |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------xs |
.5891824
.2856713
2.06
0.073
-.0695767
1.247942
_cons | -1.99e-08
.2710115
-0.00
1.000
-.6249535
.6249535
------------------------------------------------------------------------------
regress ys xs, nocons noheader
-----------------------------------------------------------------------------ys |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------xs |
.5891824
.2693334
2.19
0.056
-.0200921
1.198457
------------------------------------------------------------------------------
UAM-X
10
10P
ECONOMETRÍA
FORTINO VELA PEÓN
regress gasto tamaño, beta noheader
-----------------------------------------------------------------------------gasto |
Coef.
Std. Err.
t
P>|t|
Beta
-------------+---------------------------------------------------------------tamaño |
146.5862
71.07385
2.06
0.073
.5891823
_cons |
784.6621
331.0852
2.37
0.045
.
------------------------------------------------------------------------------
Comprobemos también que
 Sx 
 = 146.5862  1.269296  = 0.58918243

 315.7957 
 Sy 
βˆ 2* = βˆ 2 
que en Stata puede calcularse de la manera siguiente
dis 146.5862
*(1.269296/315.7957)=.58918243
El modelo de regresión con variables estandarizadas es útil si se desea comparar a
los coeficientes estimados entre modelos rivales. Dado que las variables se
encuentran libres de unidades de medición, un valor mayor de un coeficiente de
regresión indica un impacto mucho más fuerte.
edit
sum
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------tamaño |
10
4.5
1.269296
3
6
gasto |
10
1444.3
315.7957
962
1963
gen ys= (gasto- 1444.3)/315.7957
gen xs= (tamaño- 4.5)/1.269296
sum
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------tamaño |
10
4.5
1.269296
3
6
gasto |
10
1444.3
315.7957
962
1963
ys |
10
-1.99e-08
.9999999 -1.527253
1.642518
xs |
10
0
.9999996 -1.181757
1.181757
regress gasto tamaño, noheader
-----------------------------------------------------------------------------gasto |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------tamaño |
146.5862
71.07385
2.06
0.073
-17.31039
310.4828
_cons |
784.6621
331.0852
2.37
0.045
21.17832
1548.146
------------------------------------------------------------------------------
.
UAM-X
11
10P
ECONOMETRÍA
FORTINO VELA PEÓN
MANEJO DE LAS VARIABLES DE SERIES DE TIEMPO EN STATA
Datos anuales
Para manejar información anual, resulta conveniente establecer un índice de tiempo.
Considere los datos del cuadro 3.8 de Gujarati y Porter (2010) relativos al producto
interno bruto nominal y real para el periodo 1959-2005.
Year
1959
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
NGDP
506.6
526.4
544.7
585.6
617.7
663.6
719.1
787.8
832.6
910.0
984.6
1038.5
1127.1
1238.3
1382.7
1500.0
1638.3
1825.3
2030.9
2294.7
2563.3
2789.5
3128.4
3255.0
RGDP
2441.3
2501.8
2560.0
2715.2
2834.0
2998.6
3191.1
3399.1
3484.6
3652.7
3765.4
3771.9
3898.6
4105.0
4341.5
4319.6
4311.2
4540.9
4750.5
5015.0
5173.4
5161.7
5291.7
5189.3
Year
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
NGDP
3536.7
3933.2
4220.3
4462.8
4739.5
5103.8
5484.4
5803.1
5995.9
6337.7
6657.4
7072.2
7397.7
7816.9
8304.3
8747.0
9268.4
9817.0
10128.0
10469.6
10960.8
11712.5
12455.8
RGDP
5423.8
5813.6
6053.7
6263.6
6475.1
6742.7
6981.4
7112.5
7100.5
7336.6
7532.7
7835.5
8031.7
8328.9
8703.5
9066.9
9470.3
9817.0
9890.7
10048.8
10301.0
10703.5
11048.6
Dado que la primera observación corresponde al año 1959 es posible generar una
variable o índice de tiempo mediante el comando
generate t=1959+_n-1
tsset t, annual
Observe que la variable “_n” es un índice natural de las observaciones, el cual inicia en
1 y corre hasta el número de observaciones n. La instrucción generate crea una
variable llamada “t” la cual agrega valores desde 1959 hasta “_n”, para entonces
subtraer 1, de forma tal que la serie creada va desde “1959”, “1960”, “1961”, de uno
en uno, hasta “2005”, en este caso.
Por su parte, la instrucción tsset establece a la variable “t” a ser considerada como
un índice de tiempo.
UAM-X
12
10P
ECONOMETRÍA
FORTINO VELA PEÓN
Datos trimestrales
Stata almacena al índice de tiempo como un entero. Así, por ejemplo, para datos
trimestrales usa la convención de que el primer trimestre de 1960 es 0. El segundo
trimestre de 1960 es 1, el primer trimestre de 1961 es 4, etc. La fechas antes de 1960
son enteros negativos, de forma tal que el cuatro trimestre de 1959 es ‐1, el tercer
trimestre es ‐2, etc.
Cuando se formatea a las fechas, Stata despliega a los periodos trimestrales como
“1957q2”, que significa el segundo trimestre de 1957 (aún cuando Stata lo almacena
como un número “‐11”, es decir, el undécimo trimestre antes de 1960 1960q1.)
Stata utiliza la formula “tq(1957q2)” para convertir a la fecha formateada “1957q2” a
un índice numérico “‐11”.
Considere la siguiente información trimestral correspondiente al PIB y la tasa de
desempleo de los Estados Unidos desde el último trimestre de 1991. Para incluir estos
datos en Stata se deben realizar los siguientes comandos:
DATE
GDPC1 UNRATE
1991-10-01 6720.9
7.10
1992-01-01 6783.3
7.37
1992-04-01 6846.8
7.60
7.63
1992-07-01 6899.7
1992-10-01 6990.6
7.37
1993-01-01 6988.7
7.13
1993-04-01 7031.2
7.07
6.80
1993-07-01 7062.0
1993-10-01 7168.7
6.63
1994-01-01 7229.4
6.57
1994-04-01 7330.2
6.20
6.00
1994-07-01 7370.2
1994-10-01 7461.1
5.63
1995-01-01 7488.7
5.47
1995-04-01 7503.3
5.67
5.67
1995-07-01 7561.4
1995-10-01 7621.9
5.57
1996-01-01 7676.4
5.53
1996-04-01 7802.9
5.50
1996-07-01 7841.9
5.27
1996-10-01 7931.3
5.33
1997-01-01 8016.4
5.23
1997-04-01 8131.9
5.00
DATE
1997-07-01
1997-10-01
1998-01-01
1998-04-01
1998-07-01
1998-10-01
1999-01-01
1999-04-01
1999-07-01
1999-10-01
2000-01-01
2000-04-01
2000-07-01
2000-10-01
2001-01-01
2001-04-01
2001-07-01
2001-10-01
2002-01-01
2002-04-01
2002-07-01
2002-10-01
GDPC1
8216.6
8272.9
8396.3
8442.9
8528.5
8667.9
8733.2
8775.5
8886.9
9040.1
9097.4
9205.7
9218.7
9243.8
9229.9
9193.1
9186.4
9248.8
9363.2
9392.4
9485.6
9518.2
UNRATE
4.87
4.67
4.63
4.40
4.53
4.43
4.30
4.27
4.23
4.07
4.03
3.97
4.07
3.93
4.17
4.47
4.83
5.60
5.63
5.83
5.77
5.90
Fuente: Tomado de http://economics.about.com/cs/datasources/a/quarterlydata.htm
generate t=tq(1991q4)+_n-1
format t %tq
tsset t
UAM-X
13
10P
ECONOMETRÍA
FORTINO VELA PEÓN
El comando generate crea a la variable “t” como un número entero. El comando
format como lo dice su nombre formatea a la variable “t” usando el formato de serie
de tiempo trimestral. La “tq” se refiere a una “serie de tiempo‐trimestral”. El
comando tsset declara a la variable “t” como el índice de tiempo.
4
5
UNRATE
6
7
8
twoway tsline unrate
1992q1
1994q3
1997q1
t
1999q3
2002q1
Datos mensuales
El manejo de datos mensuales es similar pero reemplazando una “m” por la “q” del
trimestral. Stata almacena el índice del tiempo con la convención 1960m1 es 0. Para
generar un índice mensual iniciando el segundo mes de 1962 se deben utilizar los
siguientes comandos:
generate t=tm(1962m2)+_n-1
format t %tm
tsset t
Datos semanales
Con datos semanales es similar usando “w” en lugar de “q” y “m”, donde la base del
periodo es, por ejemplo, 1960w1. De esta manera, para una serie que inicia en la 7ª.
semana de 1973 se utilizan los comandos:
generate t=tw(1973w7)+_n-1
format t %tw
tsset t
UAM-X
14
10P
ECONOMETRÍA
FORTINO VELA PEÓN
Datos diarios
Los datos diarios son almacenados por fechas. Por ejemplo, “01jan1960” es Jan 1,
1960, el cual es el periodo base. Para generar un índice de tiempo diario iniciando en
April 18, 1962, se utilizan los comandos
generate t=td(18apr1962)+_n-1
format t %td
tsset t
Operadores de Series de Tiempo
Sea una serie de tiempo denominada y, entonces
L.
rezago y(t‐1)
Ejemplo: L.y
L2. 2
dos periodos de rezago y(t‐2)
Ejemplo: L2.y
F.
adelanto y(t+1)
Ejemplo: F.y
F. 2
dos periodos de adelanto y(t+2)
Ejemplo: F2.y
D.
diferencia y(t)‐y(t‐1)
Ejemplo: D.y
D2.
doble diferencia (y(t)‐y(t‐1))‐ (y(t‐1)‐y(t‐2))
Ejemplo: D2.y
S.
diferencia estacional y(t)‐y(t‐s), donde s es la frecuencia estacional
(e.g., s=4 para trimestres)
Ejemplo: S.y
S2. 2
diferencia de periodo estacional y(t)‐y(t‐2s)
Ejemplo: S2.y
UAM-X
15
10P
ECONOMETRÍA
FORTINO VELA PEÓN
ALGEBRA MATRICIAL CON STATA
a) Construcción de matrices en STATA
Existen dos formas de crear matrices con STATA. La primera es utilizando el
comando matrix (el cual es la abreviación de "matrix define"); aquí la matriz
se elabora elemento por elemento. La segunda, de manera alternativa, es mediante
el comando mkmat el cual es usado para crear un matriz a partir de las variables
existentes en una base de datos concatenando (juntando) los valores de las
columnas. Veamos cada uno de estos comandos.
a.1) Comando matrix
Bajo este comando la sintaxis básica es la siguiente
matrix nombre = (elementos)
Esto indica que después de emplear al comando y otorgarle un nombre a la matriz,
los datos que forman a la matriz deben estar encerrados dentro de paréntesis
observando que los elementos de una misma fila o renglón deben estar separados
por comas mientras que la separación entre filas o renglones mediante una slash
inverso (\) (el número de columnas implica necesariamente el número de
elemntos por cada renglón)). Así, por ejemplo, si la matriz es denominada como A,
siendo una matriz de dimensión 2x4, se tiene entonces que escribir
(2,4,3,7\1,5,3,1), esto es,
matrix A= (2,4,3,7\1,5,3,1)
por lo que la matriz deberá parecerse a algo como lo siguiente:
2 4 3 7 
A=

1 5 3 1 
Observe que Stata no despliega a la matriz dentro de la ventana de resultados sino
que la almacena en memoria. Si se desea ver a la matriz y a sus elementos es
necesario escribir
matrix list A
con lo que Stata despliega la dimensión y los elementos de la matriz A, esto es:
A[2,4]
c1 c2
r1
2
r2
1
c3
4
5
c4
3
3
7
1
Los vectores columna y renglón son creados con el mismo comando. De esta
forma, el comando "matrix A=(2,1,4,3)" elabora una vector renglón de
UAM-X
16
10P
ECONOMETRÍA
FORTINO VELA PEÓN
dimensión 1x4 mientras que el comando "matrix A=(2\1\4\3)" crea un vector
columna de orden 4x1.
a.2) Comando mkmat
La sintaxis utilizada bajo este comando es la siguiente
mkmat varnames, matrix(matrix name)
Aquí las matrices son creadas a partir de una base de datos existente. De esta
manera, se puede desear construir una matriz a partir de un archivo que contenga
3 variables (por ejemplo, las variables V1, V2 y V3) dentro de una matriz
denominada A con lo que se escribe
mkmat V1, V2, V3, matrix (A)
De esta manera, el comando concatenara (juntará) a las variables señaladas (V1,
V2 y V3) dentro de la matriz A compuesta de N renglones (donde N es el número
de casos en el archivo de datos para cada una de estas variables, observando que
deberá ser el mismo) y 3 columnas (1 para cada variable).
b) Manipulación de matrices
matrix C = A,B
une las matrices A y B (deben ser conformable).
matrix C = A\
une a las matrices A y B de manera transpuesta
(renglones por columna).
matrix A = J (#1, #2, #3)
Crea una matriz rectangular #1 por #2 cuyos
valores en todos sus elementos es igual a valor
fijado en #3.
matrix I = I (#1)
Crea una matriz identidad cuadrada con
columnas y renglones igual a #1.
Matrix A = DIAG (V)
Crea una matriz cuadrada con valores del vector
V como diagonal principal y cero en los otros
elementos.
matrix NR = ROWSOF (A)
Encuentra el # de renglones en A.
matrix NC = COLSOF (A)
Encuentrael # de columnas en A.
UAM-X
17
10P
ECONOMETRÍA
FORTINO VELA PEÓN
c) Operaciones básicas de matrices
matrix C = A + B
matrix C = A - B
matrix C = A * B
matrix AT = A'
matrix INVA = INV (A)
matrix
DETA = DET (A)
matrix DIAGA = VECDIAG (A)
d) Ejemplos y extensiones
Multiplicación por un escalar
mat B = 3*A
mat lis B
B[3,2]
c1
r1
6
r2
9
r3 -6
c2
3
6
6
Suma y resta de matrices
mat B = (1,1\4,2\-2,1)
mat C = A + B
mat lis C
C[3,2]
c1
r1
3
r2
7
r3 -4
c2
2
4
3
mat D = A - B
mat lis D
D[3,2]
c1
r1
1
r2 -1
r3
0
c2
0
0
1
Multiplicación de matrices
mat D = (2,1,3\-2,2,1)
mat C = D*A
mat lis C
C[2,2]
c1
UAM-X
c2
18
10P
ECONOMETRÍA
r1
r2
1
0
FORTINO VELA PEÓN
10
4
mat C = A*D
mat lis C
C[3,3]
c1
r1
2
r2
2
r3 -8
c2
4
7
2
c3
7
11
-4
mat D = (2,1,3)
mat C = D*A
mat lis C
C[1,2]
c1
r1
1
c2
10
mat C = A*D
conformability error
r(503);
Transposición de matrices
mat AT = A'
mat lis AT
AT[2,3]
r1 r2
c1
2
3
c2
1
2
r3
-2
2
mat ATT = AT'
mat lis ATT
ATT[3,2]
c1 c2
r1
2
1
r2
3
2
r3 -2
2
Vectores de uso común
Vector unitario
mat U = J(3,1,1)
mat lis U
U[3,1]
c1
r1
1
r2
1
r3
1
UAM-X
19
10P
ECONOMETRÍA
FORTINO VELA PEÓN
Matrices de uso común
Matriz unitaria
mat U = J(3,2,1)
mat lis U
U[3,2]
c1
r1
1
r2
1
r3
1
c2
1
1
1
Matriz diagaonal
mat S = (2,1,4\3,2,2\-2,2,3)
mat lis S
S[3,3]
c1
r1
2
r2
3
r3 -2
c2
1
2
2
c3
4
2
3
mat D = diag(vecdiag(S))
mat lis D
symmetric D[3,3]
c1 c2 c3
c1
2
c2
0
2
c3
0
0
3
mat V = (3,1,2)
mat D = diag(V)
mat lis D
symmetric D[3,3]
c1 c2 c3
c1
3
c2
0
1
c3
0
0
2
Matriz identidad
mat I = I(3)
mat lis I
symmetric I[3,3]
c1 c2 c3
r1
1
r2
0
1
r3
0
0
1
Matriz simetrica
mat C = (2,1,5\1,3,4\5,4,-2)
UAM-X
20
10P
ECONOMETRÍA
FORTINO VELA PEÓN
mat lis C
symmetric C[3,3]
c1 c2 c3
r1
2
r2
1
3
r3
5
4 -2
mat CT = C'
mat lis CT
symmetric CT[3,3]
r1 r2 r3
c1
2
c2
1
3
c3
5
4 -2
Matriz inversa
matrix A = (4,2,2 \ 4,6,8 \ -2,2,4)
matrix list A
A[3,3]
c1
r1
4
r2
4
r3 -2
c2
2
6
2
c3
2
8
4
matrix A1 = inv(A)
matrix list A1
A1[3,3]
r1
c1
1
c2
-4
c3
2.5
r2
-.5
2.5
-1.5
r3
.5
-3
2
Matriz inversa y determinante
mat C = (2,1,6\1,3,4\6,4,-2)
mat CI = syminv(C)
mat lis CI
symmetric CI[3,3]
r1
r2
r3
c1
.6
c2 -.2
.4
c3
0
0
0
scalar d = det(C)
display d
-102
Despliegue del número de columnas y renglones
mat X = (3,2\2,-2\4,6\3,1)
mat lis X
X[4,2]
UAM-X
21
10P
ECONOMETRÍA
r1
r2
r3
r4
c1
3
2
4
3
FORTINO VELA PEÓN
c2
2
-2
6
1
scalar r = rowsof(X)
scalar c = colsof(X)
display r, " ", c
4
2
Calculo de las sumas por renglon o columna
mat A = (2,1\3,2\-2,2)
mat lis A
A[3,2]
c1
r1
2
r2
3
r3 -2
c2
1
2
2
mat U = J(rowsof(A),1,1)
mat list U
U[3,1]
c1
r1
1
r2
1
r3
1
mat c = U'*A
mat list c
c1
c1
3
c2
5
Cálculo de las medias por renglón o columna
mat cm = c/rowsof(A)
mat lis cm
cm[1,2]
r1
UAM-X
c1
1
c2
1.6666667
22
10P