APUNTE_EXTENSIONES DE REGRESIÓN
Transcripción
APUNTE_EXTENSIONES DE REGRESIÓN
ECONOMETRÍA FORTINO VELA PEÓN EL MODELO EN DESVIOS Considere los datos proporcionados en el cuadro siguiente para estimar el modelo de regresión lineal Yi = β 1 + β 2 X i + ei t 1 2 3 4 5 media Y 3 1 8 3 5 4 X 3 1 5 2 4 3 Y-Ybar X-Xbar -1 0 -3 -2 4 2 -1 -1 1 1 0 0 Sabemos que los estimadores de MCO están dados por las expresiones: n βˆ 2 = ∑(X i =1 i − X )(Yi − Y ) ∑(X i =1 βˆ1 = Y − βˆ 2 X 2 n i − X) que al aplicar a los datos mostrados rinden los siguientes resultados: regress y x Source | SS df MS -------------+-----------------------------Model | 25.6 1 25.6 Residual | 2.4 3 .8 -------------+-----------------------------Total | 28 4 7 Number of obs F( 1, 3) Prob > F R-squared Adj R-squared Root MSE = = = = = = 5 32.00 0.0109 0.9143 0.8857 .89443 -----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | 1.6 .2828427 5.66 0.011 .6998683 2.500132 _cons | -.8 .9380832 -0.85 0.456 -3.785399 2.185399 ------------------------------------------------------------------------------ Ahora, considere el mismo modelo pero estimado en términos de sus desviaciones respecto a la media, esto es, donde las variables están dadas por X* y Y*, es decir, X* = (X i − X ) Y * = (Yi − Y ) Una diferencia importante es que el estimador de β̂ 2 -bajo estas condicionesqueda expresado como UAM-X 1 10P ECONOMETRÍA FORTINO VELA PEÓN n β̂ 2 = ∑x y i =1 n i ∑x i =1 i 2 i mientras que β̂1 se puede obtener de la manera acostumbrada, esto es, βˆ1 = Y − βˆ 2 X (aunque Stata considera a β̂1 =0 (¿por qué?), como se muestra a continuación. Para recuperar al estimador de β̂1 en Stata se puede considerar la expresión βˆ1 = Y − βˆ 2* X ). regress yybar xxbar Source | SS df MS -------------+-----------------------------Model | 25.6 1 25.6 Residual | 2.4 3 .8 -------------+-----------------------------Total | 28 4 7 Number of obs F( 1, 3) Prob > F R-squared Adj R-squared Root MSE = = = = = = 5 32.00 0.0109 0.9143 0.8857 .89443 -----------------------------------------------------------------------------yybar | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------xxbar | 1.6 .2828427 5.66 0.011 .6998683 2.500132 _cons | 0 .4 0.00 1.000 -1.272979 1.272979 ------------------------------------------------------------------------------ REGRESIÓN A TRAVÉS DEL ORIGEN Se ha considerado el modelo Yi = β 1 + β 2 X i + ei el cuál es una recta de regresión con un intercepto. En ocasiones puede ser necesario estimar el modelo Yi = β 2 X i + ei esto es, una línea que pasa a través del origen. Este modelo se llama modelo sin intercepto. El forzar que la línea pase a través del origen puede deberse a razones teóricas o por otras consideraciones físicas y/o materiales del caso particular en estudio( por ejemplo, la distancia de viaje es una función del tiempo pero no debe tener ninguna constante). La estimación aplicando el principio de mínimos cuadrados del modelo sin intercepto da por resultado (se recomienda al lector elaborar este ejercicio) UAM-X 2 10P ECONOMETRÍA FORTINO VELA PEÓN n ∑X Y β̂ 2 = i i i =1 n ∑X i =1 2 i donde el valor ajustado para i-ésima observación esta dado por Yˆi = βˆ 2 X i + ei i= 1, 2,…, n. y la residual correspondiente es eˆ1 = Yi − Yˆi i= 1, 2,…, n El error estándar del coeficiente β̂ 2 es igual a ee( βˆ 2 ) = σˆ n ∑X i =1 2 i donde σˆ 2 = SCE n −1 Observe que los grados de libertad para SCE son n-1, y ya no n-2, como lo es en el caso del modelo con intercepto. Además los residuales señalados arriba no necesariamente suman cero como si ocurría con el modelo con intercepto. También, la identidad SCT= SCR+SCR tampoco se cumple en general. Por esta razón, algunas medidas de la calidad de ajuste de los modelos con intercepto como no resultan ser apropiadas para los modelos sin intercepto. La identidad apropiada modelos sin intercepto se obtiene substituyendo a Y = 0 en la sumas de cuadrados. Por lo tanto, la identidad fundamental de la SCT se convierte n n n i =1 i =1 i =1 VT = VE + VNE = SCT = SCR + SCE = ∑ Yi 2 =∑ Yˆi 2 + ∑ ei lo que se a su vez redefine a R2 2 como n R2 = n ∑ Yˆi 2 = 1− i =1 n ∑Y i =1 2 i ∑e i =1 n 2 i ∑Y i =1 2 i Ésta es la forma apropiada de R2 para los modelos sin intercepto. Note, sin embargo, que las interpretaciones para los casos del modelo con y sin intercepto UAM-X 3 10P ECONOMETRÍA FORTINO VELA PEÓN de R2 son diferentes. En el caso de modelos con intercepto, R2 se puede interpretar como la proporción de la variación de Y que es explicada por la variable X (después de ajustar a Y por su media). Para los modelos sin intercepto, esta interpretación ya no es posible mantenerla dado que incluso R2 puede llegar a ser negativa. Por otra parte, la fórmula basada en el estadístico t para la pruebas de significancia individual sobre β 2 , esto es, cuando HO: β 2 = 0 vs la alternativa H1: β1 ≠ 0 , continúa sosteniéndose pero con la nueva definición de ee( β̂ 2 ) antes señalada. Como se apunto anteriormente, los modelos sin intercepto deben ser utilizados siempre que sean consistentes con la teoría que esta en estudio o debido a consideraciones físicas y materiales. En algunos usos, sin embargo, uno puede no estar seguro qué modelo debe ser utilizado. En estos casos, la decisión entre los modelos dados (con y sin intercepto) tiene que ser tomada con cuidado1. _______________________________________________________________________________________________ Ejemplo _______________________________________________________________________________________________ Uno puede preguntarse si la gente de altura similar tiende a casarse. Con este fin, una muestra de parejas recientemente casados fue seleccionada. Sea X la altura del esposo y Y la altura de la esposa. Las alturas se encuentran dadas en centímetros y se muestran en el cuadro siguiente. a) Calcule la covarianza entre las alturas de los esposos y las esposas. b) Cuál sería la covarianza si las alturas fueron medidas en pulgadas (recuerde que 1cm=0.39 pulgadas). c) Calcule el coeficiente de correlación entre las alturas de los esposos. d) ¿Cuál sería si la correlación de las alturas si fueran medidas en pulgadas en lugar de centímetros? e) ¿Cuál sería la correlación si cada hombre se casa con a una mujer exactamente 5 centímetros más pequeña que él? f) Deseamos ajustar un modelo de regresión que relacione a las alturas de los esposos y las esposas. ¿Cuál de las dos variables usted elegiría como la variable de la respuesta? Justifique su respuesta. g) Usando su opción de la variable de la respuesta del inciso anterior, pruebe la hipótesis nula de que el coeficiente pendiente es cero. h) Usando su opción sobre la variable de respuesta del inciso (f), pruebe la hipótesis nula de que el intercepto es cero. i) Usando su opción de la variable de la respuesta en (f), pruebe el hipótesis nula de que el intercepto y el coeficiente pendiente son cero. j) ¿Cuál de las hipótesis y pruebas antedichas elegiría usted para probar que la gente de altura similar tiende a casarse? ¿Cuál es su conclusión? 1 Una exposición excelente de los modelos de regresión a través del origen es proporcionada por Eisenhauer (2003) que también alerta a los usuarios de los modelos de regresión a través del origen a tener cuidado cuando ajustan estos modelos usando los programas de computo, ya que algunos de ellos dan los resultados incorrectos. UAM-X 4 10P ECONOMETRÍA FORTINO VELA PEÓN k) ¿Si ninguna de las pruebas antedichas son apropiadas para probar la hipótesis que la gente de altura similar tiende a casarse, que prueba utilizaría usted ? Cuál es su conclusión basada en esta prueba? Cuadro 1. Altura de los esposos id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 UAM-X Altura Esposo Esposa 86 175 180 168 160 154 186 166 163 162 172 152 192 179 170 163 174 172 191 170 182 170 178 147 181 165 168 162 162 154 188 166 168 167 183 174 188 173 166 164 180 163 176 163 185 171 169 161 id 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 5 Altura Esposo Esposa 182 167 162 160 169 165 176 167 180 175 157 157 170 172 186 181 180 166 188 181 153 148 179 169 175 170 165 157 156 162 185 174 172 168 166 162 179 159 181 155 176 171 170 159 165 164 183 175 10P ECONOMETRÍA FORTINO VELA PEÓN Altura Esposo Esposa 162 156 192 180 185 167 163 157 185 167 170 157 176 168 176 167 160 145 167 156 157 153 180 162 172 156 184 174 185 160 165 152 181 175 170 169 161 149 188 176 181 165 156 143 161 158 152 141 id 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 Altura Esposo Esposa 179 160 170 149 170 160 165 148 165 154 169 171 171 165 192 175 176 161 168 162 169 162 184 176 171 160 161 158 185 175 184 174 179 168 184 177 175 158 173 161 164 146 181 168 187 178 181 170 86 altura esposo 192 id 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 140 UAM-X 150 160 altura esposa 6 170 180 10P ECONOMETRÍA FORTINO VELA PEÓN correlate, covariance (obs=96) | esposo esposa -------------+-----------------esposo | 178.794 esposa | 57.7243 83.3364 33.54 pesposo 74.88 gen pesposo= .39*esposo gen pesposa= .39*esposa 55 60 65 70 pesposa correlate pesposo pesposa, covariance (obs=96) | pesposo pesposa -------------+-----------------pesposo | 27.1945 pesposa | 8.77987 12.6755 pwcorr esposo esposa, sig | esposo esposa -------------+-----------------esposo | 1.0000 esposa | 0.4729 1.0000 | 0.0000 pwcorr pesposo pesposa, sig | pesposo pesposa -------------+-----------------pesposo | 1.0000 UAM-X 7 10P ECONOMETRÍA pesposa | | FORTINO VELA PEÓN 0.4729 0.0000 1.0000 regress esposo esposa Source | SS df MS -------------+-----------------------------Model | 3798.45368 1 3798.45368 Residual | 13186.9526 94 140.286729 -------------+-----------------------------Total | 16985.4063 95 178.79375 Number of obs F( 1, 94) Prob > F R-squared Adj R-squared Root MSE = = = = = = 96 27.08 0.0000 0.2236 0.2154 11.844 -----------------------------------------------------------------------------esposo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------esposa | .6926666 .1331156 5.20 0.000 .4283623 .9569708 _cons | 59.75608 21.85056 2.73 0.007 16.37127 103.1409 ------------------------------------------------------------------------------ regress esposo esposa, noconst Source | SS df MS -------------+-----------------------------Model | 2885282.85 1 2885282.85 Residual | 14236.1458 95 149.854167 -------------+-----------------------------Total | 2899519 96 30203.3229 Number of obs F( 1, 95) Prob > F R-squared Adj R-squared Root MSE = 96 =19253.94 = 0.0000 = 0.9951 = 0.9950 = 12.241 -----------------------------------------------------------------------------esposo | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------esposa | 1.056149 .0076114 138.76 0.000 1.041038 1.071259 ------------------------------------------------------------------------------ twoway lfit esposo esposa , estopts(nocons) UAM-X 8 10P ECONOMETRÍA FORTINO VELA PEÓN Regresión sobre variables estandarizadas Otro aspecto importante de considerar es lo que se obtendría si estimamos un modelo donde las variables se encuentren estandarizadas, esto es, libres de unidades de medida (recuerde que una variable estandarizada se caracteriza por contar con media igual a cero y desviación estándar a 1). Para ver esto consideraremos nuevamente al conjunto de datos relativos a los gastos en diversión de las familias y al tamaño de las mismas. Calcularemos entonces las variables estandarizadas y*= gasto y x*=tamaño, mediante la siguiente expresión general: Z= x−x s Los resultados se muestran en el siguiente cuadro. Tamaño Gasto 2 id y x (y-ybar) (y-ybar) 1 3 1287 -1.5 2.25 -157.30 2 3 4 5 6 5 6 6 1352 1963 1677 1846 1.5 0.5 1.5 1.5 2.25 0.25 2.25 2.25 -92.30 518.70 232.70 401.70 6 3 1443 -1.5 2.25 -1.30 7 4 962 -0.5 0.25 -482.30 8 9 4 5 1183 1547 -0.5 0.5 0.25 0.25 -261.30 102.70 10 3 45 4.5 1183 14443 1444.3 -1.5 2.25 14.5 -261.30 media varianza desv. estándar (x-xbar) 1.6111 1.2693 (x-xbar) 2 * * y x 24743.29 1.1818 0.4981 8519.29 1.1818 0.2923 269049.69 0.3939 1.6425 54149.29 1.1818 0.7369 161362.89 1.1818 1.2720 1.69 1.1818 0.0041 232613.29 0.3939 1.5273 68277.69 0.3939 0.8274 10547.29 0.3939 0.3252 68277.69 1.1818 0.8274 897542.1 0.0000 0.0000 99726.9 315.7957 Estimemos entonces los modelos: y = β1 + β 2 x + e y * = β 1* + β 2* x * + e * original con variables estandarizadas donde se puede comprobar que Sx S y βˆ 2* = βˆ 2 UAM-X 9 10P ECONOMETRÍA FORTINO VELA PEÓN donde S x = desviación estándar de x (original). S y = desviación estándar de y (original). A los coeficientes de la ecuación de regresión con variables estandarizadas, es decir, β1* y β 2* , se les denomina coeficientes beta. La interpretación de los valores de los coeficientes beta es muy particular: “si el tamaño de la familia estandarizado aumenta en una desviación estándar, en promedio, el gasto en diversión aumenta en β 2* unidades de desviación estándar”. Observe además que si al estimar al modelo con variables estandarizadas empleamos las formulaciones antes establecidas para encontrar a los coeficientes estimados, a los coeficientes betas, en particular para β1* , se tiene βˆ1* = Y * − βˆ 2* X * Pero dado que las medias de Y y X están estandarizadas, su valor es cero, por lo que β1* =0, esto es. Se tiene un modelo sin intercepto. Así, tenemos para los datos considerados los siguientes resultados. regress gasto tamaño, noheader -----------------------------------------------------------------------------gasto | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------tamaño | 146.5862 71.07385 2.06 0.073 -17.31039 310.4828 _cons | 784.6621 331.0852 2.37 0.045 21.17832 1548.146 ------------------------------------------------------------------------------ regress ys xs, noheader -----------------------------------------------------------------------------ys | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------xs | .5891824 .2856713 2.06 0.073 -.0695767 1.247942 _cons | -1.99e-08 .2710115 -0.00 1.000 -.6249535 .6249535 ------------------------------------------------------------------------------ regress ys xs, nocons noheader -----------------------------------------------------------------------------ys | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------xs | .5891824 .2693334 2.19 0.056 -.0200921 1.198457 ------------------------------------------------------------------------------ UAM-X 10 10P ECONOMETRÍA FORTINO VELA PEÓN regress gasto tamaño, beta noheader -----------------------------------------------------------------------------gasto | Coef. Std. Err. t P>|t| Beta -------------+---------------------------------------------------------------tamaño | 146.5862 71.07385 2.06 0.073 .5891823 _cons | 784.6621 331.0852 2.37 0.045 . ------------------------------------------------------------------------------ Comprobemos también que Sx = 146.5862 1.269296 = 0.58918243 315.7957 Sy βˆ 2* = βˆ 2 que en Stata puede calcularse de la manera siguiente dis 146.5862 *(1.269296/315.7957)=.58918243 El modelo de regresión con variables estandarizadas es útil si se desea comparar a los coeficientes estimados entre modelos rivales. Dado que las variables se encuentran libres de unidades de medición, un valor mayor de un coeficiente de regresión indica un impacto mucho más fuerte. edit sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------tamaño | 10 4.5 1.269296 3 6 gasto | 10 1444.3 315.7957 962 1963 gen ys= (gasto- 1444.3)/315.7957 gen xs= (tamaño- 4.5)/1.269296 sum Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------tamaño | 10 4.5 1.269296 3 6 gasto | 10 1444.3 315.7957 962 1963 ys | 10 -1.99e-08 .9999999 -1.527253 1.642518 xs | 10 0 .9999996 -1.181757 1.181757 regress gasto tamaño, noheader -----------------------------------------------------------------------------gasto | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------tamaño | 146.5862 71.07385 2.06 0.073 -17.31039 310.4828 _cons | 784.6621 331.0852 2.37 0.045 21.17832 1548.146 ------------------------------------------------------------------------------ . UAM-X 11 10P ECONOMETRÍA FORTINO VELA PEÓN MANEJO DE LAS VARIABLES DE SERIES DE TIEMPO EN STATA Datos anuales Para manejar información anual, resulta conveniente establecer un índice de tiempo. Considere los datos del cuadro 3.8 de Gujarati y Porter (2010) relativos al producto interno bruto nominal y real para el periodo 1959-2005. Year 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 NGDP 506.6 526.4 544.7 585.6 617.7 663.6 719.1 787.8 832.6 910.0 984.6 1038.5 1127.1 1238.3 1382.7 1500.0 1638.3 1825.3 2030.9 2294.7 2563.3 2789.5 3128.4 3255.0 RGDP 2441.3 2501.8 2560.0 2715.2 2834.0 2998.6 3191.1 3399.1 3484.6 3652.7 3765.4 3771.9 3898.6 4105.0 4341.5 4319.6 4311.2 4540.9 4750.5 5015.0 5173.4 5161.7 5291.7 5189.3 Year 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 NGDP 3536.7 3933.2 4220.3 4462.8 4739.5 5103.8 5484.4 5803.1 5995.9 6337.7 6657.4 7072.2 7397.7 7816.9 8304.3 8747.0 9268.4 9817.0 10128.0 10469.6 10960.8 11712.5 12455.8 RGDP 5423.8 5813.6 6053.7 6263.6 6475.1 6742.7 6981.4 7112.5 7100.5 7336.6 7532.7 7835.5 8031.7 8328.9 8703.5 9066.9 9470.3 9817.0 9890.7 10048.8 10301.0 10703.5 11048.6 Dado que la primera observación corresponde al año 1959 es posible generar una variable o índice de tiempo mediante el comando generate t=1959+_n-1 tsset t, annual Observe que la variable “_n” es un índice natural de las observaciones, el cual inicia en 1 y corre hasta el número de observaciones n. La instrucción generate crea una variable llamada “t” la cual agrega valores desde 1959 hasta “_n”, para entonces subtraer 1, de forma tal que la serie creada va desde “1959”, “1960”, “1961”, de uno en uno, hasta “2005”, en este caso. Por su parte, la instrucción tsset establece a la variable “t” a ser considerada como un índice de tiempo. UAM-X 12 10P ECONOMETRÍA FORTINO VELA PEÓN Datos trimestrales Stata almacena al índice de tiempo como un entero. Así, por ejemplo, para datos trimestrales usa la convención de que el primer trimestre de 1960 es 0. El segundo trimestre de 1960 es 1, el primer trimestre de 1961 es 4, etc. La fechas antes de 1960 son enteros negativos, de forma tal que el cuatro trimestre de 1959 es ‐1, el tercer trimestre es ‐2, etc. Cuando se formatea a las fechas, Stata despliega a los periodos trimestrales como “1957q2”, que significa el segundo trimestre de 1957 (aún cuando Stata lo almacena como un número “‐11”, es decir, el undécimo trimestre antes de 1960 1960q1.) Stata utiliza la formula “tq(1957q2)” para convertir a la fecha formateada “1957q2” a un índice numérico “‐11”. Considere la siguiente información trimestral correspondiente al PIB y la tasa de desempleo de los Estados Unidos desde el último trimestre de 1991. Para incluir estos datos en Stata se deben realizar los siguientes comandos: DATE GDPC1 UNRATE 1991-10-01 6720.9 7.10 1992-01-01 6783.3 7.37 1992-04-01 6846.8 7.60 7.63 1992-07-01 6899.7 1992-10-01 6990.6 7.37 1993-01-01 6988.7 7.13 1993-04-01 7031.2 7.07 6.80 1993-07-01 7062.0 1993-10-01 7168.7 6.63 1994-01-01 7229.4 6.57 1994-04-01 7330.2 6.20 6.00 1994-07-01 7370.2 1994-10-01 7461.1 5.63 1995-01-01 7488.7 5.47 1995-04-01 7503.3 5.67 5.67 1995-07-01 7561.4 1995-10-01 7621.9 5.57 1996-01-01 7676.4 5.53 1996-04-01 7802.9 5.50 1996-07-01 7841.9 5.27 1996-10-01 7931.3 5.33 1997-01-01 8016.4 5.23 1997-04-01 8131.9 5.00 DATE 1997-07-01 1997-10-01 1998-01-01 1998-04-01 1998-07-01 1998-10-01 1999-01-01 1999-04-01 1999-07-01 1999-10-01 2000-01-01 2000-04-01 2000-07-01 2000-10-01 2001-01-01 2001-04-01 2001-07-01 2001-10-01 2002-01-01 2002-04-01 2002-07-01 2002-10-01 GDPC1 8216.6 8272.9 8396.3 8442.9 8528.5 8667.9 8733.2 8775.5 8886.9 9040.1 9097.4 9205.7 9218.7 9243.8 9229.9 9193.1 9186.4 9248.8 9363.2 9392.4 9485.6 9518.2 UNRATE 4.87 4.67 4.63 4.40 4.53 4.43 4.30 4.27 4.23 4.07 4.03 3.97 4.07 3.93 4.17 4.47 4.83 5.60 5.63 5.83 5.77 5.90 Fuente: Tomado de http://economics.about.com/cs/datasources/a/quarterlydata.htm generate t=tq(1991q4)+_n-1 format t %tq tsset t UAM-X 13 10P ECONOMETRÍA FORTINO VELA PEÓN El comando generate crea a la variable “t” como un número entero. El comando format como lo dice su nombre formatea a la variable “t” usando el formato de serie de tiempo trimestral. La “tq” se refiere a una “serie de tiempo‐trimestral”. El comando tsset declara a la variable “t” como el índice de tiempo. 4 5 UNRATE 6 7 8 twoway tsline unrate 1992q1 1994q3 1997q1 t 1999q3 2002q1 Datos mensuales El manejo de datos mensuales es similar pero reemplazando una “m” por la “q” del trimestral. Stata almacena el índice del tiempo con la convención 1960m1 es 0. Para generar un índice mensual iniciando el segundo mes de 1962 se deben utilizar los siguientes comandos: generate t=tm(1962m2)+_n-1 format t %tm tsset t Datos semanales Con datos semanales es similar usando “w” en lugar de “q” y “m”, donde la base del periodo es, por ejemplo, 1960w1. De esta manera, para una serie que inicia en la 7ª. semana de 1973 se utilizan los comandos: generate t=tw(1973w7)+_n-1 format t %tw tsset t UAM-X 14 10P ECONOMETRÍA FORTINO VELA PEÓN Datos diarios Los datos diarios son almacenados por fechas. Por ejemplo, “01jan1960” es Jan 1, 1960, el cual es el periodo base. Para generar un índice de tiempo diario iniciando en April 18, 1962, se utilizan los comandos generate t=td(18apr1962)+_n-1 format t %td tsset t Operadores de Series de Tiempo Sea una serie de tiempo denominada y, entonces L. rezago y(t‐1) Ejemplo: L.y L2. 2 dos periodos de rezago y(t‐2) Ejemplo: L2.y F. adelanto y(t+1) Ejemplo: F.y F. 2 dos periodos de adelanto y(t+2) Ejemplo: F2.y D. diferencia y(t)‐y(t‐1) Ejemplo: D.y D2. doble diferencia (y(t)‐y(t‐1))‐ (y(t‐1)‐y(t‐2)) Ejemplo: D2.y S. diferencia estacional y(t)‐y(t‐s), donde s es la frecuencia estacional (e.g., s=4 para trimestres) Ejemplo: S.y S2. 2 diferencia de periodo estacional y(t)‐y(t‐2s) Ejemplo: S2.y UAM-X 15 10P ECONOMETRÍA FORTINO VELA PEÓN ALGEBRA MATRICIAL CON STATA a) Construcción de matrices en STATA Existen dos formas de crear matrices con STATA. La primera es utilizando el comando matrix (el cual es la abreviación de "matrix define"); aquí la matriz se elabora elemento por elemento. La segunda, de manera alternativa, es mediante el comando mkmat el cual es usado para crear un matriz a partir de las variables existentes en una base de datos concatenando (juntando) los valores de las columnas. Veamos cada uno de estos comandos. a.1) Comando matrix Bajo este comando la sintaxis básica es la siguiente matrix nombre = (elementos) Esto indica que después de emplear al comando y otorgarle un nombre a la matriz, los datos que forman a la matriz deben estar encerrados dentro de paréntesis observando que los elementos de una misma fila o renglón deben estar separados por comas mientras que la separación entre filas o renglones mediante una slash inverso (\) (el número de columnas implica necesariamente el número de elemntos por cada renglón)). Así, por ejemplo, si la matriz es denominada como A, siendo una matriz de dimensión 2x4, se tiene entonces que escribir (2,4,3,7\1,5,3,1), esto es, matrix A= (2,4,3,7\1,5,3,1) por lo que la matriz deberá parecerse a algo como lo siguiente: 2 4 3 7 A= 1 5 3 1 Observe que Stata no despliega a la matriz dentro de la ventana de resultados sino que la almacena en memoria. Si se desea ver a la matriz y a sus elementos es necesario escribir matrix list A con lo que Stata despliega la dimensión y los elementos de la matriz A, esto es: A[2,4] c1 c2 r1 2 r2 1 c3 4 5 c4 3 3 7 1 Los vectores columna y renglón son creados con el mismo comando. De esta forma, el comando "matrix A=(2,1,4,3)" elabora una vector renglón de UAM-X 16 10P ECONOMETRÍA FORTINO VELA PEÓN dimensión 1x4 mientras que el comando "matrix A=(2\1\4\3)" crea un vector columna de orden 4x1. a.2) Comando mkmat La sintaxis utilizada bajo este comando es la siguiente mkmat varnames, matrix(matrix name) Aquí las matrices son creadas a partir de una base de datos existente. De esta manera, se puede desear construir una matriz a partir de un archivo que contenga 3 variables (por ejemplo, las variables V1, V2 y V3) dentro de una matriz denominada A con lo que se escribe mkmat V1, V2, V3, matrix (A) De esta manera, el comando concatenara (juntará) a las variables señaladas (V1, V2 y V3) dentro de la matriz A compuesta de N renglones (donde N es el número de casos en el archivo de datos para cada una de estas variables, observando que deberá ser el mismo) y 3 columnas (1 para cada variable). b) Manipulación de matrices matrix C = A,B une las matrices A y B (deben ser conformable). matrix C = A\ une a las matrices A y B de manera transpuesta (renglones por columna). matrix A = J (#1, #2, #3) Crea una matriz rectangular #1 por #2 cuyos valores en todos sus elementos es igual a valor fijado en #3. matrix I = I (#1) Crea una matriz identidad cuadrada con columnas y renglones igual a #1. Matrix A = DIAG (V) Crea una matriz cuadrada con valores del vector V como diagonal principal y cero en los otros elementos. matrix NR = ROWSOF (A) Encuentra el # de renglones en A. matrix NC = COLSOF (A) Encuentrael # de columnas en A. UAM-X 17 10P ECONOMETRÍA FORTINO VELA PEÓN c) Operaciones básicas de matrices matrix C = A + B matrix C = A - B matrix C = A * B matrix AT = A' matrix INVA = INV (A) matrix DETA = DET (A) matrix DIAGA = VECDIAG (A) d) Ejemplos y extensiones Multiplicación por un escalar mat B = 3*A mat lis B B[3,2] c1 r1 6 r2 9 r3 -6 c2 3 6 6 Suma y resta de matrices mat B = (1,1\4,2\-2,1) mat C = A + B mat lis C C[3,2] c1 r1 3 r2 7 r3 -4 c2 2 4 3 mat D = A - B mat lis D D[3,2] c1 r1 1 r2 -1 r3 0 c2 0 0 1 Multiplicación de matrices mat D = (2,1,3\-2,2,1) mat C = D*A mat lis C C[2,2] c1 UAM-X c2 18 10P ECONOMETRÍA r1 r2 1 0 FORTINO VELA PEÓN 10 4 mat C = A*D mat lis C C[3,3] c1 r1 2 r2 2 r3 -8 c2 4 7 2 c3 7 11 -4 mat D = (2,1,3) mat C = D*A mat lis C C[1,2] c1 r1 1 c2 10 mat C = A*D conformability error r(503); Transposición de matrices mat AT = A' mat lis AT AT[2,3] r1 r2 c1 2 3 c2 1 2 r3 -2 2 mat ATT = AT' mat lis ATT ATT[3,2] c1 c2 r1 2 1 r2 3 2 r3 -2 2 Vectores de uso común Vector unitario mat U = J(3,1,1) mat lis U U[3,1] c1 r1 1 r2 1 r3 1 UAM-X 19 10P ECONOMETRÍA FORTINO VELA PEÓN Matrices de uso común Matriz unitaria mat U = J(3,2,1) mat lis U U[3,2] c1 r1 1 r2 1 r3 1 c2 1 1 1 Matriz diagaonal mat S = (2,1,4\3,2,2\-2,2,3) mat lis S S[3,3] c1 r1 2 r2 3 r3 -2 c2 1 2 2 c3 4 2 3 mat D = diag(vecdiag(S)) mat lis D symmetric D[3,3] c1 c2 c3 c1 2 c2 0 2 c3 0 0 3 mat V = (3,1,2) mat D = diag(V) mat lis D symmetric D[3,3] c1 c2 c3 c1 3 c2 0 1 c3 0 0 2 Matriz identidad mat I = I(3) mat lis I symmetric I[3,3] c1 c2 c3 r1 1 r2 0 1 r3 0 0 1 Matriz simetrica mat C = (2,1,5\1,3,4\5,4,-2) UAM-X 20 10P ECONOMETRÍA FORTINO VELA PEÓN mat lis C symmetric C[3,3] c1 c2 c3 r1 2 r2 1 3 r3 5 4 -2 mat CT = C' mat lis CT symmetric CT[3,3] r1 r2 r3 c1 2 c2 1 3 c3 5 4 -2 Matriz inversa matrix A = (4,2,2 \ 4,6,8 \ -2,2,4) matrix list A A[3,3] c1 r1 4 r2 4 r3 -2 c2 2 6 2 c3 2 8 4 matrix A1 = inv(A) matrix list A1 A1[3,3] r1 c1 1 c2 -4 c3 2.5 r2 -.5 2.5 -1.5 r3 .5 -3 2 Matriz inversa y determinante mat C = (2,1,6\1,3,4\6,4,-2) mat CI = syminv(C) mat lis CI symmetric CI[3,3] r1 r2 r3 c1 .6 c2 -.2 .4 c3 0 0 0 scalar d = det(C) display d -102 Despliegue del número de columnas y renglones mat X = (3,2\2,-2\4,6\3,1) mat lis X X[4,2] UAM-X 21 10P ECONOMETRÍA r1 r2 r3 r4 c1 3 2 4 3 FORTINO VELA PEÓN c2 2 -2 6 1 scalar r = rowsof(X) scalar c = colsof(X) display r, " ", c 4 2 Calculo de las sumas por renglon o columna mat A = (2,1\3,2\-2,2) mat lis A A[3,2] c1 r1 2 r2 3 r3 -2 c2 1 2 2 mat U = J(rowsof(A),1,1) mat list U U[3,1] c1 r1 1 r2 1 r3 1 mat c = U'*A mat list c c1 c1 3 c2 5 Cálculo de las medias por renglón o columna mat cm = c/rowsof(A) mat lis cm cm[1,2] r1 UAM-X c1 1 c2 1.6666667 22 10P