Ejercicios Sesión 7 Juan D. Barón Nota: Para estos ejercicios
Transcripción
Ejercicios Sesión 7 Juan D. Barón Nota: Para estos ejercicios
Ejercicios Sesión 7 Juan D. Barón Nota: Para estos ejercicios, deberá descargar el archivo SABER11(2010).zip que contiene dos archivos de Access. Uno para cada semestre. Esta base de datos pesa más o menos 90 megas. El ejercicio busca que usted siga todos los pasos que se muestran en las diapositivas. 1. Descomprima el archivos “SABER11(2010).zip” y use StatTransfer para convertir los archivos a sus versiones de Stata/SE. No olvide descargar el diccionario de variables(.pdf). Los archivos que encontrará son: SB11-2010-1-RGSTRO-CLFCCN-v1-0.mdb SB11-2010-2-RGSTRO-CLFCCN-v1-0.mdb 2. Cree un archivo do con la plantilla que se usó en clases pasadas (plantilla.do) y trabaje en éste. Lea una de las bases de datos y combínele con la otra (use el comando append). Tenga cuidado al combinar las bases de datos ya que si las variables en cada archivo no están en el mismo formato, podrían crearse missing values que realmente no lo son.1 Si tiene este problema, una alternativa es codificar las variables de cada archivo de Stata por aparte y hacer el append al final, cuando ya todas las variables estén listas. 3. Haga la limpieza de las variables que le permita estimar el modelo en la diapositiva número 16. Para ello tendrá que hacer lo siguiente (no necesariamente en ese orden). No olvide ponerle etiquetas a las variables, y etiquetas de valores para recordar como fueron definidas. Cree una variable llamada total que es la suma de los siete componentes básicos de la prueba para cada estudiante (biología, física, química, matemáticas, lenguaje, ciencias sociales, filosofía). Una vez haga esto, genere una variable adicional llamada ltotal que sea el logaritmo natural de la variable total (nota use la función ln()). Cree una variable llamada etnia que toma valor 1 si la persona se auto identifica como perteneciente a una etnia y 0 si no lo hace o el valor es faltante (recuerde que en las variables de texto los valores faltantes son espacios “ ”). Cree una variable llamada jcomp que toma el valor 1 si la persona estudia en jornada completa u ordinaria, y 0 si en otro caso. Genere las variables dummy de departamento (nota: cuando hay tantas por generar es mejor usar el comando tab con la opción “generate()”) Genere una variable dummy llamada mujer (toma 1 si la persona es mujer y 0 si es hombre). 1 Por ejemplo, cuando estaba preparando estos ejercicios la variables “estrato” en mi base de datos resuiltante tenía un gran número de missing values. Al revisar cada archivo por separado, no había tantos de éstos, por lo que el problema se crea es al realizar la combinación de los datos (append). La reproducción total o parcial de este material está prohibida. Material provisional y sujeto a cambios. Grabe la base de datos de Stata. El archivo debe contener únicamente el identificador de persona y las variables que se definieron en los puntos anteriores. 4. Cree otro archivo do para hacer lo siguiente: Leer la base de datos que se grabó en el punto anterior Use el comando regress para estimar el modelo: 32 ln( Ri ) 0 1etnia i 2 jcompi 3mujeri j deptoij ui . j 1 Hacer un histograma de la variable ltotal Sacar el promedio para las variables total y ltotal por departamento. ¿En qué departamento los estudiantes sacan el mayor puntaje promedio? ¿En términos relativos cuanto más sacan los bogotanos en comparación con los bolivarenses? Usar el comando kdensity para dibujar la distribución de puntajes para hombres y mujeres. Use la variable ltotal y excluya los valores de ltotal menores que 5. NOTA: Si usted llegó hasta aquí e hizo la mayoría de puntos, no importa si usted miró las diapositivas, miro en internet o la ayuda (en parte ese es el punto), usted ya ha aprendido como procesar datos, limpiarlos y estimar un modelo! ¡Aún si todavía no entiende como interpretarlo! [FIN DEL DOCUMENTO] La reproducción total o parcial de este material está prohibida. Material provisional y sujeto a cambios.