Resumen Introducción Corpus de Tweets Pre
Transcripción
Resumen Introducción Corpus de Tweets Pre
Análisis sobre el idioma español en México, con base en la frecuencia de palabras azules, rojas, obscenas y vulgares en Twitter Orlando Ramos, Luis Moctezuma, Jesús García, David Pinto Benemérita Universidad Autónoma de Puebla Faculty of Computer Science, Mexico [email protected], {orlandxrf, luisalfredomoctezuma}@gmail.com, [email protected] Resumen En este artículo se presenta una comparativa entre estados de la República Mexicana de la frecuencia de palabras azules, rojas, obscenas y vulgares que escriben usuarios de la red social de microblogging Twitter. Se presen-tan gráficas de los resultados obtenidos. El objetivo es mostrar en mapas del comportamiento de la frecuencia de palabras por cada estado y clasificados por el tipo de palabra analizada. Los experimentos fueron realizados sobre un corpus de tweets.. Introducción Figura 1. Frecuencia de palabras obscenas Figura 2. Frecuencia de palabras vulgares Figura 3. Frecuencia de palabras azules Figura 4. Frecuencia de palabras rojas Una de las características que definen a México sobre el idioma español es su riqueza lingüística en relación a palabras con connotación sexual y ofensivas que utilizan las personas en la vida cotidiana, muchas veces en doble sentido. Estas expresiones verbales o escritas son consideradas por la sociedad como malas palabras. En cuanto a las palabras azules se utilizan en un contexto positivo, mientras que las palabras rojas son utilizadas en un contexto negativo. Corpus de Tweets Entidades Federativas de la República Mexicana … En la Fig. 1 se aprecia el mapa con la frecuencia obtenida de analizar el uso de las palabras obscenas por cada estado de la República. Los estados de Sonora, Estado de México y Jalisco presentan una mayor frecuencia en el uso de palabras obscenas, mientras que el estado de Nayarit es el único que no presenta incidencias de dichas palabras Como se puede observar en la Fig. 2 los estados en los que se encontró un mayor número de incidencias de palabras vulgares es Sonora junto con el Estado de México y los que menos frecuencia obtuvieron fueron los estados de Nayarit, Nuevo León y Oaxaca. Pre-procesamiento y Cálculo de frecuencias … Para la Fig. 3 se muestra la frecuencia de palabras azules en donde se observa clara-mente que los estados de Coahuila y Jalisco presentan un mayor número de palabras positivas con base en el análisis realizado, mientras que los estados de Nayarit y Zacatecas fueron los que se encontraron dichas palabras con menos frecuencia. En la Fig. 4 se presentan Coahuila, Sonora y Jalisco como los estados con un mayor número de frecuencias de palabras negativas. Y los estados con menos incidencia de palabras rojas son los estados de Nayarit, Zacatecas y Guerrero. Resultados obtenidos Tabla 1 Frecuencias encontradas Estado Obscenas Aguascalientes 0.93% Baja California 0.40% Baja California Sur 1.46% Campeche 0.67% Chiapas 2.66% Chihuahua 0.80% Coahuila 3.06% Colima 0.40% Distrito Federal 7.06% Durango 1.20% Guanajuato 2.80% Guerrero 1.73% Hidalgo 1.20% Jalisco 8.39% México 16.38% Michoacán 0.93% Morelos 0.67% Nayarit 0.00% Nuevo León 0.13% Oaxaca 0.40% Puebla 2.26% Querétaro 3.60% Quintana Roo 2.80% San Luis Potosí 2.53% Sinaloa 3.46% Sonora 10.65% Tabasco 7.19% Tamaulipas 2.53% Tlaxcala 1.73% Veracruz 5.19% Yucatán 5.59% Zacatecas 1.20% Palabras Vulgares Azules 1.29% 2.68% 0.89% 1.41% 0.98% 1.09% 1.25% 2.01% 2.46% 2.42% 1.34% 1.30% 6.03% 8.73% 0.58% 1.15% 8.17% 6.43% 1.38% 1.97% 3.30% 3.05% 1.47% 1.04% 1.92% 1.41% 5.58% 6.92% 9.73% 6.37% 0.94% 1.45% 0.98% 1.45% 0.13% 0.62% 0.22% 2.14% 0.40% 1.15% 1.34% 1.03% 5.94% 4.48% 2.63% 3.37% 2.81% 2.50% 3.79% 3.88% 11.43% 6.43% 5.04% 5.34% 3.93% 4.07% 1.29% 1.09% 5.31% 5.82% 6.16% 6.17% 1.25% 1.01% Rojas 1.42% 2.28% 1.11% 1.92% 0.81% 1.32% 12.96% 0.66% 6.28% 1.82% 1.21% 1.92% 1.47% 6.88% 6.02% 1.47% 1.82% 0.40% 0.05% 0.71% 1.87% 4.05% 3.24% 4.05% 2.28% 6.02% 6.88% 4.00% 1.57% 5.21% 6.63% 1.67% De los diccionarios de palabras se comparó con el corpus de cada estado. El resultado fue un archivo con las palabras encontradas y su frecuencia, lo cual permite hacer una comparativa entre todos los estados como se muestra en la Tabla 1. Conclusiones Los estados de la República Mexicana con una presencia mayor de los cuatro tipos de palabras usados en este trabajo son Sonora, Coahuila y el Estado de México, lo que nos permite concluir que en el norte y centro del país es donde se concentra la mayor frecuencia de palabras azules, rojas, obscenas y vulgares. Las palabras más utilizadas de los diferentes tipos son: • Azules: hacer, decidir, ganar • Rojas: ultimar, jugar, fallar • Obscenas: verga, hueva, huevos • Vulgares: pinche, pedo, pendejo