Resumen Introducción Corpus de Tweets Pre

Transcripción

Resumen Introducción Corpus de Tweets Pre
Análisis sobre el idioma español en México,
con base en la frecuencia de palabras
azules, rojas, obscenas y vulgares en Twitter
Orlando Ramos, Luis Moctezuma, Jesús García, David Pinto
Benemérita Universidad Autónoma de Puebla
Faculty of Computer Science, Mexico
[email protected], {orlandxrf, luisalfredomoctezuma}@gmail.com, [email protected]
Resumen
En este artículo se presenta una comparativa entre estados de la República Mexicana de la frecuencia de palabras azules, rojas, obscenas y
vulgares que escriben usuarios de la red social de microblogging
Twitter. Se presen-tan gráficas de los resultados obtenidos. El objetivo
es mostrar en mapas del comportamiento de la frecuencia de palabras
por cada estado y clasificados por el tipo de palabra analizada. Los
experimentos fueron realizados sobre un corpus de tweets..
Introducción
Figura 1. Frecuencia de palabras obscenas
Figura 2. Frecuencia de palabras vulgares
Figura 3. Frecuencia de palabras azules
Figura 4. Frecuencia de palabras rojas
Una de las características que definen a México sobre el idioma
español es su riqueza lingüística en relación a palabras con
connotación sexual y ofensivas que utilizan las personas en la vida
cotidiana, muchas veces en doble sentido. Estas expresiones verbales
o escritas son consideradas por la sociedad como malas palabras. En
cuanto a las palabras azules se utilizan en un contexto positivo,
mientras que las palabras rojas son utilizadas en un contexto negativo.
Corpus de Tweets
Entidades Federativas de la República Mexicana
…
En la Fig. 1 se aprecia el mapa con la frecuencia obtenida de analizar el uso
de las palabras obscenas por cada estado de la República. Los estados de
Sonora, Estado de México y Jalisco presentan una mayor frecuencia en el uso
de palabras obscenas, mientras que el estado de Nayarit es el único que no
presenta incidencias de dichas palabras
Como se puede observar en la Fig. 2 los estados en los que se encontró un
mayor número de incidencias de palabras vulgares es Sonora junto con el
Estado de México y los que menos frecuencia obtuvieron fueron los estados de
Nayarit, Nuevo León y Oaxaca.
Pre-procesamiento y Cálculo de
frecuencias
…
Para la Fig. 3 se muestra la frecuencia de palabras azules en donde se
observa clara-mente que los estados de Coahuila y Jalisco presentan un
mayor número de palabras positivas con base en el análisis realizado,
mientras que los estados de Nayarit y Zacatecas fueron los que se encontraron
dichas palabras con menos frecuencia.
En la Fig. 4 se presentan Coahuila, Sonora y Jalisco como los estados con un
mayor número de frecuencias de palabras negativas. Y los estados con menos
incidencia de palabras rojas son los estados de Nayarit, Zacatecas y Guerrero.
Resultados obtenidos
Tabla 1 Frecuencias encontradas
Estado
Obscenas
Aguascalientes
0.93%
Baja California
0.40%
Baja California Sur
1.46%
Campeche
0.67%
Chiapas
2.66%
Chihuahua
0.80%
Coahuila
3.06%
Colima
0.40%
Distrito Federal
7.06%
Durango
1.20%
Guanajuato
2.80%
Guerrero
1.73%
Hidalgo
1.20%
Jalisco
8.39%
México
16.38%
Michoacán
0.93%
Morelos
0.67%
Nayarit
0.00%
Nuevo León
0.13%
Oaxaca
0.40%
Puebla
2.26%
Querétaro
3.60%
Quintana Roo
2.80%
San Luis Potosí
2.53%
Sinaloa
3.46%
Sonora
10.65%
Tabasco
7.19%
Tamaulipas
2.53%
Tlaxcala
1.73%
Veracruz
5.19%
Yucatán
5.59%
Zacatecas
1.20%
Palabras
Vulgares Azules
1.29% 2.68%
0.89% 1.41%
0.98% 1.09%
1.25% 2.01%
2.46% 2.42%
1.34% 1.30%
6.03% 8.73%
0.58% 1.15%
8.17% 6.43%
1.38% 1.97%
3.30% 3.05%
1.47% 1.04%
1.92% 1.41%
5.58% 6.92%
9.73% 6.37%
0.94% 1.45%
0.98% 1.45%
0.13% 0.62%
0.22% 2.14%
0.40% 1.15%
1.34% 1.03%
5.94% 4.48%
2.63% 3.37%
2.81% 2.50%
3.79% 3.88%
11.43% 6.43%
5.04% 5.34%
3.93% 4.07%
1.29% 1.09%
5.31% 5.82%
6.16% 6.17%
1.25% 1.01%
Rojas
1.42%
2.28%
1.11%
1.92%
0.81%
1.32%
12.96%
0.66%
6.28%
1.82%
1.21%
1.92%
1.47%
6.88%
6.02%
1.47%
1.82%
0.40%
0.05%
0.71%
1.87%
4.05%
3.24%
4.05%
2.28%
6.02%
6.88%
4.00%
1.57%
5.21%
6.63%
1.67%
De los diccionarios de palabras se
comparó con el corpus de cada
estado. El resultado fue un archivo
con las palabras encontradas y su
frecuencia, lo cual permite hacer
una comparativa entre todos los
estados como se muestra en la
Tabla 1.
Conclusiones
Los estados de la República Mexicana con una presencia mayor de los
cuatro tipos de palabras usados en este trabajo son Sonora, Coahuila y
el Estado de México, lo que nos permite concluir que en el norte y
centro del país es donde se concentra la mayor frecuencia de palabras
azules, rojas, obscenas y vulgares.
Las palabras más utilizadas de los diferentes tipos son:
• Azules: hacer, decidir, ganar
• Rojas: ultimar, jugar, fallar
• Obscenas: verga, hueva, huevos
• Vulgares: pinche, pedo, pendejo