Quiénes somos: Analytics Equifax Quiénes somos: Analytics
Transcripción
Quiénes somos: Analytics Equifax Quiénes somos: Analytics
Quiénes somos: Analytics - Equifax Norte América USA 1899 Canadá Europa Inglaterra e Irlanda España y Portugal C t y Sur Centro S América A éi Brasil, Argentina, Chile, Perú, Uruguay, Paraguay, Ecuador, El Salvador, Salvador Honduras y Costa Rica Asia Rusia India Business Analytics Técnicas estadísticas para la potenciación de los procesos de negocio. Una visión sobre la originación y administración de cuentas. ¿Qué vamos a ver hoy? • Business Analytics • Credit Scoring – Técnicas Estadísticas – Problemas metodológicos • Los 10 errores más comunes en Business Analytics Business Analytics Negocios Business Analytics Estadística Tecnología y Datos Business Analytics “Es la práctica de la exploración metódica e iterativa de los datos de una organización, con énfasis en el análisis estadístico estadístico, utilizado por compañías comprometidas con la toma de decisiones guiada por la información que reside en los datos.” datos. [[*]] [*] www.SearchBusinessAnalytics.com Ciclo de vida del cliente Recuperación Captación Gestión Originación Credit Scoring Recuperación Captación Gestión Originación Credit Scoring “Es una expresión numérica obtenida estadísticamente que expresa la solvencia crediticia de una persona. Se utiliza por acreedores para evaluar la verosimilitud de q e la persona ccumpla que mpla con los compromisos de pago asumidos. Un credit score se basa, entre otras cosas, en la historia de comportamiento crediticio de la persona.[*]” [*] http://www.investopedia.com Información Negativa Población Existencia d de Información Volumen de Transacciones Comportamiento hi tó i histórico Existe (hit) Ninguna Indeter minado i d No Existe (no hit) Bajo Comp No Deseado Alto Información Positiva Población Existencia d de Información Volumen de Transacciones Comportamiento hi tó i histórico Existe (hit) Ninguna No Existe (no hit) Bajo Comp Deseado Comp No Desado Alto Comp Deseado Comp No Deseado Técnicas Estadísticas Técnicas Estadísticas • • • • Regresión Árboles de Decisión K – vecinos más cercanos Redes Neuronales Regresiones Regresiones - ejemplo Individuo edad consFNB inc y = Score Pablo 38 2 0 280 Julio 60 2 0 500 Diego 53 0 0 530 Matilde 65 0 1 150 Segmentación ejemplo Score 2 2.0 0 Tabla de Performance de Score de Riesgo Score Total % Comp. Total Deseado % Comp. Comp. No % Comp. Prob . Comp. Deseado Deseado No Deseado No Deseado 753 - 999 36624 20 0 20.0 35375 32 0 32.0 1249 17 1.7 34 3.4 542 - 752 36624 20.0 34017 30.8 2607 3.6 7.1 148 - 541 36624 20 0 20.0 26055 23 6 23.6 10569 14 5 14.5 28 9 28.9 11 - 147 36624 20.0 11236 10.2 25388 34.9 69.3 1 - 10 36623 20 0 20.0 3721 34 3.4 32902 45 2 45.2 89 8 89.8 Total 183119 100 110404 100.0 72715 100.0 39.7 Árboles de Decisión Árboles de Decisión Población total Edad <= 24 Edad >24 NSE alto NSE bajo No Hit 3% Hit 15% A Sin Incumpl Con Incumpl D Sin I Incumpl l Con I Incumpl l 10% 75% 5% 80% C E B F Segmentación – Árbol de decisión Tabla de Performance del Árbol de Decisión Score Total % Comp. Comp. % Comp. Comp. No No Deseado Deseado Deseado Deseado % Total Prob . Comp. No Deseado A 500 27.8 485 36.3 15 3.2 3.0 B 200 11.1 190 14.2 10 2.2 5.0 C 250 13.9 225 16.9 25 5.4 10.0 D 400 22.2 340 25.5 60 12.9 15.0 E 100 5.6 25 1.9 75 16.1 75.0 F 350 19.4 70 5.2 280 60.2 80.0 1800 100.0 1335 100.0 465 100.0 25.8 Total Otras técnicas K vecinos más cercanos Redes Neuronales K – vecinos más cercanos Redes neuronales [*] http://www.wikipedia.com Lo posible no siempre es lo mejor Interpretabilidad Árboles de decisión Regresiones K - vecinos más cercanos Redes neuronales Precisión Hasta acá vimos vimos… Business A l ti Analytics Evaluación Validación Problemas de Negocio Ej: Credit Scoring Modelización Segmentación Definición correcta de Preguntas Tratamiento Previo de los Datos Información de Valor Selección de Técnicas Estadísticas Muestreo Decisiones de Negocio Problemas metodológicos Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos Definición del problema • Medida de desempeño – Comportamiento deseado – Comportamiento no deseado (atraso 30, 30 60, 60 90 días) – Indeterminados • Ventana de desempeño – 1 año? – 2 años? • Exclusiones por reglas de negocio Fecha de Observación Comportamiento histórico +1 año +2 años Ventana de desempeño Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos Tamaño de muestra “Los diagnósticos de laboratorio […] son realizados en base a unas cuantas gotas de sangre. Este procedimiento está basado en la suposición i ió d de que, en ell ttorrente t circulatorio, i l t i lla sangre está tá bi bien mezclada y que una gota cuenta la misma historia que otra […] pero cuando el material está lejos de ser uniforme, es crítico el método por el cual fue tomada la muestra […].” William Cochran [1] [1] “Sampling Techniques”. (1971). Pág. 19; edición en castellano. John Wiley & Sons, INC. 0.30 0.29 0.28 Más datos no agregan información 0.27 7 Variabilidad de lo os datos 0.3 31 0.32 La Sorpresa en los Datos 0 2000 4000 6000 Tamaño de Muestra 8000 10000 Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos Desbalance y Falta de Información Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos Alto La Capacidad de Generalización Errror de prediccción Muestra de validación Bajo Muestra de desarrollo Baja “overfitting” Complejidad Alta Problemas metodológicos • • • • • Definición del problema Tamaño de muestra Desbalance de los datos Medición del error Sesgo de dominio de los datos “Battle Tank example.” Sesgo de Dominio Ejemplo: “Rechazados” Población Aceptados Comportamiento Deseado Comportamiento No Deseado Rechazados IInferencia f i de d R Rechazados h d Champion Challenger Datos de Buró Los 10 errores más comunes Mal formulamiento inicial ? “Mejor una respuesta aproximada a una na preg pregunta nta correcta correcta, q una respuesta que p exacta a una pregunta incorrecta.” Mal formulamiento inicial Muestra no aleatoria ? 1,2,3... Mal balanceo de los datos Basura Basura asura Ba Basura ra Bas “Lo que no se hace es tan importante cómo lo que se hace hace.”” Mal formulamiento inicial Muestra no aleatoria ? 1,2,3... Escuchar sólo a los datos Considerar sólo una técnica Mal balanceo de los datos Basura Basura asura Ba Basura ra Sobre ajuste Bas Temprano con la computadora “Desconfiar de modelos muy precisos.” Mal formulamiento inicial Muestra no aleatoria ? 1,2,3... Escuchar sólo a los datos Considerar sólo una técnica Mal balanceo de los datos Temprano con la computadora Basura Basura asura Ba Basura ra Sobre ajuste Bas No validación Train Test Extrapolación inválida Habíamos visto… visto Business A l ti Analytics Evaluación Validación Problemas de Negocio Ej: Credit Scoring Modelización Segmentación Definición correcta de Preguntas Tratamiento Previo de los Datos Información de Valor Selección de Técnicas Estadísticas Muestreo Decisiones de Negocio Finalmente vimos vimos… Business A l ti Analytics Evaluación Validación Problemas de Negocio Ej: Credit Scoring Modelización Segmentación Definición correcta de Preguntas Tratamiento Previo de los Datos Información de Valor Selección de Técnicas Estadísticas Muestreo Decisiones de Negocio “Nuestras acciones no son aleatorias, el desafío es aprender los patrones y explotarlos explotarlos.” Gracias The New Know. Innovation Powered by Analytics – Thorton May, 2008