Análisis Descriptivo y Probabilidad

Transcripción

Análisis Descriptivo y Probabilidad
Análisis Descriptivo y Probabilidad
Mónica Alacreu, Paloma Botella y Antonio Falcó
ESAFORM 2009– p. 1
Variables Aleatorias
Ω una población sujeta a estudio.
ω es cada individuo de esa población.
Cada individuo "generaüna respuesta:
X(ω) = x La altura en cm de ω es x
Toda la población genera:
X(ω1 ) = x1 , X(ω2 ) = x2 , . . . , X(ωn ) = xn , . . .
¿Qué información podemos extraer de todos esos
datos?
ESAFORM 2009– p. 2
Distribuciones de Probabilidad
Construimos un gráfico a partir de las frecuencias
relativas (adimensionales):
Número de veces que aparece el valor x
x −→
,
Número total de observaciones
entonces
X Número de veces que aparece el valor x Número total de observaciones
x
= 1.
donde
P
x
≡
sumar respecto todos los valores
posibles que puede tomar x
ESAFORM 2009– p. 3
Medidas
Datos observados:
x1 , x2 , . . . , xn
Tamaño de la muestra :
n
Media
n
1X
x1 + x2 + · · · + xn
x=
xi =
n
n
j=1
Varianza
n
2 + (x − x)2 + · · · + (x − x)2
X
(x
−
x)
1
1
2
n
(xi − x)2 =
s2 =
n
n
j=1
ESAFORM 2009– p. 4
Geometría de la Media y la Varianza
ESAFORM 2009– p. 5
Otras Medidas
Primer cuártil es un número Q1 que cumple:
X Número de veces que aparece el valor x x≤Q1
Número total de observaciones
= 0,25
Segundo cuártil es un número Q2 que cumple:
X Número de veces que aparece el valor x x≤Q2
Número total de observaciones
= 0,50
Tercer cuártil es un número Q3 que cumple:
X Número de veces que aparece el valor x x≤Q3
Número total de observaciones
= 0,75
ESAFORM 2009– p. 6
Ejemplo
> summary(Datos)
infant.mortality
GDP
Min.
: 2.00
Min.
:
36
1st Qu.: 12.00
1st Qu.: 442
Median : 30.00
Median : 1779
Mean
: 43.48
Mean
: 6262
3rd Qu.: 66.00
3rd Qu.: 7272
Max.
:169.00
Max.
:42416
NA’s
: 6.00
NA’s
:
10
Min. = mı́n{x1 , x2 , . . . , xn } y Max. = máx{x1 , x2 , . . . , xn }
Median es la mediana y corresponde a Q2 .
ESAFORM 2009– p. 7
Ejercicio
Intenta dar una descripción gráfica de la variable GDP a
tenor de los datos expuestos en la anterior transparencia.
ESAFORM 2009– p. 8
Probabilidad
Asumimos que nuestras observaciones se miden con un
cierto grado de "incertidumbre".
Para modelizar esta incertidumbre empleamos una
medida de probabilidad, que denotaremos por P,
asociada a la variable sujeta a estudio X.
1. La probabilidad de que midamos entre el valor
máximo y mínimo que puede tomar X es uno:
P(máx ≤ X ≤ mı́n) = 1.
ESAFORM 2009– p. 9
Probabilidad
La probabilidad de que X tome valores inferiores o
iguales a a
P(X ≤ a)
La probabilidad de que X tome valores inferiores a a
P(X < a)
La probabilidad de que X tome valores superiores o
iguales a a
P(X ≥ a)
La probabilidad de que X tome valores superiores a a
P(X > a)
ESAFORM 2009– p. 10
¿Cómo leemos estas expresiones ?
1. P(a < X ≤ b)
2. P(a ≤ X < b)
3. P(a ≤ X ≤ b)
4. P(a < X < b)
¿Cómo podemos calcular estas expresiones en la práctica ?
ESAFORM 2009– p. 11
Variables Aleatorias X
Hay modelos establecidos y se dividen en dos
categorias.
Discretas.
X = Veces que obtengo 1 al tirar 6 veces un dado
Continuas.
X = Area ocupada por células cancerígenas
ESAFORM 2009– p. 12
Graficamente
ESAFORM 2009– p. 13
Tipos de variables dsicretas
Binomial.
Bernouilli.
Poisson.
ESAFORM 2009– p. 14