lunes, 19 de enero de 2015

VARIANZA

VARIANZA
Es una medida de dispersión definida como 

la esperanza del cuadrado de la desviación de dicha 

variable respecto a su media.

Está medida en unidades distintas de las de la variable.

Por ejemplo, si la variable mide una distancia en metros, la 


varianza se expresa en metros al cuadrado.

La desviación  estándar es la raíz cuadrada de la varianza,

 es una medida  de dispersión alternativa expresada en las 

mismas  unidades de los datos de la variable objeto de 

estudio. La varianza tiene como valor mínimo 0.

Hay que tener en cuenta que la varianza puede verse muy 

influida por los valores atípicos y no se aconseja su uso 

cuando las distribuciones de las variables aleatorias tienen

colas pesadas. En tales casos se recomienda el uso de 


otras medidas de dispersión más robustas.

DESVIACIÓN ESTÁNDAR

DESVIACIÓN ESTÁNDAR
Ldesviación estándar (DS/DE), 

también llamada desviación típica, es una medida 

de dispersión usada en estadística que nos dice cuánto 

tienden a alejarse los valores concretos del promedio en 

una distribución. De hecho, específicamente, el cuadrado 

de la desviación estándar es "el promedio del cuadrado de

 la distancia de cada punto respecto del promedio". Se 

suele representar por una S o con la letra sigma, \sigma^{}_{}.

La desviación estándar de un conjunto de datos es una 

medida de cuánto se desvían los datos de su media. Esta

medida es más estable que el recorrido y toma en 

consideración el valor de cada dato.
EJEMPLO:

Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de niños: ', 7 }
1. Calcular el promedio o media aritmética \overline{x}.
\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i.
En este caso, N = 6:
x_1 = 4\,\!
x_2 = 1\,\!
x_3 = 11\,\!
x_4 = 13\,\!
x_5 = 2\,\!
x_6 = 7\,\!
\overline{x}=\frac{1}{6}\sum_{i=1}^6 x_i       Sustituyendo N por 6
\overline{x}=\frac{1}{6} \left ( x_1 + x_2 + x_3 + x_4 + x_5 + x_6 \right )
\overline{x}=\frac{1}{6} \left ( 4 + 1 + 11 + 13 + 2 + 7 \right )
\overline{x}= 6,33
2. Calcular la desviación estándar \sigma\,\!
\sigma = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2}
\sigma = \sqrt{\frac{1}{6-1} \sum_{i=1}^6 (x_i - \overline{x})^2}       Sustituyendo N por 6;
\sigma = \sqrt{\frac{1}{5} \sum_{i=1}^6 (x_i - 6,33)^2}       Sustituyendo \overline{x} por 6,33
\sigma = \sqrt{\frac{1}{5} \left [ (4 - 6,33)^2 + (1 - 6,33)^2 + (11 - 6,33)^2 + (13 - 6,33)^2 +(2 - 6,33)^2 + (7 - 6,33)^2 \right ] }
\sigma = \sqrt{\frac{1}{5} \left [ (-2,33)^2 + (-5,33)^2 + 4,67^2 + 6,67^2 + (-4,33)^2 + 0,67^2 \right ] }
\sigma = \sqrt{\frac{1}{5} \left ( 5,43 + 28,4 + 21,8 + 44,5 + 18,7 + 0,449 \right ) }
\sigma = \sqrt{\frac{119,28}{5}}
\sigma = \sqrt{23,856}
\sigma \approx 4,89\,\!.

RANGO INTERCUARTIL




RANGO INTERCUARTIL


El rango intercuartíl es una medida de variabilidad 
adecuada cuando la medida de posición central empleada 
ha sido la mediana. Se define como la diferencia entre el 
tercer cuartil (Q3) y el primer cuartil (Q1), es decir: RQ = Q3 - 
Q1. A la mitad del rango intercuartil se le conoce como
 desviación cuartil (DQ): DQ = RQ/2= (Q3 - Q1)/2.
Se usa para construir los diagramas de caja y bigote (box 
plots) que sirven para visualizar la variabilidad de una 
variable y comparar distribuciones de la misma variable; 
además de ubicar valores extremos.


FORMA DE CALCULAR:
Se obtiene al evaluar:
Q3 - Q1
Donde:
Q3 es cuartil tercero
Q1 es cuartil primero.


MEDIANA

                                              MEDIANA


l
mediana representa el valor de la variable de 

posición central en un conjunto de datos ordenados.


Una ventaja de la mediana es que es sensible o se ve 

afectada cuando hay cambios en el numero de datos



Para Calcular:

Existen dos métodos para el cálculo de la mediana:
  • Considerando los datos en forma individual, sin agruparlos.
  • Utilizando los datos agrupados en intervalos de clase.
A continuación veamos cada una de ellas.

Datos sin agrupar

Sean x_1,x_2,x_3,\ldots,x_n los datos de una muestra ordenada en

 orden creciente y designando la mediana como M_e,

 distinguimos dos casos:

  • a) Si n es impar, la mediana es el valor que ocupa la posición (n+1)/2 una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central.
  •  Es decir: M_e=x_{(n+1)/2}.

Por ejemplo, si tenemos 5 datos, que ordenados son: x_1 = 3,
 x_2 = 6x_3 = 7x_4 = 8x_5 = 9 => El valor central es el tercero: 
x_{(5+1)/2} = x_3 = 7. Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (x_1x_2) y otros dos por encima de él (x_4x_5).
  • b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando n es par, los dos datos que están en el centro de la muestra ocupan las posiciones n/2 y n/2+1.
    Es decir: 
    M_e = (x_{\frac{n}{2}} + x_{{\frac{n}{2}}+1})/2.

Por ejemplo, si tenemos 6 datos, que ordenados son: x_1 = 3x_2 = 6x_3 = 7x_4 = 8x_5 = 9x_6 = 10. Aquí dos valores que están por debajo del x_{\frac {6} {2}} = x_3 = 7 y otros dos que quedan por encima del siguiente dato x_{{\frac {6} {2}}+1} = x_4 = 8
  • Por tanto, la mediana de este grupo de datos es la media aritmética de estos dos datos: M_e = \frac {x_3 + x_4}{2} = \frac {7 + 8} {2}=7,5.

Datos agrupados

Al tratar con datos agrupados, si  {{\frac {n} {2}}}  coincide con el valor de 
una frecuencia acumulada, el valor de la mediana 
coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abcisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:
\frac{N_i-N_{i-1} }{a_i-a_{i-1} }=\frac{\frac{n}{2}-N_{i-1} }{p}\Rightarrow p=\frac{\frac{n}{2}-N_{i-1} }{N_i-N_{i-1} }(a_i-a_{i-1})
Donde N_{i} y N_{i-1} son las frecuencias absolutas acumuladas tales que N_{i-1} < {{\frac {n} {2}}} < N_{i}a_{i-1} y a_{i} son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y M_e=a_{i-1}+p es la abscisa a calcular, la mediana. Se observa que a_{i} - a_{i-1} es la amplitud de los intervalos seleccionados para el diagrama.