La estadística estudia conjuntos de datos para calcular su media, su desviación típica, etc., y, eventualmente, compararlos con otros conjuntos de datos.
En lo que sigue consideraremos los dos siguientes conjuntos de datos (referidos, por ejemplo, a puntuaciones obtenidas por dos personas que realizan una prueba y
veces, respectivamente). Los conjuntos de datos se llaman también distribuciones:
-
Se llama frecuencia absoluta al número de veces que se repite un dato. Por ejemplo, la frecuencia del
en la primera distribución es
, y en la segunda:
. La frecuencia relativa de un dato se calcula dividiendo su frecuencia absoluta por el número total de datos de la distribución; así, la frecuencia relativa del dato “
” en la primera distribución es
, y en la segunda:
.
-
Moda es el valor que se repite más (tiene mayor frecuencia) en una distribución de datos. La moda de la primera distribución es
, y la de la segunda,
Hay distribuciones que tienen más de una moda.
-
Mediana es el valor central de una distribución en la que hemos previamente ordenado sus datos de menor a mayor (o al revés). Si el número de datos es par, la mediana es la media de los dos centrales. Para la primera distribución (
) la mediana es
, y para la segunda,
.
-
Media aritmética es la suma de los datos dividido por el número de ellos. La media,
, para la primera distribución es:
La fracción escrita se suele simplificar mediante la operación matemática llamada sumatorio (que se simboliza ) así:
El numerador se lee “sumatorio desde
hasta
de los valores
“.
Dada la serie de números:
, calcular
Sol.:
La media para la segunda distribución de datos que estamos considerando es:
-
Se llama desviación de un dato a la diferencia (con signo positivo) entre ese dato y la media. Por ejemplo, en la primera distribución, la diferencia entre el dato
y la media es:
; por tanto, la desviación de dicho dato es
La media de las desviaciones de todos los datos se llama desviación media. Si llamamos
al número de datos de una distribución, la fórmula para calcular su desviación media es:
Para la primera distribución, la desviación media es:

y para la segunda distribución:

-
La varianza, que se representa con el símbolo
(“sigma cuadrado”), es la media de los cuadrados de las desviaciones, es decir:
.
Una fórmula más sencilla para la varianza es: (es decir, media de los cuadrados menos cuadrado de la media).
Aplicando cualquiera de estas fórmulas a ambas distribuciones obtenemos los siguientes valores de la varianza:

-
La desviación típica, que se representa con el símbolo
(”sigma”), es la raíz cuadrada de la varianza. Las desviaciones típicas para ambas distribuciones son, pues:

La desviación típica, la varianza y la desviación media dan una medida de la dispersión de los datos alrededor de la media.
Dadas
puntuaciones, todas ellas
, la media es evidentemente
. La desviación media, la varianza y la desviación típica son
(compruébese)
Sean las distribuciones
y
, cuya media (en ambos casos) es
La desviación típica de la primera es, aproximadamente,
, y la de la segunda,
. La gran diferencia se debe a que en la primera distribución los datos son todos muy próximos a la media, en tanto que en la segunda los datos están muy dispersos
En las distribuciones llamadas normales o gaussianas se cumple que aproximadamente el de los datos quedan dentro del intervalo
La primera distribución de las que estamos considerando puede considerarse aproximadamente gaussiana. Comprobar que aproximadamente el
de los datos está dentro del intervalo
. Sol.: Como la media es
, y la desviación típica,
, el intervalo en cuaestión es:
. De los
valores,
están comprendidos en ese intervalo, lo que representa el
, que se está algo alejado del valor
, por lo que sólo puede considerarse aproximadamente gaussiana (si bien son pocos datos los que tenemos para juzgar)
Demostrar que la segunda distribución es aproximadamente gaussiana. El intervalo
es:
. Siete datos están dentro de ese intervalo (el
), por lo que puede considerarse gaussiana (si bien son pocos datos para juzgarlo)
-
El coeficiente de variación (
) sirve para comparar la dispersión relativa de datos de dos muestras. Se calcula por la fórmula
. La muestra que tenga menor
es la menos dispersa en términos relativos.
Calcular los
de la dos distribuciones que estamos tratando e indicar en cuál de ellas los datos están menos dispersos (relativamente una a otra) (Sol.:
;
; La segunda distribución es más homogénea que la primera, es decir, los datos están, relativamente, menos dispersos en la segunda que en la primera.
-
Normalmente, en Estadística no se trabaja con los datos tal como nos los dan, sino que previamente se suelen tipificar, operación que permite compararlos directamente con los de otra distribución cualquiera. En lasdistribuciones normales, al tipificar los datos los valores de éstos quedan siempre dentro del intervalo
, aproximadamente. Un dato
se tipifica (con lo que se llamará
) aplicando la fórmula
Tipificar el dato ”
” de la primera distribución (
;
) Sol.:
Tipificar el dato ”
” de la segunda distribución (
;
) (Sol.:
)