Distribución de frecuencias (intervalos)

Una distribución de frecuencias es una tabla que muestra los datos resumidos en un número pequeño de intervalos.  El propósito es resumir la dataNos da una idea de no solo dónde se encuentran la mayoría de las observaciones, sino también si la distribución está distribuida de manera uniforme, desequilibrada o con un pico.

Procedimiento para construir una distribución de frecuencias:
1) Ordenar los datos en orden ascendente
2) Calcular el rango de los datos.  Rango = Valor máximo - valor mínimo.
3) Definir el número de intervalos a usar, K
4) Determinar el largo de los intervalos (interval width) como Rango/K
5) Determinar los intervalos tras sucesivamente agregar el largo de los intervalos al valor mínimo, frenando una vez que se alcance un intervalo que incluye el valor máximo.
6) Contar el número de observaciones que caen en cada intervalo
7) Construir una tabla de intervalos de la más pequeña a la más grande, que contenga la cantidad de observaciones dentro de cada intervalo.

Una distribución de frecuencias agrupa la data en intervalos.  Un intervalo es un conjunto de valores donde caen las observaciones.  Cada observación cae únicamente en un intervalo.  El número de observaciones que caen en un intervalo se llama frecuencia absoluta.  La suma de todas las frecuencias absolutas coincide con la totalidad de las observaciones.

Ilustración del procedimiento:
1) Observaciones (en orden ascendente):  -4.57, -4.04, -1.64, 0.28, 1.34, 2.35, 2.38, 4.28, 4.42, 4.68, 7.16 y 11.43
2) Rango de datos:  11.43 - (-4.57) = 16
3) Definimos 4 intervalos:  K = 4
4) Largo del intervalo: 16/4 = 4
5) Determinación de intervalos: -0.57 (-4.57 + 4), 3.43 (-0.57 + 4) , 7.43 (...) y 11.43 (...)
6 y 7)
Frecuencia Absoluta
-4,57 < observación < -0,57 3
-0,57 < observación < 3,43 4
3,43 < observación < 7,43 4
7,43 < observación < 11,43 1


En la práctica, debemos explicar la elección del número de intervalos, K.  La definición del número involucra inspeccionar la data y preguntarse cuanto detalle uno necesita.  Cuantos más intervalos hayan, más detalle tendremos.  Por otro lado, si usamos muchos intervalos, quizás no estemos sumarizando lo suficiente.  Debemos intentar lograr el menor número de intervalos vacíos (sin observaciones).  Siempre debe tenerse en cuenta que el propósito de una distribución de frecuencias es resumir la data.

La frecuencia relativa es igual a la frecuencia absoluta de cada intervalo dividida por el total de observaciones.  

Comentarios

Entradas populares de este blog

Mercados Emergentes - Exchange Traded Funds (ETF), EEM y EDC

Medidas de forma - Asimetría y Curtosis

Medidas de dispersión