Cuando se
realiza un estudio de investigación, se pretende generalmente inferir o
generalizar resultados de una muestra a una población. Se estudia en particular
a un reducido número de individuos a los que tenemos acceso con la idea de
poder generalizar los hallazgos a la población de la cual esa muestra procede.
Este proceso de inferencia se efectúa por medio de métodos estadísticos basados
en la probabilidad.
La
población representa el conjunto grande de individuos que deseamos estudiar y
generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogéneo
que reúne unas características determinadas.
La muestra
es el conjunto menor de individuos (subconjunto de la población accesible y
limitado sobre el que realizamos las mediciones o el experimento con la idea de
obtener conclusiones generalizables a la población). El individuo es cada uno
de los componentes de la población y la muestra. La muestra debe ser
representativa de la población y con ello queremos decir que cualquier
individuo de la población en estudio debe haber tenido la misma probabilidad de
ser elegido.
Las razones para estudiar muestras en lugar de poblaciones son
diversas y entre ellas podemos señalar:
1.
Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva
menos tiempo.
2. Como
consecuencia del punto anterior ahorraremos costes.
3. Estudiar
la totalidad de los pacientes o personas con una característica determinada en
muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.
4. Aumentar
la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones
y mediciones realizadas a un reducido número de individuos pueden ser más
exactas y plurales que si las tuviésemos que realizar a una población.
5. La
selección de muestras específicas nos permitirá reducir la heterogeneidad de
una población al indicar los criterios de inclusión y/o exclusión.
La naturaleza de las
observaciones será de gran importancia a la hora de elegir el método
estadístico más apropiado para abordar su análisis. Con este fin, clasificaremos
las variables, a grandes rasgos, en dos tipos: variables cuantitativas o
variables cualitativas.
1. Variables cuantitativas. Son las
variables que pueden medirse, cuantificarse o expresarse numéricamente. Las
variables cuantitativas pueden ser de dos tipos:
*Variables
cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numérico determinado (edad, peso, talla).
*Variables cuantitativas
discretas, si no admiten todos los valores intermedios en un rango. Suelen
tomar solamente valores enteros (número de hijos, número de partos, número de
hermanos, etc).
2. Variables cualitativas. Este tipo de
variables representan una cualidad o atributo que clasifica a cada caso en
una de varias categorías. La situación
más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos
(hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o
binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no
es suficiente y se requiere de un mayor número de categorías (color de los
ojos, grupo sanguíneo, profesión, etcétera).
En el proceso de medición de estas variables, se pueden utilizar dos
escalas:
*Escalas nominales: ésta es una forma
de observar o medir en la que los datos se ajustan por categorías que no
mantienen una relación de orden entre sí (color de los ojos, sexo, profesión,
presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
*Escalas ordinales: en las escalas
utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de
disnea, estadiaje de un tumor, etcétera).
Una vez que se han recogido los valores que toman las variables de
nuestro estudio (datos), procederemos al análisis descriptivo de los mismos.
Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el
número de casos en cada una de las categorías, reflejando habitualmente el
porcentaje que representan del total, y expresándolo en una tabla de
frecuencias.
Para variables numéricas, en las que puede haber un gran número de
valores observados distintos, se ha de optar por un método de análisis
distinto, respondiendo a las siguientes preguntas:
1. ¿Alrededor de qué
valor se agrupan los datos?
2. Supuesto que se
agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy
dispersos?
Las medidas de
centralización vienen a responder a la primera pregunta. La medida más evidente
que podemos calcular para describir un conjunto de observaciones numéricas es
su valor medio. La media no es más
que la suma de todos los valores de una variable dividida entre el número total
de datos de los que se dispone.
b. Medidas de dispersión
Tal y como se
adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos
es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad.
De todas ellas, la varianza (S2) de los datos es la más utilizada. Es
la media de los cuadrados de las diferencias entre cada valor de la variable y
la media aritmética de la distribución.
Mas información en: