FAEDIS

Introducción

Durante la ejecución de un proyecto de investigación, en su fase de metodología y experimentación, se obtienen poblaciones de datos, las cuales pueden ser analizadas estadísticamente. Generalmente estas poblaciones tienen un gran tamaño, de tal forma que no suele ser posible recoger la información de todos sus elementos; en ocasiones ni siquiera de una parte importante de los mismos. Incluso en poblaciones más pequeñas, la recolección de datos no siempre es fácil, unas veces porque el almacenamiento de los datos resulta ser complejo y otras porque lo impide el costo de la propia recolección de los datos. El investigador puede optar en esta situación, por seleccionar un conjunto más pequeño (muestreo) de elementos de la población, del que recopilará la información que necesita.

En esta unidad, se explican varias de las técnicas necesarias para realizar inferencias estadísticas cuyo fundamento teórico está basado en modelos matemáticos. Los temas que corresponden a esta unidad son: Estimación de parámetros dentro de una población, pruebas que facilitan aceptar o rechazar una hipótesis sobre algún parámetro y pruebas de carácter no paramétrico.

Propósitos de aprendizaje

Propósito general

Apropiar las herramientas necesarias para estimar valores desconocidos de un conjunto de datos y aplicar diversos métodos de pruebas de hipótesis.

Propósitos específicos

Describir las propiedades de los estimadores estadísticos y estudiar los métodos para obtenerlos.
Examinar los fundamentos teóricos y los conceptos relacionados con la metodología referente a las pruebas de hipótesis estadísticas.
Establecer en qué situaciones se deben emplear procedimientos no paramétricos para realizar pruebas de hipótesis.

Estimación de parámetros

La teoría de la fase inferencial o inferencia estadística consiste en utilizar varios métodos que permiten realizar generalidades (o inferencias) acerca de las características poblacionales, proporcionando una medida del riesgo de fallar en la estimación que se asume al hacerlo. Uno de los objetivos de la inferencia estadística es la Estimación de Parámetros, la cual involucra el uso de datos muestrales en conjunción con alguna estadística.

Una estimación estadística es el proceso por el que, usando una fórmula matemática sobre los datos (estadística), se obtiene un valor aproximado para el parámetro distribucional de una característica poblacional bajo estudio. Básicamente hay dos métodos de estimación de parámetros: Método clásico y Método Bayesiano.

El método clásico de estimación plantea el uso de dos técnicas: Estimación puntual y Estimación por intervalo.

Estimación de parámetros

Estimación puntual

Con esta técnica, en el mejor de los casos encontraremos un estimador θ que será igual al parámetro poblacional θ: así \hat{\theta }=\text{ }\!\!~\!\!\text{ }\theta .\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }. Pero como el estimador es al fin una variable aleatoria en función de los valores muestrales, procede un sesgo o error (Walpole, Myers, & Ye, 2012). Entonces:

\theta =\text{ }\!\!~\!\!\text{ }\hat{\theta }+\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }sesgo\text{ }\!\!~\!\!\text{ }o\text{ }\!\!~\!\!\text{ }error\text{ }\!\!~\!\!\text{ }de\text{ }\!\!~\!\!\text{ }estimaci\text{ }\!\!\acute{\mathrm{o}}\!\!\text{ }n

Ese sesgo del estimador (B) se calcula como:

B=E\text{ }\!\!~\!\!\text{ }\left[ {\hat{\theta }} \right]-\theta \text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }Tambi\acute{e}n:\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\theta -E\text{ }\!\!~\!\!\text{ }\left[ {\hat{\theta }} \right]\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!\acute{\mathrm{o}}\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }\!\!~\!\!\text{ }E\left[ \hat{\theta }-\theta \right]

Y que será positivo, negativo o cero (insesgado si es cero)

En algunos casos puede haber más de un estimador puntual de un parámetro así. Para la media poblacional se puede disponer, además de la media muestral, de la mediana muestral o el promedio de los dos valores extremos de la variable. Entonces, para decidir cuál estimador es el más adecuado, examinemos sus propiedades estadísticas y definamos criterios de comparación.

Estimación de parámetros

Es probable incluso que un estimador puntual insesgado y más eficiente (propiedades más deseables de un buen estimador) no estime al parámetro θ poblacional desconocido con exactitud. Así la precisión de estimación se incremente al tomar muestras aleatorias grandes y presentar entonces error estándar pequeño. Por ello, es preferible la obtención no de un valor único puntual, sino la obtención de un rango o intervalo de valores posibles para el parámetro, llamado intervalo de confianza, simbolizado por: 100 (1 - α)%.

Así, un estimador de intervalo es entonces una regla que nos plantea cómo usar la información muestral para definir dos números límites (límites de confianza) que definen el rango o recorrido del intervalo en el que con un alto grado de confianza o nivel de confianza (1 - α) estará incluido el parámetro desconocido. Ese intervalo aleatorio será el intervalo de confianza.

La ganancia de confiabilidad ocasiona o repercute en pérdida en precisión de la estimación, o sea, en un intervalo más amplio. Estudiemos el siguiente ejemplo.

Estimación de parámetros

Estimación de la media poblacional

Para comprender mejor esta temática, se tienen en cuenta los siguientes casos:

Si se muestrea una población normal de la cual se saca una muestra aleatoria de tamaño y si la varianza poblacional es conocida.
Cuando se desconoce la varianza poblacional pero el tamaño de la muestra aleatoria es grande (n>30).
Cuando no se conoce la varianza poblacional, la población de donde se extrae la muestra es normal y de tamaño muestral pequeño (n< 30).

Material
de apoyo

Estimación de parámetros

Estimación de la diferencia entre dos medias poblacionales

Iniciando con la estimación para diferentes medias poblacionales, se tienen dos poblaciones con medias μ₁ y μ₂y varianzas σ₁²y σ₂². De esas poblaciones se extraen muestras aleatorias independientes de tamaño n₁ y n₂. El interés se centra entonces estimar μ₁ -μ₂. Basados en el estimador o estadístico, que como se sabe por su distribución muestral, es un estimador insesgado y con menor varianza, pues v[{{\bar{x}}_{1}}-{{\bar{x}}_{2}}] es la más pequeña entre los estimadores insesgados. Se presentan algunos de sus casos:

Conocidas las varianzas poblacionales σ₁²y σ₂², muestras independientes extraídas de poblaciones normales, varianzas supuestamente iguales.
Si no se conocen las varianzas poblacionales pero se suponen iguales y si las muestras aleatorias independientes n₁ y n₂ son mayores que 30. El teorema de limite central nos dice que la distribución muestral de {{\bar{x}}_{1}}-{{\bar{x}}_{2}}) seguirá siendo normal sin importar la forma funcional de las poblaciones.
Desconocidas las varianzas poblacionales pero supuestamente iguales, muestras aleatorias pequeñas (<30) independientes extraídas de poblaciones aproximadamente normales.
Intervalo de confianza para diferencia de medias poblaciones cuando se muestran dos poblaciones aproximadamente normales, con varianzas diferentes y desconocidas, muestras aleatorias pequeñas y de diferente tamaño e independientes.
Se da cuando las muestras aleatorias no son independientes y los elementos u observaciones en ellas están relacionados y ocurren en pares.

Actividad de aprendizaje

Pon a prueba lo aprendido de la estimación de parámetros y aplícalo en la siguiente actividad.

Material
de apoyo

Pruebas de hipótesis

Las pruebas de hipótesis o de significancia permiten verificar la veracidad o tomar decisiones sobre supuestos o aseveraciones en torno a características poblacionales. La prueba de hipótesis en inferencia estadística es similar al método científico: se propone una teoría, se conforma una muestra aleatoria para observar experimentalmente su funcionamiento y luego se comparan los resultados observados con la teoría planteada para entonces tomar la decisión de aceptar o rechazar (no aceptar) la teoría.

Una hipótesis estadística es una observación, una afirmación o conjetura acerca de una o varias características de una o más poblaciones y expresadas en función de valores. No es un hecho establecido. La veracidad o falsedad de una hipótesis, nunca se conocerá con exactitud a menos que la decisión se base con el análisis total de la población. En todo problema de prueba de hipótesis, hay dos hipótesis contradictorias por tanto se debe determinar cuál de las dos es la correcta o verdadera, decisión basada en la información muestral.

Pruebas de hipótesis

Nivel de significancia

Se dijo que α es la probabilidad de cometer un error tipo I, es decir, de rechazar Ho siendo verdadera. El complemento, o sea: (1 - α) es la probabilidad de no cometer error tipo I o que la Ho no sea rechazada cuando de hecho es cierta o verdadera y que, como se sabe, corresponde al coeficiente de confianza. Se establece antes de la prueba y es generalmente un valor pequeño: 0.01, 0.05, 0.10 según la importancia que de el investigador al error tipo I. A mayor importancia, menor valor asignado a α.

Ejemplo

α = 0.05: Significa que esperaremos que la probabilidad de cometer un error tipo I es del 5%, es decir, que tendremos una confianza del 95% de tomar una decisión correcta.

El complemento de β o probabilidad de cometer error tipo II, o sea: (1- β) es la probabilidad de rechazar Ho cuando de hecho es falso o Hi es verdadera. Se llama potencia de la prueba definida de manera simple como la probabilidad de rechazar correctamente una hipótesis falsa. Es la medida de la sensibilidad de la prueba estadística, o sea, de la capacidad de la prueba para detectar diferencias respecto a Ho cuando existen. Cuanto mayor sea la potencia de la prueba, mayor probabilidad de detectar diferencias de Ho. Una potencia deseable es mayor de 0.8.

Pruebas de hipótesis

Métodos para pruebas de hipótesis

En la práctica hay tres métodos para hacer pruebas de hipótesis, los tres, como, es lógico, concordantes:

Basados en estadístico de prueba adecuado.
Basados en estimación de intervalos de confianza.
Basados en cálculo del valor P (usado en programas de computador).

Pruebas de hipótesis

Pruebas de hipótesis para una media poblacional

Se presentarán los mismos casos de la sección Estimación de parámetros:

Varianza poblacional conocida y >o, población de donde se extrae la muestra normal. (Se dan condiciones del teorema del límite central)
Se desconoce la varianza poblacional pero tamaño muestra mayor de 30. (Se tomaría a acudiendo a teorema de límite central).
Varianza desconocida (de población), población de donde se extrae la muestra aproximadamente normal, tamaño de muestra pequeño (n<30).

Pruebas de hipótesis

Pruebas de hipótesis para diferencias de medias poblacionales

El interés se centra en probar que la diferencia de las medias poblacionales: μ₁ -μ₂ es igual a un valor especificado Δ₀. Por lo tanto:

H_0:μ₁-μ₂ = Δ₀otambién H₀: μ₁= μ₂ tomando Δ₀= 0

A continuación se presentan los casos de pruebas de hipótesis para diferencias de medias poblacionales:

Varianzas poblacionales conocidas, poblaciones de donde se extraen muestras normales. Varianzas poblacionales supuestamente iguales, muestras independientes.
Varianzas poblacionales desconocidas pero supuestamente iguales, muestras independientes ambas mayores de 30.
Varianzas poblacionales desconocidas pero supuestamente iguales, muestras independientes obtenidas de poblaciones normales, muestras pequeñas.
Varianzas poblacionales desconocidas y supuestamente desiguales, muestras independientes de tamaño pequeño, poblaciones normales.
Cuando las observaciones de las dos poblaciones de interés se toman en pares y no de manera independiente.

Pruebas estadísticas no paramétricas

El modelo estadístico no paramétrico, no específica las condiciones sobre los parámetros de la población de la cual se tomó la muestra. Presupone solamente que:

Las observaciones son independientes.
La variable que se estudia posee continuidad.

Es preciso aclarar que una prueba paramétrica es más efectiva cuando se cumplen los presupuestos de su modelo estadístico, y las variables se miden al menos en la escala de intervalo.

Sabemos que aumentando el tamaño de la muestra podemos usar una prueba no paramétrica con el mismo poder de rechazar la hipótesis nula.

Pruebas estadísticas no paramétricas

Concepto de signos

La prueba no paramétrica más sencilla es el contraste de signos. Generalmente se usa para realizar un contraste de hipótesis con respecto a la medida central de una distribución poblacional. También se utiliza para estudiar datos de muestras pareadas.

Para hacer un contraste de signos en muestras pareadas, se debe suponer que se toman muestras pareadas de una población y se realiza un descarte de las diferencias iguales a cero, por tanto, queda un total de n observaciones. Esta técnica se utiliza para contrastar la hipótesis nula de que la mediana poblacional de las diferencias es 0, definamos entonces:

signo + una diferencia positiva

signo - una diferencia negativa

Pruebas estadísticas no paramétricas

Estadístico T de Wilcoxon

En el ejemplo anterior, el contraste de signos muestra cuál de los dos algoritmos se prefiere, pero no contempla la evaluación del grado de preferencia. Además, ya vimos que si el tamaño de la muestra es pequeño, el contraste no resulta adecuado para tomar una decisión. Por otra parte, el contraste de Wilcoxon se basa en la ordenación de las diferencias y presenta como una de sus ventajas la incorporación de información sobre la magnitud de las diferencias. Este método tampoco depende de la distribución.

Este método puede ser utilizado en situaciones donde se dispone de una muestra aleatoria de pares enlazados de observaciones. Si se realiza la suposición de simetría en la distribución de las diferencias de estas muestras pareadas y se desea realizar un contraste de la hipótesis nula de que esta distribución tiene su centro en 0. En esta técnica, también deben ser descartados los pares en los cuales la diferencia es igual a 0, y se ordenan en sentido ascendente las n diferencias absolutas restantes; si se produce un empate, el puesto asignado es la media de los puestos que ocupan en la ordenación. El estadístico de Wilcoxon se calcula de la siguiente manera (Anderson, Sweeney, & Williams, 2008):

T = min (T₊,T_-)

Dónde:

T₊ = suma de los puestos correspondientes a diferencias positivas.

T_- = suma de los puestos correspondientes a diferencias negativas.

n = número de diferencias no nulas.

Para una mayor comprensión, estudiemos el ejemplo anterior pero utilizando el estadístico T de Wilcoxon.

Resumen

Primero se trató el tema de estimación de parámetros, en el cual se presentaron dos técnicas de estimación (puntual y por intervalo) con las cuales se busca conocer las características de un parámetro utilizando la información que se tiene acerca de la muestra.

La segunda sección de la unidad trata las pruebas de hipótesis, donde se presentan los conceptos básicos asociados al tema y se presentan algunas técnicas que permiten extraer conclusiones y determinar si se aceptan o rechazan las hipótesis previamente planteadas sobre el comportamiento de un parámetro desconocido de una población. Por último, se presenta brevemente el concepto de pruebas estadísticas no paramétricas donde se abordan sus ventajas y desventajas frente a las pruebas paramétricas. Además se presentan dos técnicas de este tipo: contraste de signos y estadístico de Wilcoxon.

Caso de estudio

Evalúa lo aprendido sobre la estimación de parámetros y pruebas de hipótesis en el siguiente caso de estudio. Recuerda presentarle este trabajo al docente de clase. La retroalimentación de esta actividad la podrá encontrar en la ampliación temática de esta pantalla.

Introducción

Propósitos de aprendizaje

Propósito general

Propósitos específicos

Estimación de parámetros

Estimación de parámetros

Estimación puntual

Estimación de parámetros

Estimación de parámetros

Estimación de la media poblacional

Estimación de parámetros

Estimación de la diferencia entre dos medias poblacionales

Actividad de aprendizaje

Pruebas de hipótesis

Pruebas de hipótesis

Nivel de significancia

Pruebas de hipótesis

Métodos para pruebas de hipótesis

Pruebas de hipótesis

Pruebas de hipótesis para una media poblacional

Pruebas de hipótesis

Pruebas de hipótesis para diferencias de medias poblacionales

Pruebas estadísticas no paramétricas

Pruebas estadísticas no paramétricas

Concepto de signos

Pruebas estadísticas no paramétricas

Estadístico T de Wilcoxon

Resumen

Caso de estudio

Bibliografía ()

Referencias Web