FAEDIS

Introducción

En la unidad anterior, presentamos una secuencia de etapas que debíamos seguir durante el proceso de modelación de un sistema. La tercera etapa, relacionada con el análisis de los datos suministrados u obtenidos de modelos similares, ya sean físicos o matemáticos, será el pilar central de esta unidad. Cuando usted, empieza a proyectar cómo construirá su modelo, debe estructurarlo mentalmente siguiendo el principio de parsimonia, que establece que para un resultado lo más lógico es encontrar la respuesta más simple.

El primer paso en este proceso de validación consiste en determinar (si el modelo es nuevo) o corroborar (si los datos provienen de otro modelo que ya fue documentado) el tipo de distribución de probabilidad que siguen los datos. Determinar el comportamiento probabilístico de la información obtenida para aquellas variables que expliquen de la forma sencilla y precisa los valores de salida del sistema.

Para obtener resultados confiables de salida al ejecutar nuestro algoritmo, mostraremos diferentes técnicas de la estadística paramétrica y no paramétrica, que permiten corroborar la validez de nuestro modelo y en ocasiones, determinar su nivel de precisión. La unidad inicia recordando los conceptos estadísticos asociados a variables aleatorias como lo son: medidas de tendencia central y medidas de dispersión de los datos, probabilidades, distribuciones de probabilidad según el tipo de variable aleatoria y el problema que se esté abordando, hasta concluir con técnicas de validación de modelos y ajustes de datos. En esta última parte, presentaremos algunos programas que permiten realizar este proceso de manera más sencilla.

Propósitos de aprendizaje

Propósito general

Aplicar herramientas de la estadística no paramétrica para la validación de una distribución de probabilidad que modela un conjunto de datos.

Propósitos específicos

Utilizar las herramientas de la probabilidad básica y la estadística para la validación del comportamiento de los valores de entrada y salida en un modelo.
Reconocer las diferentes distribuciones de probabilidad usadas en la modelación de sistemas según el tipo de variable aleatoria.
Realizar pruebas no paramétricas para la validación de modelos que permitan escoger de manera adecuada una distribución de probabilidad que se ajuste a los datos.

Variables aleatorias y sus propiedades

Al modelar un sistema y haber reconocido los posibles escenarios que pueden ocurrir para una o más variables del sistema, puede pasar que no estemos interesados en los casos particulares sino en el caso general. Estudiemos el siguiente ejemplo de personas esperando en una fila de un supermercado. Según el tipo de asignación, diremos que la variable aleatoria es discreta cuando el número de casos es finito (como los ejemplos anteriores) o infinitos pero comparables con los números enteros, es decir, es contable. Caso contrario, cuando la variable aleatoria puede tomar todos los valores en un intervalo numérico, diremos que la variable aleatoria es continua.

Por notación, las variables aleatorias se denotan con las letras mayúsculas (X, Y, Z) y los valores que ellas pueden tomar se denotan por letras minúsculas. El trabajo que realizaremos consiste en realizar una revisión de las funciones de probabilidad (discretas o continuas) a trabajar.

Ahora bien, una vez estudiado las funciones de probabilidad, A continuación, se presentan algunas distribuciones discretas y continuas más usuales.

Actividad de aprendizaje

Determine la variable aleatoria para un modelo que permita establecer el tiempo en que los empleados de una empresa han estado conectados realizando su trabajo en modalidad a distancia.

Estimación de medias, varianzas y prueba de hipótesis

Dada una distribución de probabilidad, existen una amplía cantidad de medidas sobre la estructura de la función de distribución asociada a una variable aleatoria que permite reconocer factores como el valor esperado, la forma en que se encuentran distribuidos los datos, si presenta acumulaciones cerca de un punto, la altura de la función, entre otras. Estos valores se clasifican en tres grandes grupos que son: medidas de tendencia central, medidas de dispersión y medidas de forma, tal como se presenta en el gráfico de esta pantalla.

Estimación de medias, varianzas y prueba de hipótesis

Medias y varianzas de distribuciones de probabilidad

Una vez hemos definido la variable aleatoria y la distribución asociada a ella, hay unos valores que nos brindan información sobre el comportamiento que tiene la variable aleatoria, teniendo en cuenta la distribución elegida. Estos valores corresponden a la media µ (una de las tres medidas de tendencia central) y a la varianza σ² (una de las tres medidas de dispersión).

La media o valor esperado µ, tiene gran importancia pues nos muestra el valor que divide al histograma o a la función de distribución en dos regiones con la misma probabilidad. Sin embargo, dos distribuciones podrían tener el mismo valor esperado pero diferente ubicación de los datos en la recta real, es por esto que necesitamos conocer la forma en que están “dispersos”.

Veamos un ejemplo de cómo se determinan estos valores en casos particulares.

Como se mencionó anteriormente, la medía y la varianza presentan información relevante de los datos, para los casos de las funciones de distribución más conocidas, dichos valores ya se encuentran estimados. En la siguiente tabla se encuentran algunas distribuciones y el valor de su media y varianza. Estas serán las distribuciones de probabilidad con las que vamos a trabajar durante el curso.

Estimación de medias, varianzas y prueba de hipótesis

Prueba de hipótesis

Nuestro objetivo será determinar, según la información que obtengamos experimentalmente, a partir de una base de dat, que será la herramienta fundamental para validar nuestros modelos. Básicamente, al observar la información podemos conjeturar información acerca del comportamiento de nuestro objeto de estudio.

Es importante tener en cuenta que las afirmaciones que realizamos acerca del comportamiento de las variables simplemente son hipótesis que no quedarán demostradas hasta haber analizado toda la población, lo cual en cuestiones prácticas es casi imposible.

En las pruebas de hipótesis tenemos la hipótesis alternativa H₁ que es la que buscamos probar y la hipótesis nula H₀ que es la que buscamos rechazar. La forma matemática de rechazar la hipótesis nula se basa en calcular un valor conocido como el estadístico de prueba y determinar si este pertenece o no a la región de rechazo generada por la distribución de probabilidad que estemos usando y el nivel de significancia ∝. Veamos el siguiente video junto con el archivo que se trabaja en el mismo.

Actividad de aprendizaje

De acuerdo con todo lo estudiado, cálcula medias y varianzas puntuales de casos específicos.

Pruebas de bondad de ajuste

En estadística hay una gran cantidad de pruebas de hipótesis con diferentes aplicaciones como comprobar si los resultados obtenidos tienen unos parámetros específicos de media o varianza. En las etapas para la construcción de una simulación, en la etapa 3, análisis de datos, se mencionó que uno de los trabajos a realizar consistía en determinar, desde una base de datos, la función de distribución que mejor se ajustará a la información dada.

Para el caso de variables cuantitativas, lo primero que se debe realizar con la información obtenida, es elaborar un histograma con las frecuencias relativas para conocer el comportamiento de los datos y poder asociar, a una de las variables aleatorias que tengan una forma similar ajustando los parámetros.

Pero desde el punto de vista científico, no basta con que la curva de la función de distribución de probabilidad seleccionada se aproxime al histograma, se debe poder asegurar, desde el punto de vista estadístico que los datos recolectados no son tan diferentes a los esperados por la distribución escogida. Este proceso estadístico de verificación de la distribución de probabilidad seleccionada se conoce como una prueba de bondad de ajuste. (Goodness-fit test en inglés)

Pruebas de bondad de ajuste

Prueba Chi-cuadrado

La primera prueba de bondad de ajuste que vamos a trabajar se conoce como la prueba Chi-cuadrado, la cual busca determinar si la suma de las diferencias entre los datos teóricos dados por la distribución elegida y los datos recolectados en las fases previas del proceso de simulación son lo suficientemente pequeños para considerar que los dos comportamientos son similares. Veamos cómo funciona.

Una vez hemos estudiado el proceso de la prueba Chi-cuadrado, fortalezcamos ese conocimiento aplicándolo a un caso específico.

Pruebas de bondad de ajuste

Prueba Kolmogorov- Smirnov

La segunda prueba de bondad de ajuste que vamos a trabajar se conoce como la prueba de Kolmogorov-Smirnov. Esta prueba tiene varias diferencias con la prueba chi-cuadrado. La primera es que esta no compara la función de densidad sino la función de distribución acumulada elegida. La segunda diferencia radica en la parte operacional, pues esta prueba compara las diferencias entre la distribución acumulada esperada y la frecuencia relativa acumulativa de los datos; se elige la mayor de ellas. En la siguiente interactividad se explicará cómo funciona esta prueba. Ahora bien, para los valores críticos de la prueba de Kolmogorov-Smirnov, usaremos las tablas estadísticas de Frías (s.f.). Veamos cómo aplicar esta prueba con un ejemplo.

Hemos estudiado cómo cada una de las pruebas de bondad de ajuste nos permite conocer si la variable aleatoria asociada a un modelo se ajusta a una distribución de probabilidad estadística o no. Sin embargo, conocer cuáles son los parámetros correspondientes a la distribución que hemos seleccionado es proceso no tan sencillo. Por tanto, diversas compañías encargadas de la comercialización de software para simulación han generado aplicaciones que permiten estimar los parámetros de una distribución dada. Veremos un ejemplo de estos programas. Se llama Stat:fit, que está vinculado al programa Promodel. En el video principal de esta pantalla se encuentra su explicación y en este enlace el material con el que se trabajó.

Actividad de aprendizaje

A continuación se plantea un caso donde se debe determinar los resultados de las pruebas Chi-cuadrado y K-S con cada uno de los datos establecidos.

Material
de apoyo

Resumen

Las variables aleatorias nos permiten relacionar los datos obtenidos de forma experimental con números reales, permitiendo trabajar situaciones asociadas a parámetros no numéricos, como lo es el control de calidad de un producto sobre el cual solo se puede determinar si este es defectuoso o no. Esta asociación, que conlleva una aleatoriedad inata de la naturaleza, se relaciona estrechamente con funciones matemáticas conocidas, tales como: funciones de probabilidad o distribuciones de probabilidad, cada una con un comportamiento particular, que nos sirve de herramienta para estimar la posibilidad de que un caso hipotético pueda ocurrir, dado que conocemos información a priori.

Como nuestro objetivo es la elaboración de modelos, y podemos estar en las condiciones de no contar con información del comportamiento de la variable aleatoria a usar, debemos, mediante pruebas de ajuste de bondad, determinar cuál sería la mejor distribución que se ajusta a la información obtenida. Para ello, la distribución Chi-cuadrado o el estadístico crítico de la prueba de Kolmogorov, nos permiten determinar si la hipótesis que formulamos sobre el comportamiento de la variable es correcto o si, por el contrario, la distribución que usamos, no corresponde.

Caso de estudio

Aplica la prueba de bondad de ajuste de acuerdo con un caso planteado que busca modelar el arribo de clientes a un establecimiento.

Bibliografía ()

Choi, B. K. & Kang, D. (2013). Modeling and simulation of discrete event systems. John Wiley & Sons Inc.
García Dunna, E., García Reyes, H. & Cárdenas Barrón, L. (2006). Simulación y análisis de sistemas con ProModel. México: Pearson Educación.
Johnsonbaugh, R. (1999). Matemáticas Discretas. (4ta ed.). México: Prentice Hall Hispanoamericana S.A.
Law, A., Kelton, W. D. (1991). Simulation modeling and analysis (2da ed.). New York: McGraw-Hill.
Ross, S. (2014). A first course in probability. Estados Unidos: Pearson Prentice Hall.
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias. (9ª ed.) México: Pearson Educación.
Wu, B. (1992). Manufacturing Systems Design and Analysis. Londres: Chapman & Hall.

Referencias Web

3CX. (s.f.). ¿Qué es un Central Telefónica PBX?. Recuperado de https://www.3cx.es/voip-sip/central-telefonica-pbx/
Frías Bustamante, M. P. (s.f.). Tablas estadísticas. Universidad de Jaen. Recuperado de http://www4.ujaen.es/~mpfrias/TablasInferencia.pdf
González, J. (s.f.). ¿Qué es una versión beta?. Techlandia. Recuperado de https://techlandia.com/version-beta-hechos_256284/
Merriam-Webster (s.f.) Telnet noun. Recuperado de https://www.merriam-webster.com/dictionary/telnet
Pérez, J. & Merino, M. (2012). Definición de a priori. Definición.de. Recuperado de https://definicion.de/a-priori/
Real Academia Española. (2001). Diccionario de la lengua española (22a ed.). Recuperado de http://www.rae.es/rae.html