FAEDIS

Introducción

En el desarrollo de procesos investigativos, bien sea en ambientes académicos, industriales y centros de Investigación, desarrollo e innovación (I+D+i) entre muchas otras áreas, la recolección y análisis de información o datos científicos se ha popularizado, ya que se han probado sus beneficios incrementando la calidad de productos y aportando herramientas para la toma de decisiones concluyentes con respecto a algún tema en particular. En la actualidad, los datos son recolectados, resumidos, reportados y almacenados con sumo cuidado debido a que se conoce de su importancia dentro de un proyecto.

Se han desarrollado diferentes métodos y técnicas que permiten describir visual y numéricamente el comportamiento de una variable de estudio dentro de un conjunto de datos numeroso. En una primera etapa, se acude a la estadística descriptiva como herramienta de análisis, la cual aunque no permite generar conclusiones concretas y precisas de la información, sí proporciona una idea general sobre cómo están los datos que se van a analizar. En la representación gráfica de datos es común utilizar histogramas y diferentes tipos de diagramas que organizan la información según distribuciones de frecuencias, luego de esto es necesario calcular indicadores numéricos que permitan sintetizar la información.

Propósitos de aprendizaje

Propósito general

Presentar los resultados referentes a un proyecto de investigación o un estudio de interés, mediante datos estadísticos que puedan ser interpretados numéricamente o gráficamente, con el fin de generar conclusiones sobre el comportamiento de una o más variables.

Propósitos específicos

Resumir la información de una variable utilizando técnicas gráficas que organicen y describan los datos de una forma fácil y completa.
Analizar un conjunto de observaciones o de datos desde un enfoque numérico con el fin de caracterizar el comportamiento de una variable.
Determinar la uniformidad y homogeneidad en un conjunto de datos para complementar el análisis de tendencia central.

Resumen y presentación de datos

En el desarrollo de un proyecto de investigación relacionado con alguna de las áreas de ingeniería, es común que se realicen mediciones o experimentos que conduzcan a la necesidad de registrar y almacenar datos. Algunas veces la naturaleza y cantidad de información hace que sea necesario acudir a indicadores o representaciones de los datos que revelen características importantes de su comportamiento. Aquí la estadística juega un papel significativo dentro de la investigación, pues es la herramienta que permite realizar un análisis adecuado de la información.

Resumen y presentación de datos

Presentación tabular y representación gráfica

Este tipo de presentación consiste en arreglar, clasificar u ordenar la información en tablas o cuadros, generalmente llamados tablas o distribuciones de frecuencia. Es una de las presentaciones más utilizadas ya que logra resumir datos de una forma eficiente y además es fácil de interpretar para el lector.

Una distribución de frecuencia consta básicamente de dos partes: clase y frecuencia. Generalmente se hace uso de dos tipos de frecuencias: absoluta y relativa, tal como se presenta en el medio principal de esta pantalla.

A continuación se presentan ejemplos de los modelos de distribuciones o tablas de frecuencia.

Como se trata de describir lo que pasa con una variable, se acude a las llamadas Frecuencias Acumuladas tanto para las frecuencias absolutas como para las relativas. La frecuencia acumulada permite conocer el número de datos o unidades que satisfacen una condición de ser iguales y mayores (según el sentido de la acumulación) que determinada característica, valor o intervalo, o sea, una clase especifica. Son complemento descriptivo del comportamiento de una variable. Pueden ser ascendentes o descendentes.

Ahora bien, puede ser adecuado presentar la información ya no solo de manera tabular, sino acudir a graficar para describir el comportamiento de una variable (Delgado, 2008).

Estudiemos algunos ejemplos correspondientes a la presentación tabular de datos y su representación gráfica.

Resumen y presentación de datos

Diagrama de caja o boxplot

Las representaciones gráficas como el histograma de frecuencias dan una idea visual general sobre el conjunto de valores u observaciones. Las medidas que caracterizan las observaciones y que son medidas numéricas dan información sobre la característica especifica que mide y de forma individual.

La gráfica de caja permite de forma simultánea obtener información sobre las características más importantes de un conjunto de datos como serían: su tendencia central, su variación, su asimetría y la identificación de posibles valores atípicos o inusuales con diferente grado de calificación. Se basa su construcción en los cuartiles, una caja rectangular que puede ser vertical u horizontal, y unos llamados “bigotes” que permitirán definir valores normales y anormales, tal como se presenta en el gráfico principal de esta pantalla.

Por ejemplo, considere el siguiente diagrama de cajas, en la cual se analiza la variable referente al índice de calidad de tres plantas que producen la misma unidad o artículo.

Material
de apoyo

Descripción estadística de los datos

Un conjunto de observaciones o de datos, además de su ordenamiento, debe ser analizado desde diferentes aspectos o enfoques con el fin de hacer una descripción lo mejor posible sobre su comportamiento, para caracterizarlo.

Se acude a herramientas estadísticas como medidas (estadísticos o parámetros) calculadas que permiten describir adecuadamente características comportamentales de las variables. Se usan medidas diferentes según características de las observaciones o variables. Algunas de esas medidas, sin duda las más significativas y más utilizadas por su claro significado matemático y estadístico, son los llamados promedios.

Otras medidas utilizadas en casos específicos no son propiamente promedios, sino indicadores a los cuales se le acude para descubrir el comportamiento de una variable, considerando las cuatro características o aspectos presentados en el gráfico de esta pantalla y los cuales no se deben analizar aisladamente.

Descripción estadística de los datos

Análisis de tendencia central

En la disposición de los datos u observaciones para agruparse alrededor del centro o de ciertos valores numéricos, de su tendencia hacia un valor considerado como valor o punto de equilibrio y que lógicamente debe corresponder con ser el más frecuente o el más próximo al más frecuente. Entonces lo que se analiza básicamente es cómo determinar ese valor numérico central, tomando como punto de equilibrio y representativo de las observaciones consideradas, como valor único de síntesis.

Hay dos promedios de tendencia central con claro significado matemático. Siendo el promedio aritmético el de mayor uso, el más sencillo y el promedio geométrico con un uso específico en casos especiales.

Existen otras medidas de tendencia central, que no son propiamente promedios, pero sí indicadores de esta característica. La aplicación se da en casos específicos en que los promedios aritmético y geométrico no se pueden o deben calcular. Son un recurso estadístico para hallar ese valor central cuando los promedios podrían no ser los más adecuados.

Análisis de dispersión o variación

Es apenas lógico que un promedio o indicador de tendencia central sea más confiable, por lo tanto más representativo del conjunto de valores base de estimación, si ese conjunto de valores muestra uniformidad y cercanía entre ellos.

Para medir el grado de dispersión o variación de los valores de la variable frente a su valor o promedio de tendencia central, se acude a medidas estadísticas, unas absolutas y otras relativas.

¿Qué caracteriza las medidas absolutas?

Que vienen expresadas en unidades de la variable.
Que son por lo tanto valores concretos.
Que no admiten comparaciones de distribuciones expresados en diferentes unidades y sobre su variación.
Que algunas son solo indicadores aproximados de variación.

¿Qué caracteriza las medidas relativas de variación?

Que son números abstractos o no expresados en unidades específicas. Son adimensionales.
Que permiten, por lo tanto con su magnitud, comparar distribuciones expresadas en diferentes unidades y describir comparativamente su variabilidad.

Análisis de dispersión o variación

Rango intercuartilico

Es sin duda la forma más natural de calcular cuál es la variación de una variable y las observaciones de la misma.

r = Valor máximo - valor mínimo de la variable

Su uso principal se enfoca hacia el control de calidad al predeterminarla para especificar anticipadamente que una medición particular de los artículos de línea de producción caiga dentro de cierto intervalo o características y poder así determinar si un proceso de producción puede o no estar fuera de control.

Haciendo uso de los cuartiles, se puede generar una expresión para el rango Intercuartílico (RIQ):

RIQ = Q₃ - Q₁

Donde el primer y el tercer cuartil, producen una medida que se ve menos afectada por los valores extremos de la muestra, por cuanto los cuartiles no están afectados por estos valores, concentra al 50% de las observaciones centrales considerados. Es decir, a las observaciones de mayor concentración frente a su indicador de tendencia central, y por ende, posiblemente a las observaciones más homogéneas. Mide la dispersión dentro de ciertos valores.

Análisis de dispersión o variación

Desviación mediana

Definida como la distancia aproximada y promedio ente los valores u observaciones de la variable y su mediana (o segundo cuartil). Si las características de las observaciones conducen a calcular la mediana como medida adecuada de tendencia central, nada más lógico que el análisis de variación se haga considerando la D_ME a pesar de no ser una medida exacta sino aproximada.

Lo de medida aproximada nace de tomar las diferencias en absoluto y no algébricamente. Estudiemos el siguiente ejemplo.

Análisis de dispersión o variación

La varianza

Definida como la distancia exacta y en promedio, al cuadrado, que hay entre los valores de una variable y su respectivo promedio aritmético. Es una medida expresada en unidades de la variable, pero al cuadrado, consideración que generalmente la hace inadecuada, como medida de variación, aunque muy importante en otros procesos estadísticos (muestreo, inferencias, etc.).

Se habla de la varianza muestral s²y la varianza poblacional σ² si las observaciones pertenecen a una muestra o a una población. Básicamente la diferencia de cálculo está en el divisor de las fórmulas utilizadas para determinarla, aunque si la muestra es grande, la diferencia es muy pequeña. Se plantea que si se utilizará el mismo divisor n (# observaciones) su varianza muestral sería una medida de variabilidad que es en promedio, consistentemente menor que la real varianza poblacional. Analicemos los siguientes casos.

El hecho de que la varianza sea una medida absoluta de variación y que su resultado sea expresado en las unidades de la variable al cuadrado, la hacen para fines descriptivos, poco útil. Lo lógico entonces es eliminar al menos uno de estos defectos (al cuadrado) y así llegamos a desviación típica o estándar muestra.

Continuemos entonces con las medidas relativas de variación ya caracterizadas e indispensables al comparar resultados de variación de observación frente al promedio aritmético o la mediana, estén o no expresadas en las mismas unidades. A continuación, mediante un vídeo se presenta cómo obtener los indicadores de tendencia central y de dispersión utilizando el software Microsoft Excel.

Actividad de aprendizaje

Realice el emparejamiento entre las series de datos y los gráficos de dispersión presentados. Evalúa lo aprendido hasta este punto.

Análisis de dispersión o variación

Coeficiente de variación

Medida relativa no expresada en unidad concreta, número abstracto y que elimina el defecto de la desviación estándar de no ser adecuada para comparar dos o más distribuciones o resultados expresados en diferentes unidades. Si la tendencia central se caracteriza con la media aritmética, el coeficiente de variación será respecto a ella.

Para una mayor comprensión, repasemos el siguiente ejemplo de coeficiente de variación.

Análisis de dispersión o variación

Variable normalizada

Las propiedades tanto de la aritmética como de la desviación estándar implican que, si a cada valor o dato de la variable considerada se le resta su media y se le divide por su desviación estándar, se obtendrá una nueva distribución caracterizada por una media igual a cero (0) y desviación estándar de uno (1). Esas variables así obtenidas se llaman estandarizadas y permiten comparaciones entre diversas distribuciones y entre sus valores o datos individuales.

Fortalezcamos este conocimiento con un ejemplo.

Análisis de dispersión o variación

Asimetría

Es el análisis de la forma que presenta la distribución de la variable en estudio. Generalmente esa distribución en estudio se compara con la curva teórica ideal llamada “curva normal” y representada por una curva simétrica respecto al valor de tendencia central. Para esa curva ideal se parte de que su media, mediana y moda coinciden. Que tanto y hacia qué lado la distribución en estudio puede presentar deformidad o asimetría. ¿Hacia qué lado se presenta la mayor agrupación de observaciones?

De acuerdo con lo estudiado en esta pantalla, estudiemos este ejemplo.

Resumen

En esta unidad se presentan diferentes técnicas para la presentación y resumen de datos que pueden ser utilizadas en el análisis de información de origen científico. Primero se abordan temáticas relacionadas con la presentación tabular y grafica de datos, incluyendo los diagramas de caja o boxplot. En muchos casos presentar a los lectores o intérpretes de la información la representación gráfica, les permite realizar inferencias sobre la misma y entender el comportamiento de una o más variables registradas de una manera más sencilla.

Para complementar la síntesis de los datos, se presentan indicadores de tendencia central, los cuales brindan una idea general sobre el comportamiento de una variable. Estos valores se toman como los más representativos de la muestra que se está analizando y aunque no se pueden obtener conclusiones definitivas de ellos, sí contribuyen en un alto grado al entendimiento de la información. Se exploran el promedio aritmético y geométrico, la mediana y la moda. Por último, se proporcionan las bases para el análisis de dispersión y variación de los datos, mediante el cual se estudia la desviación que tienen los datos con respecto a sus indicadores de tendencia central. Este conjunto de herramientas, le permiten al investigador realizar un análisis completo de los datos y entregar las conclusiones de una forma adecuada.

Caso de estudio

Realiza un informe del comportamiento de las variables planteadas para utilizarla como base del funcionamiento del algoritmo de aprendizaje de máquina del siguiente caso de estudio.

Introducción

Propósitos de aprendizaje

Propósito general

Propósitos específicos

Resumen y presentación de datos

Resumen y presentación de datos

Presentación tabular y representación gráfica

Resumen y presentación de datos

Diagrama de caja o boxplot

Descripción estadística de los datos

Descripción estadística de los datos

Análisis de tendencia central

Análisis de dispersión o variación

Análisis de dispersión o variación

Rango intercuartilico

Análisis de dispersión o variación

Desviación mediana

Análisis de dispersión o variación

La varianza

Actividad de aprendizaje

Análisis de dispersión o variación

Coeficiente de variación

Análisis de dispersión o variación

Variable normalizada

Análisis de dispersión o variación

Asimetría

Resumen

Caso de estudio

Bibliografía ()

Referencias Web