Datos categóricos

Por: Ludger O. Suarez-Burgoa (Universidad Nacional de Colombia).

Una variable categórica (que almacena un dato categórico) es aquella que puede tomar un único valor de un conjunto finito de posibles valores. Cada uno de los valores del conjunto es una categoría nominal que se define con base a alguna propiedad cualitativa. La categoría nominal debe estar basada en una clasificación, donde se debe garantizar que una observación puede tomar una sola categoría del conjunto. Las categorías nominales son mutuamente exclusivas y todas ellas deben cubrir el conjunto universo de todas las posibles cualidades del objeto que se está clasificando y observando.

Por ejemplo, en mecánica de suelos: un suelo sedimentario puede clasificarse según el esquema de la clasificación unificada de suelos. Esta clasificación garantiza que un suelo puede agruparse en una única y exclusiva categoría nominal y además garantiza que todo suelo de esta naturaleza sí se puede clasificar en alguna de sus posibles categorías.

Las variables categóricas se sintetizan en las siguientes posibles formas.

  1. Tabla de contingencia.
  2. Tabulaciones cruzadas.
  3. Diagramas de barras.

Una variable categórica que puede tomar exactamente solo dos valores se denomina una variable dicotómica (dichotomous) o variable binaria.

Por ejemplo, la condición de saturación de un suelo es binaria: está saturado o no está saturado. O por ejemplo, la condición del estado de saturación de una discontinuidad en una sarta de perforación de núcleos de roca.

Las variables que pueden tomar más de dos posibilidades se denominan variables politómicas (polytomous).

Datos categóricos sin orden

Un dato categórico sin orden es aquel donde los valores de asignación de la clasificación no presentan una priorización del uno con el otro, i.e. no representan de forma implícita o explícita en su nombre que existe una calificación. Todas las categorías en el conjunto posible tienen un valor igual de importancia.

Por ejemplo, el caso de la clasificación del suelo sedimentario. Aquí el hecho que un suelo sea arena o arcilla no tiene inicialmente importancia; es decir, la arcilla no es más o menos importante que la arena, ambas simplemente son distintos suelos.

El objeto que se ha creado en R para almacenar datos categóricos sin orden es el objeto factor.

Datos categóricos ordenados

Son aquellos datos categóricos donde las categorías expresan de forma implícita o explícita en su nombre que unas son más importantes que otras para el fin del análisis. Aquí, las clases tienen un orden establecido, desde el más importante al menos importante.

Por ejemplo, la clasificación de la condición geométrica ondulosa de las discontinuidades (en un macizo rocoso) definida por las siguientes tres clases {steeped, undulating, planar} sí tienen un orden de importancia desde el punto de vista mecánico. Las discontinuidades que pertenezcan a la categoría steeped van a generar mayor resistencia mecánica que aquellas que pertenezcan a la categoría undulating, y esta última mayor resistencia mecánica que la categoría planar. Por tanto, las categorías son ordenadas con base a cuánto más aportan a la resistencia mecánica con valores de importancia designadas por un conjunto de enteros {1, 2, 3}.

El objeto que se ha creado en R para almacenar datos categóricos sin orden es el objeto ordered.

Ejemplos

Ejemplo 1, el estado mecánico de las discontinuidades de una roca en los datos de exploración geotécnica de una perforación, sin tomar en cuenta categorías ordenadas.
Ejemplo 2, el estado mecánico de las discontinuidades de una roca en los datos de exploración geotécnica de una perforación, tomando en cuenta categorías ordenadas.