Análisis Multivariado de Datos

Análisis Exploratorio de Datos Multivariados

Mario José Pacheco López

2026-01-01

Datos multivariados

World Development Indicators | DataBank

Country Region Income Inflation GDP Education Sanitation Health Labor Mortality Urban
ABW Latin America & Caribbean High income 3.6260414 30082.1584 4.548764 98.68238 NA NA NA 62.53676
AFG Middle East & North Africa Low income 0.6261491 491.3372 NA 46.13354 14.208419 NA 58.6 24.99916
AGO Sub-Saharan Africa Lower middle income 19.6289380 2860.0936 2.183513 49.28652 2.298875 NA 45.3 65.87321
ALB Europe & Central Asia Upper middle income 2.0280596 5897.6545 3.082014 98.97365 6.590025 59.296 7.8 56.37700
AND Europe & Central Asia High income NA 42819.7577 3.246720 100.00000 7.377811 NA 2.9 88.50810
ARE Middle East & North Africa High income 3.0686338 47135.3592 NA 99.10102 4.098542 81.012 5.3 84.86018
ARG Latin America & Caribbean Upper middle income 34.2772237 11752.7999 4.877740 NA 10.172893 59.595 9.2 91.76799
ARM Europe & Central Asia Upper middle income 2.5202338 4196.0056 2.113312 92.23585 10.005434 67.170 11.2 64.85028
ASM East Asia & Pacific High income NA 12552.0547 NA 62.15130 NA NA NA 83.47800
ATG Latin America & Caribbean High income 1.2071579 18273.4271 2.269227 98.51369 4.686565 72.611 8.2 24.77814
AUS East Asia & Pacific High income 1.9114009 57410.1737 NA 99.99937 10.089075 65.746 3.2 87.22677
AUT Europe & Central Asia High income 1.9983798 51194.0750 5.254370 99.97282 10.515716 61.323 3.0 68.10468
AZE Europe & Central Asia Upper middle income 2.2685469 4739.7943 2.455430 91.69093 3.836613 66.300 17.6 57.18415
BDI Sub-Saharan Africa Low income -2.8146981 245.6617 5.078650 44.49544 7.293961 NA 37.0 17.68202
BEL Europe & Central Asia High income 2.0531650 47487.2100 6.388830 99.48618 10.993797 54.184 3.3 86.88834
BEN Sub-Saharan Africa Lower middle income 0.9191707 1151.7410 2.931620 18.19373 3.436498 NA 53.1 47.99528
BFA Sub-Saharan Africa Low income 1.9559430 777.4656 5.488610 25.68355 4.944277 44.893 51.6 26.08322
BGD South Asia Lower middle income 5.5436214 1965.2437 2.094775 55.80269 2.316222 NA 26.3 30.51757
BGR Europe & Central Asia High income 2.8145447 9849.3840 4.052020 86.01436 7.340863 55.323 5.8 73.60021
BHR Middle East & North Africa High income 2.0876694 26324.4067 2.388940 100.00000 3.943249 NA 6.4 100.00000
BHS Latin America & Caribbean High income 2.2658635 32642.3353 2.492641 93.71004 5.838903 NA 12.0 81.96432
BIH Europe & Central Asia Upper middle income 1.4171081 6047.8471 3.892970 95.38506 8.761004 41.905 5.9 48.97193
BLR Europe & Central Asia Upper middle income 4.8723022 6360.0375 4.836570 98.93920 5.526995 70.921 2.6 77.21327
BLZ Latin America & Caribbean Upper middle income 0.2699826 6011.9904 6.127800 84.05203 4.755299 67.295 11.7 43.16485
BMU North America High income NA 113204.8221 1.935955 99.94165 NA NA NA 100.00000
BOL Latin America & Caribbean Lower middle income 2.2720599 4206.8553 8.015870 61.88638 6.603994 71.798 23.9 69.41339
BRA Latin America & Caribbean Upper middle income 3.6648503 9300.6607 6.088510 88.02503 9.464750 64.226 13.1 86.44207
BRB Latin America & Caribbean High income 3.6738141 21381.2426 5.404478 96.63894 5.830380 63.577 10.9 59.27018
BRN East Asia & Pacific High income 1.0250518 30988.1190 NA 94.61428 2.416009 65.395 8.6 74.81725
BTN South Asia Lower middle income 2.7239639 3400.2042 6.478100 77.23784 3.068967 62.603 21.8 38.46619
BWA Sub-Saharan Africa Upper middle income 3.2380156 7407.9594 7.905386 69.20699 6.040103 NA 43.2 66.15792
CAF Sub-Saharan Africa Low income 1.6121569 455.2440 1.565876 14.84784 10.994841 NA 74.0 41.28247
CAN North America High income 2.2682257 46539.1762 4.888980 98.84154 10.922621 65.795 4.5 81.55003
CHE Europe & Central Asia High income 0.9363355 85217.3692 4.930090 99.89987 11.198911 68.484 3.6 79.29222
CHI Europe & Central Asia High income NA 60784.8125 NA NA NA NA NA 32.81260
CHL Latin America & Caribbean High income 2.4348898 15659.4809 5.473060 99.14830 9.150404 63.242 6.3 87.96205
CHN East Asia & Pacific Upper middle income 2.0747904 10085.6638 NA 89.69422 5.069333 NA 6.4 61.50020
CIV Sub-Saharan Africa Lower middle income 0.4012978 2130.8662 3.211650 34.87089 3.091678 NA 54.1 50.87185
CMR Sub-Saharan Africa Lower middle income 1.0688581 1610.6964 3.030960 44.41486 3.619702 NA 48.1 53.63399
COD Sub-Saharan Africa Low income NA 518.1696 NA 16.72563 3.241272 NA 51.3 42.49466
COG Sub-Saharan Africa Lower middle income 1.1527790 2694.4341 2.771670 20.26857 1.755850 NA 32.0 63.44346
COL Latin America & Caribbean Upper middle income 3.2405693 6816.9682 4.449100 91.35066 7.717775 65.237 12.7 77.28048
COM Sub-Saharan Africa Lower middle income 2.1515508 1527.4053 NA 50.15951 4.903186 NA 40.3 31.40736
CPV Sub-Saharan Africa Upper middle income 1.2569957 4294.9651 4.787923 76.72373 4.785482 55.560 14.0 70.39707
CRI Latin America & Caribbean High income 2.2211146 12590.2494 6.769920 97.70251 7.285877 62.210 7.8 76.55443
CUB Latin America & Caribbean Upper middle income NA 8911.4621 8.024985 90.89865 11.018425 NA 5.2 77.01563
CUW Latin America & Caribbean High income 2.5836876 19119.1245 5.938733 NA NA 55.800 NA 91.36013
CYM Latin America & Caribbean High income NA 83865.5540 2.163769 83.35081 NA NA NA 100.00000
CYP Europe & Central Asia High income 1.4354912 29120.3750 NA 99.50949 6.784463 62.488 2.5 66.82555
CZE Europe & Central Asia High income 2.1494949 23705.9330 4.215410 99.07389 7.371736 60.563 2.5 72.84987

Métodos multivariados

Análisis exploratorio de datos multivariados

Herramientas de análisis

  • Medidas de centralidad multivariadas
  • Medidas de co-variabilidad y correlación
  • La distribución normal multivariada
    • Medidas de asimetría y curtosis
    • Pruebas de normalidad
    • Detección de datos atípicos
  • Gráficos para datos multivariados
  • Descripción de variables categóricas
  • Descripción de datos faltantes

Estructura de los datos

Considere una muestra aleatoria de \(n\) vectores aleatorios \[ \boldsymbol{x}_{i}=\left(x_{i1},x_{i2},...,x_{ip}\right)^{\top},\;i=1,...,n, \] que componen una matriz o base de datos de la forma \[\boldsymbol{X}=\left[\begin{array}{c} \boldsymbol{x}_{1}^{\top}\\ \boldsymbol{x}_{2}^{\top}\\ \vdots\\ \boldsymbol{x}_{n}^{\top} \end{array}\right]=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & & \vdots\\ x_{i1} & x_{i2} & \cdots & x_{ip}\\ \vdots & \vdots & & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array}\right] \]

Medidas de centralidad multivariadas

Vector de promedios: \[ \bar{\boldsymbol{x}}=\left(\bar{x}_{1},\bar{x}_{2},...,\bar{x}_{p}\right)^{\top} \]

Vector de medianas muestrales univariadas: \[ \tilde{\boldsymbol{x}}=\left(\tilde{x}_{1},\tilde{x}_{2},...,\tilde{x}_{p}\right)^{\top} \]

Mediana muestral multivariada (L1-median o mediana de Tukey): \[ \tilde{\boldsymbol{x}}_{m}=\underset{\boldsymbol{a}}{\text{argmin}}\left\{ \sum_{i=1}^{n}\left\Vert \boldsymbol{x}_{i}-\boldsymbol{a}\right\Vert _{2}\right\} ,\quad\boldsymbol{a}\in\mathbb{R}^{p} \] con \(\left\Vert \boldsymbol{x}_{i}-\boldsymbol{a}\right\Vert _{2}^{2}=\sum_{j=1}^{p}\left(x_{ij}-a_{j}\right)^{2}\)

Medidas de centralidad multivariadas

  • Use el vector de promedios para resumir la localización central conjunta de variables cuantitativas cuando no hay valores atípicos influyentes.

  • Use el vector de medianas muestrales univariadas para resumir la localización central componente a componente cuando hay asimetría o valores atípicos influyentes.

  • Use la mediana muestral multivariada para resumir la localización central conjunta de datos multivariados cuando se requiere una medida robusta del centro global frente a valores atípicos o asimetría.

Medidas de co-variabilidad y correlación

Matriz de covarianzas: \[ S=\left[\begin{array}{cccc} s_{1}^{2} & s_{12} & \cdots & s_{1p}\\ s_{21} & s_{2}^{2} & \cdots & s_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ s_{p1} & s_{p2} & \cdots & s_{p}^{2} \end{array}\right], \] donde \[ s_{jk} =\frac{\sum_{i=1}^{n}x_{ij}x_{ik}-n\bar{x}_{j}\bar{x}_{k}}{n-1}, ~ ~j,k=1,2,...,p, \] es la covarianza entre las variables \(j\) y \(k\). En particular, \(s_{jj}=s^2_j\) es la varianza de la variable \(j\)-ésima y \(s_j = \sqrt{s_{jj}}\) es la desviación estándar.

Medidas de co-variabilidad y correlación

Matriz de correlaciones (de Pearson): \[ R=\left[\begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p}\\ r_{21} & 1 & \cdots & r_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ r_{p1} & r_{p2} & \cdots & 1 \end{array}\right], \] donde \[ r_{jk} =\frac{s_{jk}}{s_{j}s_{k}},~~ j,k=1,2,...,p, \] con \(-1\le r_{jk}\le 1\), \(\forall j,k\), es la correlación entre las variables \(j\) y \(k\).

Medidas de co-variabilidad y correlación

Correlaciones parciales: \[ r_{jk\mid S} =\frac{\sum_{i=1}^n{\hat\epsilon_{ji}\hat\epsilon_{ki}}}{\sqrt{\sum_{i=1}^n{\hat\epsilon_{ji}^2}\sum_{i=1}^n{\hat\epsilon_{ki}^2}}},\quad j\neq k, \text{y } S=\{1,2,...,p\}\setminus\{j,k\}, \] donde \(\hat\epsilon_{ji}=x_{ji}-\hat{x}_{ji}\), \(\hat\epsilon_{ki}=x_{ki}-\hat{x}_{ki}\) y \[ \begin{aligned} \hat{x}_{ji} &= \hat\alpha_j + \sum_{s\in S}{\hat\beta_sx_{si}}\\ \hat{x}_{ki} &= \hat\alpha_k + \sum_{s\in S}{\hat\gamma_sx_{si}} \end{aligned} \]

Medidas de co-variabilidad y correlación

Varianza generalizada: \[V_G=\mid S\mid\]

Varianza total: \[ V_T=\text{tr}\left(S\right)={\displaystyle \sum_{j=1}^{p}}s_{j}^{2} \]

Medidas de co-variabilidad y correlación

Coeficiente de correlación de rangos: \[ r_{jk} = \frac{\sum_{i=1}^n\sum_{l=1}^n a_{j,il}b_{k,il}}{\sqrt{\sum_{i=1}^n\sum_{l=1}^n a_{j,il}^2 \sum_{i=1}^n\sum_{l=1}^n b_{k,il}^2}}, \ \ -1\le r_{jk} \le 1, \]
donde \(a_{j,il}\) y \(b_{k,il}\) son score para las variables \(j\) y \(k\), respectivamente, tales que \(a_{j,il}=-a_{j,li}\), \(b_{k,il}=-b_{k,li}\) y \(a_{j,ii} = b_{k,ii} = 0\).

Medidas de co-variabilidad y correlación

Coeficiente de correlación de Spearman :

Se definen \(a_{j,il}\) y \(b_{k,il}\) como \[ \begin{aligned} a_{j,il} &= u_{j,l} - u_{j,i} \\ b_{k,il} &= v_{k,l} - v_{k,i} \end{aligned} \] donde \(u_{j,i}\) y \(v_{k,i}\), \((i=1,2,...,n)\), corresponden a los rangos de los valores observados de las variables \(j\) y \(k\), respectivamente.

Medidas de co-variabilidad y correlación

Coeficiente de correlación de Kendall :

Se calculan \(a_{j,il}\) y \(b_{k,il}\) como \[ \begin{aligned} a_{j,il} &= sgn(u_{j,l} - u_{j,i}) \\ b_{k,il} &= sgn(v_{k,l} - v_{k,i}) \end{aligned} \] donde \(u_{j,i}\) y \(v_{k,i}\), \((i=1,2,...,n)\), corresponden a los rangos de los valores observados de las variables \(j\) y \(k\), respectivamente.

Medidas de co-variabilidad y correlación

Covarianza de distancia: sean \(\boldsymbol{x}_i\), y \(\boldsymbol{y}_i\), \(i=1,2,...,n\), \(n\) vectores de valores observados de las variables \(X\in \mathbb{R}^p\) y \(Y\in \mathbb{R}^q\), \[ cov_d(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sqrt{\sum_{i=1}^n\sum_{k=1}^n A_{ik}B_{ik}}, \] donde \[ \begin{aligned} a_{ik}=\mid\mid \boldsymbol{x}_i-\boldsymbol{x}_k \mid\mid ~ ; \quad b_{ik}=\mid\mid \boldsymbol{y}_i-\boldsymbol{y}_k \mid\mid \end{aligned} \] y \[ \begin{aligned} A_{ik}=a_{jk}-\bar{a}_{i\cdot}-\bar{a}_{\cdot k} + \bar{a}_{\cdot\cdot} \\ B_{ik}=b_{jk}-\bar{b}_{i\cdot}-\bar{b}_{\cdot k} + \bar{b}_{\cdot\cdot} \end{aligned} \]

Medidas de co-variabilidad y correlación

Correlación de distancia: \[ cor_d(\boldsymbol{x},\boldsymbol{y}) = \frac{cov_d(\boldsymbol{x},\boldsymbol{y})}{\sqrt{var_d(\boldsymbol{x})var_d(\boldsymbol{y})}}, \] con \(var_d(\boldsymbol{x})=cov_d(\boldsymbol{x},\boldsymbol{x})\)

Medidas de co-variabilidad y correlación

  • Use la matriz de covarianzas para resumir la variabilidad y la asociación lineal conjunta entre variables cuando interesa conservar sus escalas originales.

  • Use la matriz de correlaciones para resumir la asociación lineal conjunta entre variables cuando sus escalas difieren o interesa compararlas en forma estandarizada.

  • Use las correlaciones parciales para medir la asociación lineal entre dos variables controlando el efecto de las demás, cuando interesa distinguir relaciones directas de asociaciones inducidas por otras variables.

  • Use la varianza generalizada para resumir la dispersión global multivariada cuando interesa cuantificar el volumen de variación conjunta de las variables.

Medidas de co-variabilidad y correlación

  • Use la varianza total para resumir la dispersión global multivariada cuando interesa cuantificar la variabilidad total acumulada de las variables, entendida como la suma de sus varianzas.

  • Use el coeficiente de correlación de Spearman para medir la asociación monótona entre dos variables cuando la relación no es necesariamente lineal o los datos contienen asimetría, atípicos o nivel de medición ordinal.

  • Use el coeficiente de correlación de Kendall para medir la asociación monótona entre dos variables cuando interesa una medida basada en concordancias y discordancias, especialmente útil con datos ordinales, muestras pequeñas o empates.

  • Use la correlación de distancia para medir la intensidad de la dependencia entre dos variables o dos grupos de variables, incluso si la relación no es lineal; vale cero si y solo si son independientes.

La distribución normal multivariada

Un vector aleatorio \(\boldsymbol{X}\) \(\left(p\times1\right)\) tiene distribución normal multivariada, \(\boldsymbol{X}\sim N_{p}\left(\boldsymbol{\mu},\Sigma\right)\), si su función de densidad de probabilidad (fdp) está dada por \[ f_{\boldsymbol{X}}\left(\boldsymbol{x}\right)=\frac{1}{\left(2\pi\right)^{p/2}\left|\Sigma\right|^{1/2}}\exp\left\{ -\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^{\top}\Sigma^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right\},~~ \boldsymbol{x}\in \mathbb{R}^p, \] donde

  • \(E\left(\boldsymbol{X}\right)=\boldsymbol{\mu}\in\mathbb{R}^{p}\), es el vector de medias de \(\boldsymbol{X}\)

  • \(Cov\left(\boldsymbol{X}\right)=E\left(\boldsymbol{X}^2\right)-E^2\left(\boldsymbol{X}\right)\) \(=\Sigma\succeq 0\), \(\left(\Sigma=\Sigma^\top\right)\), es la matriz de covarianzas de \(\boldsymbol{X}\).

La distribución normal multivariada

Por ejemplo, el vector aleatorio \(\boldsymbol{X}\), tal que \[ \boldsymbol{X}\sim N_2\left(\boldsymbol{\mu}, \Sigma\right) \] con

\[ \boldsymbol{\mu} = \left[\begin{array}{c} 3.0\\ 1.0\\ \end{array}\right], \ \ \ \ \Sigma = \left[\begin{array}{rr} 2.0 & -1.5\\ -1.5 & 3.0\\ \end{array}\right] \]

La distribución normal multivariada

Función de densidad de probabilidad

Contornos de la distribución

La distribución normal multivariada

Asimetría y curtosis: \[ \begin{aligned} b_{1,p} &=\frac{1}{n^{2}}\sum_{i=1}^{n}\sum_{l=1}^{n}\left[\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{\top}S^{-1}\left(\boldsymbol{x}_{l}-\bar{\boldsymbol{x}}\right)\right]^{3}\quad\text{(asimetría)}\\ b_{2,p} &=\frac{1}{n}\sum_{i=1}^{n}\left[\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{\top}S^{-1}\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)\right]^{2}\quad\qquad\text{(curtosis)} \end{aligned} \] Se espera que en el caso de una distribución normal \(b_{1,p}=0\) (simétrica) y \(b_{2,p}=p\left(p+2\right)\) (mesocúrtica).

La distribución normal multivariada

Gráfico cuantil-cuantil multivariado: para cada individuo se calcula \[ d_{i}^2=\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right)^{\top}S^{-1}\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right),\ \ i=1,2,...,n, \] que bajo el supuesto de normalidad multivariada, sigue una distribución \(\chi^2_{p-1}\). Luego, se calculan los estadísticos de orden \(d_{(1)}^2,d_{(2)}^2,...,d_{(n)}^2\).

A continuación, se deben encontrar los valores \(q_i\), \(i=1,2,...,n\), tales que \[ Pr\left(\chi_{p-1}^2\le q_i\right) = {{i-0.5}\over{n}}, \ \ i=1,2,...,n \]

Finalmente, se grafica la nube de puntos conformada por las parejas \(\left(q_i,d_{(i)}^2\right)\), y se agrega la línea \(d_{(i)}^2 = a + bq_i\) que “mejor” se ajusta a la nube de puntos.

La distribución normal multivariada

Prueba de Mardia: estamos interesados en constrastar las hipótesis \[ \begin{aligned} H_0&:\text{los datos provienen de una distribución normal multivariada}\\ H_a&:\text{los datos no provienen de una distribución normal multivariada} \end{aligned} \] Se calculan las estadísticas \[ \begin{aligned} Z_{1} &=\frac{n\left(p+1\right)\left(n+1\right)\left(n+3\right)}{6\left[n\left(n+1\right)\left(p+1\right)-6\right]}b_{1,p}\\ Z_{2} &=\frac{b_{2,p}-p\left(p+2\right)}{\sqrt{8p\left(p+2\right)/n}} \end{aligned} \] donde, bajo \(H_0\), \(Z_1\sim\chi_{p\left(p+1\right)\left(p+2\right)/6}^{2}\) y \(Z_2 \sim N\left(0,1\right)\), para así, rechazar la hipótesis de normalidad multivariada al nivel de significancia \(\alpha\) en términos de asimetría si \(Z_{1}\ge\chi_{\alpha,p\left(p+1\right)\left(p+2\right)/6}^{2}\) o de curtosis si \(\left|Z_{2}\right|\ge Z_{\alpha/2}\).

La distribución normal multivariada

Otras pruebas de normalidad multivariada:

  • test de Henze-Zirkler

  • test de Royston (extensión del test de Shapiro-Wilk)

  • test de Doornik-Hansen

  • test de Energía

La distribución normal multivariada

Detección de datos atípicos:

Basado en el cuadrado de la distancia de Mahalanobis muestral para cada individuo, \[ d_{i}^2=\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right)^{\top}S^{-1}\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right),\ \ i=1,2,...,n, \] la cual, bajo el supuesto de normalidad multivariada, se puede asumir sigue una distribución \(\chi_{p-1}^2\).

Por tanto, se pueden identificar individuos atípicos multivariados en el conjunto de datos al comparar los valores de \(d^2_{i}\) con un cuantil “grande” de la distribución \(\chi^2_{p-1}\), por ejemplo \(\chi^2_{0.025,p}\).

Gráficos para datos multivariados

  • Gráficos de dispersión

  • Diagramas de caja bivariados (bagplot)

  • Gráficos de densidades empíricas bivariadas

  • Gráficos de contornos

Descripción de variables categóricas

Tabla de contingencia:

\[ \boldsymbol{N}= \left[\begin{array}{cccccc} n_{11} & n_{12} & \cdots & n_{1j} & \cdots & n_{1q}\\ n_{21} & n_{22} & \cdots & n_{2j} & \cdots & n_{2q}\\ \vdots & \vdots & & \vdots & & \vdots\\ n_{i1} & n_{i2} & \cdots & n_{ij} & \cdots & n_{iq}\\ \vdots & \vdots & & \vdots & & \vdots\\ n_{p1} & n_{p2} & \cdots & n_{pj} & \cdots & n_{pq} \end{array}\right]_{\left(p\times q\right)}, \] donde \(n_{ij}\) corresponde el número de individuos en las categorías \(i=1,2,...,p\) y \(j=1,2,...,q\) de las variables categóricas representadas en las filas y columnas de la tabla, respectivamente.

Descripción de variables categóricas

Frecuencias condicionales fila: \[ \boldsymbol{P_f}= \left[\begin{array}{cccccc} p_{11\mid1} & p_{12\mid1} & \cdots & p_{1j\mid1} & \cdots & p_{1q\mid1}\\ p_{21\mid2} & p_{22\mid2} & \cdots & p_{2j\mid2} & \cdots & p_{2q\mid2}\\ \vdots & \vdots & & \vdots & & \vdots\\ p_{i1\mid i} & p_{i2\mid i} & \cdots & p_{ij\mid i} & \cdots & p_{iq\mid i}\\ \vdots & \vdots & & \vdots & & \vdots\\ p_{p1\mid p} & p_{p2\mid p} & \cdots & p_{pj\mid p} & \cdots & p_{pq\mid p} \end{array}\right]_{\left(p\times q\right)}, \] donde \(p_{ij\mid i}=n_{ij}/n_{i\cdot}\), con \(n_{i\cdot} = \sum_{j=1}^q n_{ij}\), es la proporción de individuos en la categoría \(i\)-ésima de la variable fila. Similarmente, se pueden calcular las frecuencias condicionales columna.

Descripción de variables categóricas

Prueba de independencia:

  • Se quiere probar la independencia (\(H_{0}\)) entre un par de variables categóricas

  • Se calcula la estadística chi-cuadrado, \[ \chi^{2}=\sum_{i=1}^{p}\sum_{j=1}^{q}\frac{\left(n_{ij}-E_{ij}\right)^{2}}{E_{ij}}\overset{\text{ind}}{\sim}\chi_{\left(p-1\right)\left(q-1\right)}^{2}, \] donde \(E_{ij}=n_{i\cdot}n_{\cdot j}/n\), con \(n=\sum_{i=1}^p\sum_{j=1}^q n_{ij}\), es el número esperado de individuos bajo independencia

  • Se rechaza \(H_{0}\), al nivel de significancia \(\alpha\) si \(\chi^{2}>\chi_{\alpha,\left(p-1\right)\left(q-1\right)}^{2}\).

Descripción de variables categóricas

Medidas de asociación:

  • Coeficiente de Contingencia \((C)\):

\[ C = \sqrt{\frac{k}{k-1}\frac{\chi^2}{n+\chi^2}},\ \ 0\le C \le 1, \] con \(k=\min\{p,q\}\).

  • Coeficiente \(V\) de Crámer:

\[ V = \sqrt{\frac{\chi^2}{n(k-1)}},\ \ 0\le V\le 1 \]

Descripción de variables categóricas

  • Use el coeficiente de contingencia para resumir la intensidad global de asociación entre dos variables categóricas en una tabla de contingencia, teniendo en cuenta que su valor máximo depende del tamaño de la tabla.

  • Use el coeficiente V de Cramér para medir la intensidad de la asociación entre dos variables categóricas en una tabla de contingencia, cuando se requiere una medida estandarizada comparable entre tablas de distinto tamaño.

Descripción de datos faltantes

  • Estructura de los datos faltantes en la matriz de datos: cómo se ubican los datos faltantes en la matriz de observaciones y variables, considerando su distribución general, concentración y localización.

  • Magnitud de los datos faltantes y pérdida de información: cantidad de datos faltantes a nivel global, por variable y por unidad.

  • Patrones de datos faltantes en estructuras multivariadas: configuración conjunta de la ausencia entre variables, identificando combinaciones recurrentes y formas estructuradas de falta.

Descripción de datos faltantes

  • Mecanismos de datos faltantes:

    • Faltantes completamente aleatorios (MCAR): la probabilidad de que un dato falte no depende ni del valor faltante ni de las variables observadas.

    • Faltantes aleatorios (MAR): la probabilidad de que un dato falte puede depender de variables observadas, pero no del valor faltante una vez condicionadas esas variables.

    • Faltantes no aleatorios (MNAR): la probabilidad de que un dato falte depende del propio valor faltante, incluso después de considerar las variables observadas.