Análisis Multivariado de Datos

Análisis Exploratorio de Datos Multivariados

Mario José Pacheco López

2026-01-01

Datos multivariados

World Development Indicators | DataBank

Country	Region	Income	Inflation	GDP	Education	Sanitation	Health	Labor	Mortality	Urban
ABW	Latin America & Caribbean	High income	3.6260414	30082.1584	4.548764	98.68238	NA	NA	NA	62.53676
AFG	Middle East & North Africa	Low income	0.6261491	491.3372	NA	46.13354	14.208419	NA	58.6	24.99916
AGO	Sub-Saharan Africa	Lower middle income	19.6289380	2860.0936	2.183513	49.28652	2.298875	NA	45.3	65.87321
ALB	Europe & Central Asia	Upper middle income	2.0280596	5897.6545	3.082014	98.97365	6.590025	59.296	7.8	56.37700
AND	Europe & Central Asia	High income	NA	42819.7577	3.246720	100.00000	7.377811	NA	2.9	88.50810
ARE	Middle East & North Africa	High income	3.0686338	47135.3592	NA	99.10102	4.098542	81.012	5.3	84.86018
ARG	Latin America & Caribbean	Upper middle income	34.2772237	11752.7999	4.877740	NA	10.172893	59.595	9.2	91.76799
ARM	Europe & Central Asia	Upper middle income	2.5202338	4196.0056	2.113312	92.23585	10.005434	67.170	11.2	64.85028
ASM	East Asia & Pacific	High income	NA	12552.0547	NA	62.15130	NA	NA	NA	83.47800
ATG	Latin America & Caribbean	High income	1.2071579	18273.4271	2.269227	98.51369	4.686565	72.611	8.2	24.77814
AUS	East Asia & Pacific	High income	1.9114009	57410.1737	NA	99.99937	10.089075	65.746	3.2	87.22677
AUT	Europe & Central Asia	High income	1.9983798	51194.0750	5.254370	99.97282	10.515716	61.323	3.0	68.10468
AZE	Europe & Central Asia	Upper middle income	2.2685469	4739.7943	2.455430	91.69093	3.836613	66.300	17.6	57.18415
BDI	Sub-Saharan Africa	Low income	-2.8146981	245.6617	5.078650	44.49544	7.293961	NA	37.0	17.68202
BEL	Europe & Central Asia	High income	2.0531650	47487.2100	6.388830	99.48618	10.993797	54.184	3.3	86.88834
BEN	Sub-Saharan Africa	Lower middle income	0.9191707	1151.7410	2.931620	18.19373	3.436498	NA	53.1	47.99528
BFA	Sub-Saharan Africa	Low income	1.9559430	777.4656	5.488610	25.68355	4.944277	44.893	51.6	26.08322
BGD	South Asia	Lower middle income	5.5436214	1965.2437	2.094775	55.80269	2.316222	NA	26.3	30.51757
BGR	Europe & Central Asia	High income	2.8145447	9849.3840	4.052020	86.01436	7.340863	55.323	5.8	73.60021
BHR	Middle East & North Africa	High income	2.0876694	26324.4067	2.388940	100.00000	3.943249	NA	6.4	100.00000
BHS	Latin America & Caribbean	High income	2.2658635	32642.3353	2.492641	93.71004	5.838903	NA	12.0	81.96432
BIH	Europe & Central Asia	Upper middle income	1.4171081	6047.8471	3.892970	95.38506	8.761004	41.905	5.9	48.97193
BLR	Europe & Central Asia	Upper middle income	4.8723022	6360.0375	4.836570	98.93920	5.526995	70.921	2.6	77.21327
BLZ	Latin America & Caribbean	Upper middle income	0.2699826	6011.9904	6.127800	84.05203	4.755299	67.295	11.7	43.16485
BMU	North America	High income	NA	113204.8221	1.935955	99.94165	NA	NA	NA	100.00000
BOL	Latin America & Caribbean	Lower middle income	2.2720599	4206.8553	8.015870	61.88638	6.603994	71.798	23.9	69.41339
BRA	Latin America & Caribbean	Upper middle income	3.6648503	9300.6607	6.088510	88.02503	9.464750	64.226	13.1	86.44207
BRB	Latin America & Caribbean	High income	3.6738141	21381.2426	5.404478	96.63894	5.830380	63.577	10.9	59.27018
BRN	East Asia & Pacific	High income	1.0250518	30988.1190	NA	94.61428	2.416009	65.395	8.6	74.81725
BTN	South Asia	Lower middle income	2.7239639	3400.2042	6.478100	77.23784	3.068967	62.603	21.8	38.46619
BWA	Sub-Saharan Africa	Upper middle income	3.2380156	7407.9594	7.905386	69.20699	6.040103	NA	43.2	66.15792
CAF	Sub-Saharan Africa	Low income	1.6121569	455.2440	1.565876	14.84784	10.994841	NA	74.0	41.28247
CAN	North America	High income	2.2682257	46539.1762	4.888980	98.84154	10.922621	65.795	4.5	81.55003
CHE	Europe & Central Asia	High income	0.9363355	85217.3692	4.930090	99.89987	11.198911	68.484	3.6	79.29222
CHI	Europe & Central Asia	High income	NA	60784.8125	NA	NA	NA	NA	NA	32.81260
CHL	Latin America & Caribbean	High income	2.4348898	15659.4809	5.473060	99.14830	9.150404	63.242	6.3	87.96205
CHN	East Asia & Pacific	Upper middle income	2.0747904	10085.6638	NA	89.69422	5.069333	NA	6.4	61.50020
CIV	Sub-Saharan Africa	Lower middle income	0.4012978	2130.8662	3.211650	34.87089	3.091678	NA	54.1	50.87185
CMR	Sub-Saharan Africa	Lower middle income	1.0688581	1610.6964	3.030960	44.41486	3.619702	NA	48.1	53.63399
COD	Sub-Saharan Africa	Low income	NA	518.1696	NA	16.72563	3.241272	NA	51.3	42.49466
COG	Sub-Saharan Africa	Lower middle income	1.1527790	2694.4341	2.771670	20.26857	1.755850	NA	32.0	63.44346
COL	Latin America & Caribbean	Upper middle income	3.2405693	6816.9682	4.449100	91.35066	7.717775	65.237	12.7	77.28048
COM	Sub-Saharan Africa	Lower middle income	2.1515508	1527.4053	NA	50.15951	4.903186	NA	40.3	31.40736
CPV	Sub-Saharan Africa	Upper middle income	1.2569957	4294.9651	4.787923	76.72373	4.785482	55.560	14.0	70.39707
CRI	Latin America & Caribbean	High income	2.2211146	12590.2494	6.769920	97.70251	7.285877	62.210	7.8	76.55443
CUB	Latin America & Caribbean	Upper middle income	NA	8911.4621	8.024985	90.89865	11.018425	NA	5.2	77.01563
CUW	Latin America & Caribbean	High income	2.5836876	19119.1245	5.938733	NA	NA	55.800	NA	91.36013
CYM	Latin America & Caribbean	High income	NA	83865.5540	2.163769	83.35081	NA	NA	NA	100.00000
CYP	Europe & Central Asia	High income	1.4354912	29120.3750	NA	99.50949	6.784463	62.488	2.5	66.82555
CZE	Europe & Central Asia	High income	2.1494949	23705.9330	4.215410	99.07389	7.371736	60.563	2.5	72.84987

Métodos multivariados

Análisis exploratorio de datos multivariados

Herramientas de análisis

Medidas de centralidad multivariadas
Medidas de co-variabilidad y correlación
La distribución normal multivariada
- Medidas de asimetría y curtosis
- Pruebas de normalidad
- Detección de datos atípicos

Gráficos para datos multivariados
Descripción de variables categóricas
Descripción de datos faltantes

Estructura de los datos

Considere una muestra aleatoria de \(n\) vectores aleatorios \[ \boldsymbol{x}_{i}=\left(x_{i1},x_{i2},...,x_{ip}\right)^{\top},\;i=1,...,n, \] que componen una matriz o base de datos de la forma \[\boldsymbol{X}=\left[\begin{array}{c} \boldsymbol{x}_{1}^{\top}\\ \boldsymbol{x}_{2}^{\top}\\ \vdots\\ \boldsymbol{x}_{n}^{\top} \end{array}\right]=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & x_{22} & \cdots & x_{2p}\\ \vdots & \vdots & & \vdots\\ x_{i1} & x_{i2} & \cdots & x_{ip}\\ \vdots & \vdots & & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{np} \end{array}\right] \]

Medidas de centralidad multivariadas

Vector de promedios: \[ \bar{\boldsymbol{x}}=\left(\bar{x}_{1},\bar{x}_{2},...,\bar{x}_{p}\right)^{\top} \]

Vector de medianas muestrales univariadas: \[ \tilde{\boldsymbol{x}}=\left(\tilde{x}_{1},\tilde{x}_{2},...,\tilde{x}_{p}\right)^{\top} \]

Mediana muestral multivariada (L1-median o mediana de Tukey): \[ \tilde{\boldsymbol{x}}_{m}=\underset{\boldsymbol{a}}{\text{argmin}}\left\{ \sum_{i=1}^{n}\left\Vert \boldsymbol{x}_{i}-\boldsymbol{a}\right\Vert _{2}\right\} ,\quad\boldsymbol{a}\in\mathbb{R}^{p} \] con \(\left\Vert \boldsymbol{x}_{i}-\boldsymbol{a}\right\Vert _{2}^{2}=\sum_{j=1}^{p}\left(x_{ij}-a_{j}\right)^{2}\)

Medidas de centralidad multivariadas

Use el vector de promedios para resumir la localización central conjunta de variables cuantitativas cuando no hay valores atípicos influyentes.
Use el vector de medianas muestrales univariadas para resumir la localización central componente a componente cuando hay asimetría o valores atípicos influyentes.
Use la mediana muestral multivariada para resumir la localización central conjunta de datos multivariados cuando se requiere una medida robusta del centro global frente a valores atípicos o asimetría.

Medidas de co-variabilidad y correlación

Matriz de covarianzas: \[ S=\left[\begin{array}{cccc} s_{1}^{2} & s_{12} & \cdots & s_{1p}\\ s_{21} & s_{2}^{2} & \cdots & s_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ s_{p1} & s_{p2} & \cdots & s_{p}^{2} \end{array}\right], \] donde \[ s_{jk} =\frac{\sum_{i=1}^{n}x_{ij}x_{ik}-n\bar{x}_{j}\bar{x}_{k}}{n-1}, ~ ~j,k=1,2,...,p, \] es la covarianza entre las variables \(j\) y \(k\). En particular, \(s_{jj}=s^2_j\) es la varianza de la variable \(j\)-ésima y \(s_j = \sqrt{s_{jj}}\) es la desviación estándar.

Medidas de co-variabilidad y correlación

Matriz de correlaciones (de Pearson): \[ R=\left[\begin{array}{cccc} 1 & r_{12} & \cdots & r_{1p}\\ r_{21} & 1 & \cdots & r_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ r_{p1} & r_{p2} & \cdots & 1 \end{array}\right], \] donde \[ r_{jk} =\frac{s_{jk}}{s_{j}s_{k}},~~ j,k=1,2,...,p, \] con \(-1\le r_{jk}\le 1\), \(\forall j,k\), es la correlación entre las variables \(j\) y \(k\).

Medidas de co-variabilidad y correlación

Correlaciones parciales: \[ r_{jk\mid S} =\frac{\sum_{i=1}^n{\hat\epsilon_{ji}\hat\epsilon_{ki}}}{\sqrt{\sum_{i=1}^n{\hat\epsilon_{ji}^2}\sum_{i=1}^n{\hat\epsilon_{ki}^2}}},\quad j\neq k, \text{y } S=\{1,2,...,p\}\setminus\{j,k\}, \] donde \(\hat\epsilon_{ji}=x_{ji}-\hat{x}_{ji}\), \(\hat\epsilon_{ki}=x_{ki}-\hat{x}_{ki}\) y \[ \begin{aligned} \hat{x}_{ji} &= \hat\alpha_j + \sum_{s\in S}{\hat\beta_sx_{si}}\\ \hat{x}_{ki} &= \hat\alpha_k + \sum_{s\in S}{\hat\gamma_sx_{si}} \end{aligned} \]

Medidas de co-variabilidad y correlación

Varianza generalizada: \[V_G=\mid S\mid\]

Varianza total: \[ V_T=\text{tr}\left(S\right)={\displaystyle \sum_{j=1}^{p}}s_{j}^{2} \]

Medidas de co-variabilidad y correlación

Coeficiente de correlación de rangos: \[ r_{jk} = \frac{\sum_{i=1}^n\sum_{l=1}^n a_{j,il}b_{k,il}}{\sqrt{\sum_{i=1}^n\sum_{l=1}^n a_{j,il}^2 \sum_{i=1}^n\sum_{l=1}^n b_{k,il}^2}}, \ \ -1\le r_{jk} \le 1, \]
donde \(a_{j,il}\) y \(b_{k,il}\) son score para las variables \(j\) y \(k\), respectivamente, tales que \(a_{j,il}=-a_{j,li}\), \(b_{k,il}=-b_{k,li}\) y \(a_{j,ii} = b_{k,ii} = 0\).

Medidas de co-variabilidad y correlación

Coeficiente de correlación de Spearman :

Se definen \(a_{j,il}\) y \(b_{k,il}\) como \[ \begin{aligned} a_{j,il} &= u_{j,l} - u_{j,i} \\ b_{k,il} &= v_{k,l} - v_{k,i} \end{aligned} \] donde \(u_{j,i}\) y \(v_{k,i}\), \((i=1,2,...,n)\), corresponden a los rangos de los valores observados de las variables \(j\) y \(k\), respectivamente.

Medidas de co-variabilidad y correlación

Coeficiente de correlación de Kendall :

Se calculan \(a_{j,il}\) y \(b_{k,il}\) como \[ \begin{aligned} a_{j,il} &= sgn(u_{j,l} - u_{j,i}) \\ b_{k,il} &= sgn(v_{k,l} - v_{k,i}) \end{aligned} \] donde \(u_{j,i}\) y \(v_{k,i}\), \((i=1,2,...,n)\), corresponden a los rangos de los valores observados de las variables \(j\) y \(k\), respectivamente.

Medidas de co-variabilidad y correlación

Covarianza de distancia: sean \(\boldsymbol{x}_i\), y \(\boldsymbol{y}_i\), \(i=1,2,...,n\), \(n\) vectores de valores observados de las variables \(X\in \mathbb{R}^p\) y \(Y\in \mathbb{R}^q\), \[ cov_d(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sqrt{\sum_{i=1}^n\sum_{k=1}^n A_{ik}B_{ik}}, \] donde \[ \begin{aligned} a_{ik}=\mid\mid \boldsymbol{x}_i-\boldsymbol{x}_k \mid\mid ~ ; \quad b_{ik}=\mid\mid \boldsymbol{y}_i-\boldsymbol{y}_k \mid\mid \end{aligned} \] y \[ \begin{aligned} A_{ik}=a_{jk}-\bar{a}_{i\cdot}-\bar{a}_{\cdot k} + \bar{a}_{\cdot\cdot} \\ B_{ik}=b_{jk}-\bar{b}_{i\cdot}-\bar{b}_{\cdot k} + \bar{b}_{\cdot\cdot} \end{aligned} \]

Medidas de co-variabilidad y correlación

Correlación de distancia: \[ cor_d(\boldsymbol{x},\boldsymbol{y}) = \frac{cov_d(\boldsymbol{x},\boldsymbol{y})}{\sqrt{var_d(\boldsymbol{x})var_d(\boldsymbol{y})}}, \] con \(var_d(\boldsymbol{x})=cov_d(\boldsymbol{x},\boldsymbol{x})\)

Medidas de co-variabilidad y correlación

Use la matriz de covarianzas para resumir la variabilidad y la asociación lineal conjunta entre variables cuando interesa conservar sus escalas originales.
Use la matriz de correlaciones para resumir la asociación lineal conjunta entre variables cuando sus escalas difieren o interesa compararlas en forma estandarizada.
Use las correlaciones parciales para medir la asociación lineal entre dos variables controlando el efecto de las demás, cuando interesa distinguir relaciones directas de asociaciones inducidas por otras variables.
Use la varianza generalizada para resumir la dispersión global multivariada cuando interesa cuantificar el volumen de variación conjunta de las variables.

Medidas de co-variabilidad y correlación

Use la varianza total para resumir la dispersión global multivariada cuando interesa cuantificar la variabilidad total acumulada de las variables, entendida como la suma de sus varianzas.
Use el coeficiente de correlación de Spearman para medir la asociación monótona entre dos variables cuando la relación no es necesariamente lineal o los datos contienen asimetría, atípicos o nivel de medición ordinal.
Use el coeficiente de correlación de Kendall para medir la asociación monótona entre dos variables cuando interesa una medida basada en concordancias y discordancias, especialmente útil con datos ordinales, muestras pequeñas o empates.
Use la correlación de distancia para medir la intensidad de la dependencia entre dos variables o dos grupos de variables, incluso si la relación no es lineal; vale cero si y solo si son independientes.

La distribución normal multivariada

Un vector aleatorio \(\boldsymbol{X}\) \(\left(p\times1\right)\) tiene distribución normal multivariada, \(\boldsymbol{X}\sim N_{p}\left(\boldsymbol{\mu},\Sigma\right)\), si su función de densidad de probabilidad (fdp) está dada por \[ f_{\boldsymbol{X}}\left(\boldsymbol{x}\right)=\frac{1}{\left(2\pi\right)^{p/2}\left|\Sigma\right|^{1/2}}\exp\left\{ -\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^{\top}\Sigma^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right\},~~ \boldsymbol{x}\in \mathbb{R}^p, \] donde

\(E\left(\boldsymbol{X}\right)=\boldsymbol{\mu}\in\mathbb{R}^{p}\), es el vector de medias de \(\boldsymbol{X}\)
\(Cov\left(\boldsymbol{X}\right)=E\left(\boldsymbol{X}^2\right)-E^2\left(\boldsymbol{X}\right)\) \(=\Sigma\succeq 0\), \(\left(\Sigma=\Sigma^\top\right)\), es la matriz de covarianzas de \(\boldsymbol{X}\).

La distribución normal multivariada

Por ejemplo, el vector aleatorio \(\boldsymbol{X}\), tal que \[ \boldsymbol{X}\sim N_2\left(\boldsymbol{\mu}, \Sigma\right) \] con

\[ \boldsymbol{\mu} = \left[\begin{array}{c} 3.0\\ 1.0\\ \end{array}\right], \ \ \ \ \Sigma = \left[\begin{array}{rr} 2.0 & -1.5\\ -1.5 & 3.0\\ \end{array}\right] \]

La distribución normal multivariada

Función de densidad de probabilidad

Contornos de la distribución

La distribución normal multivariada

Asimetría y curtosis: \[ \begin{aligned} b_{1,p} &=\frac{1}{n^{2}}\sum_{i=1}^{n}\sum_{l=1}^{n}\left[\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{\top}S^{-1}\left(\boldsymbol{x}_{l}-\bar{\boldsymbol{x}}\right)\right]^{3}\quad\text{(asimetría)}\\ b_{2,p} &=\frac{1}{n}\sum_{i=1}^{n}\left[\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)^{\top}S^{-1}\left(\boldsymbol{x}_{i}-\bar{\boldsymbol{x}}\right)\right]^{2}\quad\qquad\text{(curtosis)} \end{aligned} \] Se espera que en el caso de una distribución normal \(b_{1,p}=0\) (simétrica) y \(b_{2,p}=p\left(p+2\right)\) (mesocúrtica).

La distribución normal multivariada

Gráfico cuantil-cuantil multivariado: para cada individuo se calcula \[ d_{i}^2=\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right)^{\top}S^{-1}\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right),\ \ i=1,2,...,n, \] que bajo el supuesto de normalidad multivariada, sigue una distribución \(\chi^2_{p-1}\). Luego, se calculan los estadísticos de orden \(d_{(1)}^2,d_{(2)}^2,...,d_{(n)}^2\).

A continuación, se deben encontrar los valores \(q_i\), \(i=1,2,...,n\), tales que \[ Pr\left(\chi_{p-1}^2\le q_i\right) = {{i-0.5}\over{n}}, \ \ i=1,2,...,n \]

Finalmente, se grafica la nube de puntos conformada por las parejas \(\left(q_i,d_{(i)}^2\right)\), y se agrega la línea \(d_{(i)}^2 = a + bq_i\) que “mejor” se ajusta a la nube de puntos.

La distribución normal multivariada

Prueba de Mardia: estamos interesados en constrastar las hipótesis \[ \begin{aligned} H_0&:\text{los datos provienen de una distribución normal multivariada}\\ H_a&:\text{los datos no provienen de una distribución normal multivariada} \end{aligned} \] Se calculan las estadísticas \[ \begin{aligned} Z_{1} &=\frac{n\left(p+1\right)\left(n+1\right)\left(n+3\right)}{6\left[n\left(n+1\right)\left(p+1\right)-6\right]}b_{1,p}\\ Z_{2} &=\frac{b_{2,p}-p\left(p+2\right)}{\sqrt{8p\left(p+2\right)/n}} \end{aligned} \] donde, bajo \(H_0\), \(Z_1\sim\chi_{p\left(p+1\right)\left(p+2\right)/6}^{2}\) y \(Z_2 \sim N\left(0,1\right)\), para así, rechazar la hipótesis de normalidad multivariada al nivel de significancia \(\alpha\) en términos de asimetría si \(Z_{1}\ge\chi_{\alpha,p\left(p+1\right)\left(p+2\right)/6}^{2}\) o de curtosis si \(\left|Z_{2}\right|\ge Z_{\alpha/2}\).

La distribución normal multivariada

Otras pruebas de normalidad multivariada:

test de Henze-Zirkler
test de Royston (extensión del test de Shapiro-Wilk)
test de Doornik-Hansen
test de Energía

La distribución normal multivariada

Detección de datos atípicos:

Basado en el cuadrado de la distancia de Mahalanobis muestral para cada individuo, \[ d_{i}^2=\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right)^{\top}S^{-1}\left(\boldsymbol{X}_{i}-\bar{\boldsymbol{X}}\right),\ \ i=1,2,...,n, \] la cual, bajo el supuesto de normalidad multivariada, se puede asumir sigue una distribución \(\chi_{p-1}^2\).

Por tanto, se pueden identificar individuos atípicos multivariados en el conjunto de datos al comparar los valores de \(d^2_{i}\) con un cuantil “grande” de la distribución \(\chi^2_{p-1}\), por ejemplo \(\chi^2_{0.025,p}\).

Gráficos para datos multivariados

Gráficos de dispersión
Diagramas de caja bivariados (bagplot)
Gráficos de densidades empíricas bivariadas
Gráficos de contornos

Descripción de variables categóricas

Tabla de contingencia:

\[ \boldsymbol{N}= \left[\begin{array}{cccccc} n_{11} & n_{12} & \cdots & n_{1j} & \cdots & n_{1q}\\ n_{21} & n_{22} & \cdots & n_{2j} & \cdots & n_{2q}\\ \vdots & \vdots & & \vdots & & \vdots\\ n_{i1} & n_{i2} & \cdots & n_{ij} & \cdots & n_{iq}\\ \vdots & \vdots & & \vdots & & \vdots\\ n_{p1} & n_{p2} & \cdots & n_{pj} & \cdots & n_{pq} \end{array}\right]_{\left(p\times q\right)}, \] donde \(n_{ij}\) corresponde el número de individuos en las categorías \(i=1,2,...,p\) y \(j=1,2,...,q\) de las variables categóricas representadas en las filas y columnas de la tabla, respectivamente.

Descripción de variables categóricas

Frecuencias condicionales fila: \[ \boldsymbol{P_f}= \left[\begin{array}{cccccc} p_{11\mid1} & p_{12\mid1} & \cdots & p_{1j\mid1} & \cdots & p_{1q\mid1}\\ p_{21\mid2} & p_{22\mid2} & \cdots & p_{2j\mid2} & \cdots & p_{2q\mid2}\\ \vdots & \vdots & & \vdots & & \vdots\\ p_{i1\mid i} & p_{i2\mid i} & \cdots & p_{ij\mid i} & \cdots & p_{iq\mid i}\\ \vdots & \vdots & & \vdots & & \vdots\\ p_{p1\mid p} & p_{p2\mid p} & \cdots & p_{pj\mid p} & \cdots & p_{pq\mid p} \end{array}\right]_{\left(p\times q\right)}, \] donde \(p_{ij\mid i}=n_{ij}/n_{i\cdot}\), con \(n_{i\cdot} = \sum_{j=1}^q n_{ij}\), es la proporción de individuos en la categoría \(i\)-ésima de la variable fila. Similarmente, se pueden calcular las frecuencias condicionales columna.

Descripción de variables categóricas

Prueba de independencia:

Se quiere probar la independencia (\(H_{0}\)) entre un par de variables categóricas
Se calcula la estadística chi-cuadrado, \[ \chi^{2}=\sum_{i=1}^{p}\sum_{j=1}^{q}\frac{\left(n_{ij}-E_{ij}\right)^{2}}{E_{ij}}\overset{\text{ind}}{\sim}\chi_{\left(p-1\right)\left(q-1\right)}^{2}, \] donde \(E_{ij}=n_{i\cdot}n_{\cdot j}/n\), con \(n=\sum_{i=1}^p\sum_{j=1}^q n_{ij}\), es el número esperado de individuos bajo independencia
Se rechaza \(H_{0}\), al nivel de significancia \(\alpha\) si \(\chi^{2}>\chi_{\alpha,\left(p-1\right)\left(q-1\right)}^{2}\).

Descripción de variables categóricas

Medidas de asociación:

Coeficiente de Contingencia \((C)\):

\[ C = \sqrt{\frac{k}{k-1}\frac{\chi^2}{n+\chi^2}},\ \ 0\le C \le 1, \] con \(k=\min\{p,q\}\).

Coeficiente \(V\) de Crámer:

\[ V = \sqrt{\frac{\chi^2}{n(k-1)}},\ \ 0\le V\le 1 \]

Descripción de variables categóricas

Use el coeficiente de contingencia para resumir la intensidad global de asociación entre dos variables categóricas en una tabla de contingencia, teniendo en cuenta que su valor máximo depende del tamaño de la tabla.
Use el coeficiente V de Cramér para medir la intensidad de la asociación entre dos variables categóricas en una tabla de contingencia, cuando se requiere una medida estandarizada comparable entre tablas de distinto tamaño.

Descripción de datos faltantes

Estructura de los datos faltantes en la matriz de datos: cómo se ubican los datos faltantes en la matriz de observaciones y variables, considerando su distribución general, concentración y localización.
Magnitud de los datos faltantes y pérdida de información: cantidad de datos faltantes a nivel global, por variable y por unidad.
Patrones de datos faltantes en estructuras multivariadas: configuración conjunta de la ausencia entre variables, identificando combinaciones recurrentes y formas estructuradas de falta.

Descripción de datos faltantes

Mecanismos de datos faltantes:
- Faltantes completamente aleatorios (MCAR): la probabilidad de que un dato falte no depende ni del valor faltante ni de las variables observadas.
- Faltantes aleatorios (MAR): la probabilidad de que un dato falte puede depender de variables observadas, pero no del valor faltante una vez condicionadas esas variables.
- Faltantes no aleatorios (MNAR): la probabilidad de que un dato falte depende del propio valor faltante, incluso después de considerar las variables observadas.