Análisis Multivariado de Datos

Métodos de Reducción de Dimensionalidad

Mario José Pacheco López

2026-04-07

Métodos de reducción de dimensionalidad

  • Análisis de componentes principales: variables numéricas

  • Análisis de correspondencias simple y múltiple: variables categóricas

  • Análisis factorial de datos mixtos: mixtura de variables

  • Análisis de correlación canónica: relación entre grupos de variables

  • Análisis factorial exploratorio y confirmatorio: identificación y validación de factores latentes

Análisis de componentes principales

Descomposición en valores singulares

Dada \(\boldsymbol{X}_{(n\times p)}\) estandarizada y ponderada por \(\boldsymbol{Z}_{(n\times p)}\), con elementos \[ z_{ij}=\frac{1}{\sqrt{n-1}}\frac{x_{ij}-\bar{x}_{j}}{s_{x_{j}}}, \] y \(\boldsymbol{Z}^{\top}\boldsymbol{Z}=R_{x}\). El ACP se basa en la descomposición en valores singulares \[ \boldsymbol{Z}=\boldsymbol{P}\boldsymbol{\Delta}\boldsymbol{Q}^{\top}, \] con \(\boldsymbol{P}_{(n\times p)}\) y \(\boldsymbol{Q}_{(p\times p)}\) las matrices de vectores propios de \(\boldsymbol{Z}\boldsymbol{Z}^{\top}\) y \(\boldsymbol{Z}^{\top}\boldsymbol{Z}\), respectivamente, asociadas a los valores propios (\(\lambda_1\ge \lambda_2\ge...\ge \lambda_p\)), distintos de cero, de ambas matrices, \(\boldsymbol{Z}^{\top}\boldsymbol{Z}\) y \(\boldsymbol{Z}\boldsymbol{Z}^{\top}\); y \(\boldsymbol{\Delta}_{(p\times p)}=diag\{\lambda_1^{1/2},\lambda_s^{1/2},...,\lambda_p^{1/2}\}\). Además, \(\boldsymbol{P}^{\top}\boldsymbol{P}=\boldsymbol{Q}^{\top}\boldsymbol{Q}=\boldsymbol{I}_p\) y \[ \begin{aligned} \boldsymbol{Z}^\top \boldsymbol{Z} &= \boldsymbol{Q}\boldsymbol{\Delta^2}\boldsymbol{Q}^\top\\ \boldsymbol{Z} \boldsymbol{Z}^\top &= \boldsymbol{P}\boldsymbol{\Delta^2}\boldsymbol{P}^\top \end{aligned} \]

Matriz de componentes principales

Se calcula como la proyección de los individuos en \(\boldsymbol{Z}\) sobre \(\mathbb{R}^p\) en la dirección de los vectores propios en \(\boldsymbol{Q}\), \[ \boldsymbol{F}= \boldsymbol{ZQ}, \] con elementos \[ f_{ik} = \sum_{j=1}^p z_{ij}q_{jk} = z_{i1}q_{1k} + z_{i2}q_{2k} + \cdots + z_{ip}q_{pk} \] Además, \(\boldsymbol{F} = \boldsymbol{P\Delta}\), con elementos \(f_{ik} = p_{ik}q_{kk}\), y \[ \boldsymbol{F}^{\top}\boldsymbol{F}=(\boldsymbol{P\Delta})^\top\boldsymbol{P\Delta}=\boldsymbol{\Delta}^\top \boldsymbol{\Delta} =\boldsymbol{\Delta}^{2}. \]

Reconstrucción de la matriz de datos

La matriz de datos \(\boldsymbol{Z}\) se puede calcular como \[ \boldsymbol{Z} = \boldsymbol{F}\boldsymbol{Q}^\top \]

Nos interesa reducir la dimesionalidad de los datos empleando las \(q<p\) primeras componentes principales asociadas a los \(q\) primeros, y más grandes, valores propios. De esta forma, \[ \hat{\boldsymbol{Z}} = \hat{\boldsymbol{F}}\hat{\boldsymbol{Q}}^\top, \] con \(\hat{\boldsymbol{F}}_{(n\times q)}\) y \(\hat{\boldsymbol{Q}}_(p\times q)\), las matrices \(\boldsymbol{F}\) y \(\boldsymbol{Q}\) luego de eliminar sus últimas \(p-q\) columnas.

Varianza y covarianza entre componentes

Varianza de cada componente principal: \[ var\left(\boldsymbol{f}_{k}\right) = \frac{\boldsymbol{f}^\top_k\boldsymbol{f}_k}{n-1} = \frac{\sum_{i=1}^n f_{ik}^2}{n-1} = \frac{\lambda_k}{n-1}, \] dado que \[ \bar{\boldsymbol{f}}_k = \frac{1}{n}\sum_{i=1}^n\sum_{j=1}^pZ_{ij}q_{jk} = \frac{1}{n}\sum_{j=1}^p q_{jk}\sum_{i=1}^nZ_{ij} = 0 \]

Covarianza entre dos componentes principales: \[ cov\left(\boldsymbol{f}_{k},\boldsymbol{f}_{l}\right) = \frac{\boldsymbol{f}^\top_k\boldsymbol{f}_l}{n-1} = \frac{\sum_{i=1}^n f_{ik}f_{il}}{n-1} = 0, \ \ k\ne l, \]

Correlaciones entre componentes y variables

Matriz de correlaciones entre componentes y variables: \[ R_{\boldsymbol{f}_{k}\boldsymbol{z}_j} = \{r_{kj}\}_{k,j=1,2,...,p}, \] donde \[ \begin{aligned} r_{kj} &=cor\left(\boldsymbol{f_k},\boldsymbol{z_j}\right)\\ &= \frac{\sum_{i=1}^n{f_{ik}z_{ij}}}{\sqrt{(\lambda_k)(1)}}= \frac{\sum_{i=1}^n{f_{ik}\sum_{l=1}^p f_{il}q_{jl}}}{\sqrt{\lambda_k}}\\ &= \frac{\sum_{i=1}^n{f_{ik}^2q_{jk}}}{\sqrt{\lambda_k}}=\frac{\lambda_k q_{jk}}{\sqrt{\lambda_k}}\\ &=q_{jk}\sqrt{\lambda_k} \end{aligned} \]

Representación de las variables

Con las parejas de correlaciones \(\left(r_{kj},r_{lj}\right)\), \(j=1,2,...,p\), podemos realizar el gráfico de representación de las variables en el plano principal conformado por las componentes \(k\) y \(l\).

  • Permite observar aquellas variables mejor representadas

  • Permite examinar las relaciones entre variables y componentes

  • Permite examinar las relaciones entre variables

Cosenos cuadrados

El cuadrado de las correlaciones entre cada componente principal \(k\) y cada variable \(j\), \(r_{kj}^2\), se denomina coseno cuadrado de las variables, \(cos_{kj}^2\). Estos tienen la propiedad \[ \sum_{k=1}^p cos_{kj}^2 = \sum_{k=1}^p r_{kj}^2 = \sum_{k=1}^p q_{jk}^2\lambda_k=1, \] dado que \(\sum_{k=1}^p q_{jk}^2\lambda_k\) son los elementos en la diagonal de la matriz \[ \boldsymbol{Q}\boldsymbol{\Delta^2}\boldsymbol{Q}^\top=\boldsymbol{Z}^\top \boldsymbol{Z}=R_x, \] y pueden ser interpretados como la fracción de la varianza de la variable \(j\)-ésima explicada por la componente \(k\)-ésima. Una variable con un coseno cuadrado mayor a 30% generalmente se asume que está bien representada en la componente correspondiente.

Contribuciones

La contribución de una variable \(j\)-ésima sobre una componente \(k\)-ésima se calcula como \[ ctr_k = \frac{r^2_{kj}}{\sum_{j=1}^p r^2_{kj}},\ \ k=1,2,...,p, \] Una variable con una contribución mayor a \(1/p\) generalmente se asume que tiene una buena contribución a la componente correspondiente.

Inercia

Dado que \(\lambda_1,\lambda_2,...,\lambda_p\) son los valores propios de \(\boldsymbol{Z}^\top\boldsymbol{Z}=R_x\), entonces \[ \sum_{j=1}^p \lambda_j = tr\left(\boldsymbol{Z}^\top\boldsymbol{Z}\right) = p \] que correponde a la varianza total de \(\boldsymbol{Z}\). De esta forma, se define la inercia, o porcentaje de la varianza total explicada por cada componente, como \[ \mathcal{I}_k = \frac{\lambda_k}{p}\times 100\%,\ \ k=1,2,...,p. \]

Para explicar la estructura de asociación entre las variables podemos seleccionar un número de componentes que satisfaga un porcentaje de inercia deseado. Adicional a este criterio, para seleccionar el número de componentes, se pueden considerar aquellas componentes con valores propios mayores que uno.

Validación cruzada

  • Consiste en comparar los valores observados en \(Z_{ij}\) con los valores estimados \(\hat{Z}^{(k)}_{ij}\) cuando se reduce la dimensionalidad empleando las \(k\) primeras componentes principales, \(\hat{\boldsymbol{Z}}= \hat{\boldsymbol{F}}\hat{\boldsymbol{Q}}^\top\).

  • Luego se escoge el número óptimo de componentes como el valor de \(k\) que minimiza el error cuadrático medio de predicción \[ ECMP(k) = \frac{1}{np}\sum_{i=1}^n\sum_{j=1}^p\left(Z_{ij}-\hat{Z}^{(k)}_{ij}\right)^2 \]

Construcción de indicadores

Es posible emplear las \(k\) primeras componentes como indicadores o rankings que resuman el comportamiento de las variables. Generalmente cada componente se lleva a una escala 0-1 para hacer más fácil su interpretación.

Un procedimiento sencillo se basa en buscar valores extremos \(a\) y \(b\) para cada \(\boldsymbol{f}_k\) y convertir cada componente en un indicador \(I_{k}\), con elementos \[ I_{ik} = \frac{f_{ik}-a}{b-a}, \] con \(a=\text{mín}\{f_{(1)k},Q_1-\alpha RIC\}\), \(b=\text{máx}\{Q_3+\alpha RIC,f_{(n)k}\}\), \(Q_1\) y \(Q_3\) los cuartiles 0.25 y 0.75 de \(\boldsymbol{f}_k\), \(RIC=Q_3-Q_1\) y \(\alpha = 1.5, 3.0, 5.0,...\). Un valor de 0 o 1 en el indicador sugiere individuos atípicos o extremos.

Detección de datos atípicos

Calculamos la suma de cuadrados de las primeras \(p_1\) componentes estandarizadas. \[ d^2_{1i} = (n-1)\sum^{p_1}_{k=1}\frac{f^2_{ik}}{\lambda},\ \ i=1,2,...,n \]

Una observación atípica se puede identificar como aquella con un valor de \(d^2_{1i}\) muy grande en relación al resto, comparando los valores de la estadística \(d^2_{1i}\) para \(p_1=k\) con su cuantil empiríco del 95%.

Detección de datos atípicos

El análisis de las últimas componentes principales puede ayudar a revelar aquellas perturbaciones atípicas que no son captadas por las primeras componentes.

Una estadística para la identificación de observaciones atípicas multivariadas consiste en la suma de cuadrados de los valores estandarizados de las últimas \(q\) \((q<p)\) componentes principales, \[ d^2_{2i} = (n-1)\sum^p_{k=p-q+1}\frac{f^2_{ik}}{\lambda},\ \ i=1,2,...,n. \]

Valores muy grandes de la estadística sugieren observaciones atípicas dentro del conjunto de datos.

Métodos alternativos

  • Estimación robusta de la matriz de covarianzas y, por tanto, de la matriz de correlaciones

  • Análisis de componentes principales mediante Projection-Pursuit.

  • Análisis de componentes principales con kernels

Datos faltantes

  • Existen diferentes alternativas para el tratamiento de datos faltantes en el análisis de componentes principales.

  • Una de ellas consiste en un ACP iterativo regularizado, es decir, en un método de imputación y reconstrucción de datos basado en componentes principales, que puede plantearse en versión simple o múltiple e incorpora penalización para estabilizar la estimación de la estructura subyacente de baja dimensión de los datos.

Análisis de correspondencias

Análisis de correspondencias

  • Mientras el ACP permite reducir la dimensionalidad de conjuntos de datos numéricos, el Análisis de Correspondencias permite hacerlo con variables categóricas.

  • En la literatura, suele distingirse el análisis de correspondencias cuando se tienen solo dos variables categóricas, denominado Análisis de Correspondencias Simple o simplemente Análisis de Correspondencias, o cuando se tienen más de dos variables categóricas, denominado Análisis de Correspondencias Múltiple.

Análisis de correspondencias simple

Tabla de contingencia

Considere una base de datos \(\boldsymbol{X}_{n\times p}\) con dos variables categóricas, con \(p\) y \(q\) categorías, respectivamente. Considere además, las tablas de contingencia y de frecuencias relativas asociadas a \(\boldsymbol{X}\)

\[ \begin{align*} \boldsymbol{N}_{\left(p\times q\right)} & =\left\{ n_{ij}\right\} _{\begin{array}{l} i=1,2,...,p\\ j=1,2,...,q \end{array}}\\ \\ \boldsymbol{P}_{\left(p\times q\right)} & =\left\{ p_{ij}=\frac{n_{ij}}{n}\right\} _{\begin{array}{l} i=1,2,...,p\\ j=1,2,...,q \end{array}} \end{align*} \]

Descomposición en valores singulares

El análisis de correspondencias simple se basa en la descomposición en valores singulares generalizada \[ \boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top = \boldsymbol{U}\boldsymbol{\Delta}\boldsymbol{V}^\top, \] con \(\boldsymbol{r}=\left(p_{1\cdot},p_{2\cdot},...,p_{p\cdot}\right)^\top\), \(\boldsymbol{c}=\left(p_{\cdot 1},p_{\cdot 2},...,p_{\cdot q}\right)^\top\), \(\boldsymbol{\Delta}\) la matriz de rango \(s=(\text{mín}\{p,q\}-1)\) de valores singulares \(\lambda_1^{1/2},\lambda_2^{1/2},..., \lambda_s^{1/2}\), y \(\boldsymbol{U}\) y \(\boldsymbol{V}\) las matrices de vectores propios generalizados ortogonales bajo las restricciones impuestas por \(\boldsymbol{D}^{-1}_r\) y \(\boldsymbol{D}^{-1}_c\), esto es \[ \boldsymbol{U}^\top \boldsymbol{D}^{-1}_r\boldsymbol{U} = \boldsymbol{V}^\top \boldsymbol{D}^{-1}_c\boldsymbol{V} = \boldsymbol{I}, \] donde \(\boldsymbol{D}_r=diag\left(\boldsymbol{r}\right)\) y \(\boldsymbol{D}_c=diag\left(\boldsymbol{c}\right)\).

Representación de las modalidades

A partir de la descomposición anterior, se calculan los score de representación de las modalidades fila y columna de la tabla de contingencias como \[ \begin{aligned} \boldsymbol{F} &= \boldsymbol{D}^{-1}_r\boldsymbol{U\Delta} \\ \boldsymbol{G} &= \boldsymbol{D}^{-1}_c\boldsymbol{V\Delta} \end{aligned} \] con \(\boldsymbol{F}^\top \boldsymbol{D}_r\boldsymbol{F} = \boldsymbol{G}^\top \boldsymbol{D}_c\boldsymbol{G} = \boldsymbol{\Delta}^2\).

Cosenos cuadrados

La importancia de una dimensión \(k\) para la fila \(i\) y la columna \(j\) de la tabla de contingencias está dada por los cosenos cuadrados asociados a las filas y columnas \[ \begin{aligned} cos^2_{ki} &= \frac{f^2_{ik}}{\sum^s_{k=1}f^2_{ik}}\\ cos^2_{kj} &= \frac{g^2_{jk}}{\sum^s_{k=1}g^2_{jk}} \end{aligned} \] respectivamente.

Contribuciones

Por su parte, las contribuciones de la fila \(i\) y la columna \(j\) a cada dimensión \(k\) están dadas por \[ \begin{aligned} ctr_{ki} &= \frac{f^2_{ik}}{\sum^p_{i=1}f^2_{ik}}\\ ctr_{kj} &= \frac{g^2_{jk}}{\sum^q_{j=1}g^2_{jk}} \end{aligned} \]

Inercia

La inercia explicada por cada dimensión se calcula como el cociente \[ \mathcal{I}_k = \frac{\lambda_k}{\sum^s_{k=1} \lambda_k}\times 100\%,\ \ k=1,2,...,s. \] donde \[ \begin{aligned} \sum^s_{k=1} \lambda_k &= tr\left(\boldsymbol{D}^{-1/2}_c\left(\boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top \right)^\top \boldsymbol{D}^{-1}_c \left(\boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top \right)\boldsymbol{D}^{-1/2}_c\right) \\ &= \sum_{i=1}^{p}\sum_{j=1}^{q}\frac{\left(p_{ij}-r_ic_j\right)^{2}}{r_ic_j} = \frac{\chi^2}{n}, \end{aligned} \] por lo que el porcentaje de inercia es a su vez el porcentaje de la dependencia entre las variables explicado por cada dimensión.

Análisis de correspondencias múltiple

Análisis de correspondencias múltiple

  • Extensión del análisis de correspondencias simple a más de dos variables categóricas

  • Considere una base de datos con más de dos variables categóricas en un arreglo matricial con \(n\) filas y \(p\) columnas, donde cada variable tiene \(q_j\) modalidades (\(\sum^p_{j=1}q_j=q\))

  • Calculamos la matriz indicadora o disyuntiva completa \(\boldsymbol{Z}\) con elementos \(z_{il_j} = 1\) si el individuo \(i\) selecciona la categoría \(l\) de la variable \(j\) o \(z_{il_j} = 0\) en otro caso (\(i = 1,2,...,n\), \(j=1,2,...,p\), \(l_j = 1,2,...,q_j\))

Descomposición en valores singulares

  • Se calcula la matriz de probabilidad \(\boldsymbol{Y}=n^{-1}\boldsymbol{Z}\) y los vectores de totales de filas \(\boldsymbol{r}=\boldsymbol{Y1}_q\) y de columnas \(\boldsymbol{c}=\boldsymbol{Y^\top 1}_n\).

  • El análisis de correspondencias múltiple se basa en la descomposición en valores singulares \[ \boldsymbol{D}^{-1/2}_r\left(\boldsymbol{Y}-\boldsymbol{rc}^\top\right)\boldsymbol{D}^{-1/2}_c = \boldsymbol{U\Delta V}^\top, \] con \(\boldsymbol{D}_r = diag(\boldsymbol{r})\) y \(\boldsymbol{D}_c = diag(\boldsymbol{c})\).

  • Los score de representación de los individuos y las modalidades de las variables se calculan como \[ \begin{aligned} \boldsymbol{F} &= \boldsymbol{D}^{-1/2}_r \boldsymbol{U\Delta} \\ \boldsymbol{G} &= \boldsymbol{D}^{-1/2}_c \boldsymbol{V\Delta} \end{aligned} \] respectivamente.

Matriz de Burt

La matriz de Burt \[ \boldsymbol{B} = \boldsymbol{Z}^\top\boldsymbol{Z}, \] que contiene todas las tablas de contingencia posibles entre las variables categóricas, juega un papel fundamental en el análisis de correspondencias múltiple, debido a que un AC sobre la matriz de Burt da los mismos factores que el análisis sobre \(Y\) pero con valores propios que aproximan mejor la inercia explicada por los factores que los valores propios asociados a \(Y\).

Análisis factorial de datos mixtos

Análisis factorial de datos mixtos

  • El Análisis Factorial de Datos Mixtos es una técnica diseñada para analizar conjuntos de datos que contienen variables tanto cuantitativas como categóricas.

  • A diferencia del ACP y del AC, que solo pueden manejar un tipo de variable, el AFDM es capaz de capturar la información presente en ambos tipos de variables, proporcionando una visión más completa de la estructura de los datos.

Conjunto de datos

  • Considere la matriz de datos \(\boldsymbol{X}_{n\times p}\) con \(p_1\) variables cuantitativas y \(p_2\) variables categóricas \((p = p_1+p_2)\)

  • Sea \(k_j\), \(j=1,2,...,p_2\), el número de modalidades de cada variable categórica y \(m = \sum_{j=1}^{p_2} k_j\) el número total de modalidades en las variables categóricas

  • Sea \(\boldsymbol{G}\) la matriz indicadora asociada a las \(p_2\) variables categóricas, con elementos \(g_{il_j} = 1\) si el individuo \(i\) selecciona la categoría \(l\) de la variable \(j\) o \(z_{il_j} = 0\) en otro caso (\(i = 1,2,...,n\), \(j=1,2,...,p_2\), \(l_j = 1,2,...,k_j\))

Construcción de la matriz de análisis

Variables cuantitativas: \[ z_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j}, \quad s_j^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_{ij} - \bar{x}_j)^2, \quad j=1,2,...,p_1 \]

Variables cualitativas: \[ z^*_{il_j} = \frac{g_{il_j} - f_{l_j}}{\sqrt{f_{l_j}}}, \quad f_{l_j} = \frac{1}{n} \sum_{i=1}^n g_{i{l_j}}, \quad j=1,2,...,p_2 \]

Matriz de análisis \[ \boldsymbol{Z} = [\boldsymbol{Z}_{p_1} \mid \boldsymbol{Z}_m] \in \mathbb{R}^{n \times (p_1 + m)} \]

Descomposición en valores singulares

  • Se realiza la descomposición \[ \boldsymbol{Z} = \boldsymbol{P} \boldsymbol{\Delta} \boldsymbol{Q}^\top \]

  • Los score de representación de los individuos se calculan como \[ \boldsymbol{F} = \boldsymbol{Z} \boldsymbol{Q} = \boldsymbol{P} \boldsymbol{\Delta}, \] con \[ f_{ik} = \sum_{j=1}^{p_1 + m} z_{ij} q_{jk} \]

Variables cuantitativas

Correlación con eje \(k\): \[ r_{jk} = \operatorname{cor}(x_j, \boldsymbol{f}_k) = \sqrt{\lambda_k} q_{jk} \]

Coseno cuadrado: \[ \cos^2_{jk} = r_{jk}^2 = \lambda_k q_{jk}^2 \]

Contribución: \[ ctr_{jk} = \frac{r_{jk}^2}{\sum_{j=1}^{p_1} r_{jk}^2} \]

Modalidades cualitativas

Cada modalidad \(l_j\) se representa por su centroide: \[ g_{l_j k} = \frac{1}{n_{l_j}} \sum_{i: g_{il_j} = 1} f_{ik} \]

Cosenos cuadrados: \[ \cos^2_{l_j k} = \frac{g_{l_j k}^2}{\sum_{j=1}^r g_{l_j j}^2} \]

Contribuciones: \[ ctr_{l_j k} = \frac{n_{l_j}}{n} \frac{g_{l_j k}^2}{\lambda_k} \]

Inercia total y explicada

Sea \(s\) el número de valores propios mayores que cero, la inercia total se calcula como \[ \sum_{k=1}^{s} \lambda_k = \operatorname{tr}(\boldsymbol{Z}^\top \boldsymbol{Z}) \]

Así, el porcentaje de inercia explicado por cada dimensión es \[ \mathcal{I}_k = \frac{\lambda_k}{\sum_{j=1}^s \lambda_j} \times 100\% \]

Análisis de correlación canónica

Análisis de correlación canónica

El propósito del Análisis de Correlación Canónica (ACC) es estudiar las relaciones lineales entre dos conjuntos de variables \(\mathbf{X}\) y \(\mathbf{Y}\) observadas sobre el mismo conjunto de individuos, construyendo combinaciones lineales —una por cada grupo de variables— con la mayor correlación posible.

Combinaciones lineales

Dadas \(\mathbf{X}_c \in \mathbb{R}^{n \times p}\) y \(\mathbf{Y}_c \in \mathbb{R}^{n \times q}\), matrices de observaciones centradas respecto al promedio de cada variable, el objetivo es construir combinaciones lineales \[ u_k = \mathbf{X}_c \mathbf{a}_k \quad \text{y} \quad v_k = \mathbf{Y}_c \mathbf{b}_k, \] donde \(\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_r \in \mathbb{R}^p\) y \(\mathbf{b}_1, \mathbf{b}_2, \dots, \mathbf{b}_r \in \mathbb{R}^q\), tales que

  • \(\operatorname{Cor}(u_k, v_k) = \rho_k\) sea máxima

  • \(\operatorname{Cov}(u_k, u_j) = \operatorname{Cov}(v_k, v_j) = \operatorname{Cov}(u_k, v_j) = 0\) para todo \(j < k\)

  • \(\operatorname{Var}(u_k) = \operatorname{Var}(v_k) = 1\)

Descomposición en valores singulares

Dada la matriz de correlación cruzada entre los conjuntos de datos \(\mathbf{X}\) y \(\mathbf{Y}\)

\[ \mathbf{R} = \frac{1}{n - 1} \mathbf{Z}_X^\top \mathbf{Z}_Y \in \mathbb{R}^{p \times q}, \] donde \(\mathbf{Z}_X = \mathbf{X}_c \mathbf{S}_{XX}^{-1/2}\) y \(\mathbf{Z}_Y = \mathbf{Y}_c \mathbf{S}_{YY}^{-1/2}\).

Luego, se aplica la descomposición en valores singulares de \(\mathbf{R}\),

\[ \mathbf{R} = \mathbf{U} \boldsymbol{\Lambda} \mathbf{V}^\top, \]

donde \(\mathbf{U} \in \mathbb{R}^{p \times r}\) y \(\mathbf{V} \in \mathbb{R}^{q \times r}\) son matrices ortogonales y \(\boldsymbol{\Lambda} = \operatorname{diag}(\rho_1, \dots, \rho_r) \in \mathbb{R}^{r \times r}\) contiene las correlaciones canónicas ordenadas decrecientemente \((1 \ge \rho_1 \ge \rho_2 \ge \dots \ge \rho_r \ge 0)\), con \(r = \operatorname{rango}(\mathbf{R}) \le \min(p, q)\).

Vectores y variables canónicas

  • Vectores canónicos: \[ \mathbf{a}_k = \mathbf{S}_{XX}^{-1/2} \mathbf{u}_k \quad \text{y} \quad \mathbf{b}_k = \mathbf{S}_{YY}^{-1/2} \mathbf{v}_k, \] donde \(\mathbf{u}_k\) y \(\mathbf{v}_k\) son las columnas de \(\mathbf{U}\) y \(\mathbf{V}\), respectivamente.

  • Variables canónicas: \[ u_k = \mathbf{X}_c \mathbf{a}_k = \mathbf{Z}_X \mathbf{u}_k \quad \text{y} \quad v_k = \mathbf{Y}_c \mathbf{b}_k = \mathbf{Z}_Y \mathbf{v}_k. \]

Se puede verificar que \(\operatorname{Cor}(u_k, v_k) = \rho_k\) y

\[ \operatorname{Cov}(u_k, u_j) = \operatorname{Cov}(v_k, v_j) = \operatorname{Cov}(u_k, v_j) = 0, \quad \text{para } j < k. \]

Análisis factorial

Análisis factorial

  • Los métodos factoriales buscan identificar factores subyacentes que explican las relaciones entre un conjunto de variables observadas.

  • El análisis factorial exploratorio se utiliza para descubrir esos factores sin suposiciones previas, mientras que el análisis factorial confirmatorio se emplea para verificar si una estructura de factores previamente planteada se ajusta a los datos.

Análisis factorial exploratorio

Modelo factorial

Para un vector aleatorio \(\boldsymbol{X} = \left(X_{1},X_{2},...,X_{p}\right)^{\top}\) con \(E\left(\boldsymbol{X}\right)=\mu\) y \(V\left(\boldsymbol{X}\right)=\Sigma\), el modelo factorial asume que \[ \begin{aligned} X_{1} & =\ell_{11}F_{1}+\ell_{12}F_{2}+\dots+\ell_{1m}F_{m}+\varepsilon_{1} \\ X_{2} & =\ell_{21}F_{1}+\ell_{22}F_{2}+\dots+\ell_{2m}F_{m}+\varepsilon_{2} \\ & \vdots \\ X_{p} & =\ell_{p1}F_{1}+\ell_{p2}F_{2}+\dots+\ell_{pm}F_{m}+\varepsilon_{p} \end{aligned} \] o de manera resumida \[ X_j = \sum^m_{k=1}\ell_{jk}F_k + \varepsilon_j, \ \ j=1,2,...,p. \]

Generalmente, se asume que \(\boldsymbol{X}\) es el vector de variables estandarizadas.

Modelo factorial

De forma matricial, el modelo se puede escribir de la forma \[ \boldsymbol{X}=\boldsymbol{LF}+\boldsymbol{\varepsilon} \] con \(\boldsymbol{L}\) una matriz de tamaño \(p\times m\) con coeficientes \(\ell_{jk}\), comunmente denominados como cargas o loadings, asociados a la \(j\)-ésima variable sobre el \(k\)-ésimo factor; \(\boldsymbol{F}\) es un vector de tamaño \(m\times 1\) conteniendo las variables no observables, o factores comunes, \(F_k\), y \(\boldsymbol{\varepsilon}\) es el vector de variables aleatorias \(\varepsilon_{j}\) denominados errores o factores específicos.

Sin pérdida de generalidad, se asume además que \(E\left(\boldsymbol{F}\right)=\boldsymbol{0}\), \(Cov\left(\boldsymbol{F}\right)=\boldsymbol{I}\), \(E\left(\boldsymbol{\varepsilon}\right)=\boldsymbol{0}\), \(V\left(\boldsymbol{\varepsilon}\right)=\boldsymbol{\Psi}=diag\{\psi_1\,\psi_2\,...,\psi_p\}\), y \(Cov\left(\boldsymbol{\varepsilon}, \boldsymbol{F}\right) = \boldsymbol{0}\).

Descomposición de la varianza

La matriz de covarianzas de \(\boldsymbol{\Sigma}\) se puede descomponer como \[ \boldsymbol{\Sigma}=\boldsymbol{LL}^\top+\boldsymbol{\Psi} \] y \(Cov\left(\boldsymbol{X},\boldsymbol{F}\right)=\boldsymbol{L}\), esto es \(Cov\left(X_j,F_k\right)=\ell_{jk}\).

La anterior descomposición implica que \[ \begin{aligned} \sigma^2_j &= \ell^2_{j1} + \ell^2_{j2} +\cdots +\ell^2_{jm} + \psi_j \\ &= h^2_j + \psi_j, \end{aligned} \] con \(h^2_j\) las denominadas comunalidades.

Descomposición de la varianza

La cantidad \[ SC_k = \sum^p_{j=1} \ell^2_j \] puede ser empleada como una medida de la variabilidad del conjunto de variables que es explicada por cada factor. En el caso de variables estandarizadas, se prefieren aquellos factores para los que \(SC_k>1\).

Cuando \(m << p\) el modelo factorial provee una explicación más simple de las covariaciones en \(\Sigma\). Además, para garantizar la identificabilidad, dado que el número de parámetros distintos en \(\boldsymbol{\Sigma}\) es \(p(p+1)/2\) y en \(\boldsymbol{LL}^\top+\boldsymbol{\Psi}\) es \(pm-m(m-1)/2+p\), se requiere que \(p(p+1)/2 \ge pm-m(m-1)/2+p\) y, por tanto, que \[ m\le \frac{2p+1-\sqrt{8p-1}}{2} \]

Estimación de los factores

Se quiere estimar \(\boldsymbol{L}\) y \(\boldsymbol{\Psi}\) maximizando la verosimilitud del modelo bajo el supuesto de normalidad multivariada.

La función de log-verosimilitud es \[ \ell\left(\boldsymbol{L},\boldsymbol{\Psi}\right) = -\frac{n}{2}\left(\ln{\mid 2\pi\boldsymbol{\Sigma}\mid}+tr\left(\boldsymbol{\Sigma}^{-1}\boldsymbol{S}\right)\right) \]

Se busca \[ \left(\hat{\boldsymbol{L}},\hat{\boldsymbol{\boldsymbol{\Psi}}}\right) = \arg\max_{\boldsymbol{L},\boldsymbol{\Psi}} \ell\left(\boldsymbol{L},\boldsymbol{\Psi}\right) \]

Rotaciones

Sea \(m>1\) y \(T\) una matriz orthogonal tal que \(TT^{\top}=T^{\top}T=I\), entonces \[ \begin{aligned} X &= LF+\boldsymbol{\varepsilon}\\ &= \left(LT\right)\left(F^{\top}T\right)^\top+\boldsymbol{\varepsilon}\\ & =L^{*}F^{*}+\boldsymbol{\varepsilon} \end{aligned} \] y por tanto \(\boldsymbol{\Sigma}=\boldsymbol{LL}^{\top}+\boldsymbol{\Psi}=\boldsymbol{L}^{*}\boldsymbol{L}^{*\top}+\boldsymbol{\Psi}\)

La matriz de cargas \(\boldsymbol{L}\) puede ser entonces rotada y esta rotación puede ser determinada por algún criterio que implique una interpretación más simple de los factores.

Dos de los métodos más comunes de rotación son la rotaciones varimax y promax.

Análisis factorial confirmatorio

Análisis factorial confirmatorio

El Análisis Factorial Confirmatorio (AFC) permite evaluar si los datos observados se ajustan a una estructura factorial teórica preespecificada.

Sea \(\boldsymbol{X} \in \mathbb{R}^p\) el vector de variables observadas centradas. En el modelo de AFC se asume que:

\[ \boldsymbol{X} = \boldsymbol{L} \boldsymbol{F} + \boldsymbol{\epsilon} \] donde

  • \(\boldsymbol{F}\): vector de factores latentes (dimensión \(m\))

  • \(\boldsymbol{L}\): matriz de cargas factoriales \(p \times m\)

  • \(\boldsymbol{\epsilon}\): vector de errores específicos (no correlacionados con los factores)

Supuestos

Se asume que:

  • \(\mathbb{E}[\boldsymbol{F}] = \mathbb{E}[\boldsymbol{\epsilon}] = \boldsymbol{0}\)

  • \(\text{Cov}(\boldsymbol{F}, \boldsymbol{\epsilon}) = \boldsymbol{0}\)

  • \(\text{Cov}(\boldsymbol{\epsilon}) = \boldsymbol{\Psi}\) (diagonal)

  • \(\text{Cov}(\boldsymbol{F}) = \boldsymbol{\Omega}\)

Entonces:

\[ \boldsymbol{\Sigma} = \boldsymbol{L} \boldsymbol{\Omega} \boldsymbol{L}^T + \boldsymbol{\Psi} \]

Diferencias entre AFE y AFC

Aunque comparten la misma formulación matemática básica, su diferencia radica en:

  • El AFE estima todas las cargas factoriales sin restricciones iniciales.

  • El AFC impone una estructura específica sobre \(\boldsymbol{L}\), basada en una hipótesis teórica.

Ejemplo de restricciones en AFC:

Supongamos 6 variables y 2 factores. En AFC podemos imponer:

\[ \boldsymbol{L} = \begin{bmatrix} L_{11} & 0 \\ L_{21} & 0 \\ L_{31} & 0 \\ 0 & L_{42} \\ 0 & L_{52} \\ 0 & L_{62} \\ \end{bmatrix} \]

Estimación

La estimación de los parámetros del modelo se puede realizar mediante máxima verosimilitud, bajo el supuesto de normalidad multivariada. Se debe minimizar una función de discrepancia entre la matriz de covarianzas implícita en el modelo y la matriz observada en la muestra:

\[ F_{ML} = \log |\Sigma| + \text{tr}(\Sigma^{-1}S) - \log|S| - p \]

donde \(S\) es la matriz de covarianzas.

Identificación del modelo

Para que un modelo de AFC sea estimable, debe ser identificable, lo cual implica que el número de observaciones disponibles (elementos únicos en la matriz \(S\)) debe ser al menos igual al número de parámetros libres a estimar. Además, es necesario fijar la escala de los factores, lo que se logra fijando una carga a 1 o imponiendo varianza unitaria a los factores.