Métodos de Reducción de Dimensionalidad
2026-04-07
Análisis de componentes principales: variables numéricas
Análisis de correspondencias simple y múltiple: variables categóricas
Análisis factorial de datos mixtos: mixtura de variables
Análisis de correlación canónica: relación entre grupos de variables
Análisis factorial exploratorio y confirmatorio: identificación y validación de factores latentes
Dada \(\boldsymbol{X}_{(n\times p)}\) estandarizada y ponderada por \(\boldsymbol{Z}_{(n\times p)}\), con elementos \[ z_{ij}=\frac{1}{\sqrt{n-1}}\frac{x_{ij}-\bar{x}_{j}}{s_{x_{j}}}, \] y \(\boldsymbol{Z}^{\top}\boldsymbol{Z}=R_{x}\). El ACP se basa en la descomposición en valores singulares \[ \boldsymbol{Z}=\boldsymbol{P}\boldsymbol{\Delta}\boldsymbol{Q}^{\top}, \] con \(\boldsymbol{P}_{(n\times p)}\) y \(\boldsymbol{Q}_{(p\times p)}\) las matrices de vectores propios de \(\boldsymbol{Z}\boldsymbol{Z}^{\top}\) y \(\boldsymbol{Z}^{\top}\boldsymbol{Z}\), respectivamente, asociadas a los valores propios (\(\lambda_1\ge \lambda_2\ge...\ge \lambda_p\)), distintos de cero, de ambas matrices, \(\boldsymbol{Z}^{\top}\boldsymbol{Z}\) y \(\boldsymbol{Z}\boldsymbol{Z}^{\top}\); y \(\boldsymbol{\Delta}_{(p\times p)}=diag\{\lambda_1^{1/2},\lambda_s^{1/2},...,\lambda_p^{1/2}\}\). Además, \(\boldsymbol{P}^{\top}\boldsymbol{P}=\boldsymbol{Q}^{\top}\boldsymbol{Q}=\boldsymbol{I}_p\) y \[ \begin{aligned} \boldsymbol{Z}^\top \boldsymbol{Z} &= \boldsymbol{Q}\boldsymbol{\Delta^2}\boldsymbol{Q}^\top\\ \boldsymbol{Z} \boldsymbol{Z}^\top &= \boldsymbol{P}\boldsymbol{\Delta^2}\boldsymbol{P}^\top \end{aligned} \]
Se calcula como la proyección de los individuos en \(\boldsymbol{Z}\) sobre \(\mathbb{R}^p\) en la dirección de los vectores propios en \(\boldsymbol{Q}\), \[ \boldsymbol{F}= \boldsymbol{ZQ}, \] con elementos \[ f_{ik} = \sum_{j=1}^p z_{ij}q_{jk} = z_{i1}q_{1k} + z_{i2}q_{2k} + \cdots + z_{ip}q_{pk} \] Además, \(\boldsymbol{F} = \boldsymbol{P\Delta}\), con elementos \(f_{ik} = p_{ik}q_{kk}\), y \[ \boldsymbol{F}^{\top}\boldsymbol{F}=(\boldsymbol{P\Delta})^\top\boldsymbol{P\Delta}=\boldsymbol{\Delta}^\top \boldsymbol{\Delta} =\boldsymbol{\Delta}^{2}. \]
La matriz de datos \(\boldsymbol{Z}\) se puede calcular como \[ \boldsymbol{Z} = \boldsymbol{F}\boldsymbol{Q}^\top \]
Nos interesa reducir la dimesionalidad de los datos empleando las \(q<p\) primeras componentes principales asociadas a los \(q\) primeros, y más grandes, valores propios. De esta forma, \[ \hat{\boldsymbol{Z}} = \hat{\boldsymbol{F}}\hat{\boldsymbol{Q}}^\top, \] con \(\hat{\boldsymbol{F}}_{(n\times q)}\) y \(\hat{\boldsymbol{Q}}_(p\times q)\), las matrices \(\boldsymbol{F}\) y \(\boldsymbol{Q}\) luego de eliminar sus últimas \(p-q\) columnas.
Varianza de cada componente principal: \[ var\left(\boldsymbol{f}_{k}\right) = \frac{\boldsymbol{f}^\top_k\boldsymbol{f}_k}{n-1} = \frac{\sum_{i=1}^n f_{ik}^2}{n-1} = \frac{\lambda_k}{n-1}, \] dado que \[ \bar{\boldsymbol{f}}_k = \frac{1}{n}\sum_{i=1}^n\sum_{j=1}^pZ_{ij}q_{jk} = \frac{1}{n}\sum_{j=1}^p q_{jk}\sum_{i=1}^nZ_{ij} = 0 \]
Covarianza entre dos componentes principales: \[ cov\left(\boldsymbol{f}_{k},\boldsymbol{f}_{l}\right) = \frac{\boldsymbol{f}^\top_k\boldsymbol{f}_l}{n-1} = \frac{\sum_{i=1}^n f_{ik}f_{il}}{n-1} = 0, \ \ k\ne l, \]
Matriz de correlaciones entre componentes y variables: \[ R_{\boldsymbol{f}_{k}\boldsymbol{z}_j} = \{r_{kj}\}_{k,j=1,2,...,p}, \] donde \[ \begin{aligned} r_{kj} &=cor\left(\boldsymbol{f_k},\boldsymbol{z_j}\right)\\ &= \frac{\sum_{i=1}^n{f_{ik}z_{ij}}}{\sqrt{(\lambda_k)(1)}}= \frac{\sum_{i=1}^n{f_{ik}\sum_{l=1}^p f_{il}q_{jl}}}{\sqrt{\lambda_k}}\\ &= \frac{\sum_{i=1}^n{f_{ik}^2q_{jk}}}{\sqrt{\lambda_k}}=\frac{\lambda_k q_{jk}}{\sqrt{\lambda_k}}\\ &=q_{jk}\sqrt{\lambda_k} \end{aligned} \]
Con las parejas de correlaciones \(\left(r_{kj},r_{lj}\right)\), \(j=1,2,...,p\), podemos realizar el gráfico de representación de las variables en el plano principal conformado por las componentes \(k\) y \(l\).
Permite observar aquellas variables mejor representadas
Permite examinar las relaciones entre variables y componentes
Permite examinar las relaciones entre variables
El cuadrado de las correlaciones entre cada componente principal \(k\) y cada variable \(j\), \(r_{kj}^2\), se denomina coseno cuadrado de las variables, \(cos_{kj}^2\). Estos tienen la propiedad \[ \sum_{k=1}^p cos_{kj}^2 = \sum_{k=1}^p r_{kj}^2 = \sum_{k=1}^p q_{jk}^2\lambda_k=1, \] dado que \(\sum_{k=1}^p q_{jk}^2\lambda_k\) son los elementos en la diagonal de la matriz \[ \boldsymbol{Q}\boldsymbol{\Delta^2}\boldsymbol{Q}^\top=\boldsymbol{Z}^\top \boldsymbol{Z}=R_x, \] y pueden ser interpretados como la fracción de la varianza de la variable \(j\)-ésima explicada por la componente \(k\)-ésima. Una variable con un coseno cuadrado mayor a 30% generalmente se asume que está bien representada en la componente correspondiente.
La contribución de una variable \(j\)-ésima sobre una componente \(k\)-ésima se calcula como \[ ctr_k = \frac{r^2_{kj}}{\sum_{j=1}^p r^2_{kj}},\ \ k=1,2,...,p, \] Una variable con una contribución mayor a \(1/p\) generalmente se asume que tiene una buena contribución a la componente correspondiente.
Dado que \(\lambda_1,\lambda_2,...,\lambda_p\) son los valores propios de \(\boldsymbol{Z}^\top\boldsymbol{Z}=R_x\), entonces \[ \sum_{j=1}^p \lambda_j = tr\left(\boldsymbol{Z}^\top\boldsymbol{Z}\right) = p \] que correponde a la varianza total de \(\boldsymbol{Z}\). De esta forma, se define la inercia, o porcentaje de la varianza total explicada por cada componente, como \[ \mathcal{I}_k = \frac{\lambda_k}{p}\times 100\%,\ \ k=1,2,...,p. \]
Para explicar la estructura de asociación entre las variables podemos seleccionar un número de componentes que satisfaga un porcentaje de inercia deseado. Adicional a este criterio, para seleccionar el número de componentes, se pueden considerar aquellas componentes con valores propios mayores que uno.
Consiste en comparar los valores observados en \(Z_{ij}\) con los valores estimados \(\hat{Z}^{(k)}_{ij}\) cuando se reduce la dimensionalidad empleando las \(k\) primeras componentes principales, \(\hat{\boldsymbol{Z}}= \hat{\boldsymbol{F}}\hat{\boldsymbol{Q}}^\top\).
Luego se escoge el número óptimo de componentes como el valor de \(k\) que minimiza el error cuadrático medio de predicción \[ ECMP(k) = \frac{1}{np}\sum_{i=1}^n\sum_{j=1}^p\left(Z_{ij}-\hat{Z}^{(k)}_{ij}\right)^2 \]
Es posible emplear las \(k\) primeras componentes como indicadores o rankings que resuman el comportamiento de las variables. Generalmente cada componente se lleva a una escala 0-1 para hacer más fácil su interpretación.
Un procedimiento sencillo se basa en buscar valores extremos \(a\) y \(b\) para cada \(\boldsymbol{f}_k\) y convertir cada componente en un indicador \(I_{k}\), con elementos \[ I_{ik} = \frac{f_{ik}-a}{b-a}, \] con \(a=\text{mín}\{f_{(1)k},Q_1-\alpha RIC\}\), \(b=\text{máx}\{Q_3+\alpha RIC,f_{(n)k}\}\), \(Q_1\) y \(Q_3\) los cuartiles 0.25 y 0.75 de \(\boldsymbol{f}_k\), \(RIC=Q_3-Q_1\) y \(\alpha = 1.5, 3.0, 5.0,...\). Un valor de 0 o 1 en el indicador sugiere individuos atípicos o extremos.
Calculamos la suma de cuadrados de las primeras \(p_1\) componentes estandarizadas. \[ d^2_{1i} = (n-1)\sum^{p_1}_{k=1}\frac{f^2_{ik}}{\lambda},\ \ i=1,2,...,n \]
Una observación atípica se puede identificar como aquella con un valor de \(d^2_{1i}\) muy grande en relación al resto, comparando los valores de la estadística \(d^2_{1i}\) para \(p_1=k\) con su cuantil empiríco del 95%.
El análisis de las últimas componentes principales puede ayudar a revelar aquellas perturbaciones atípicas que no son captadas por las primeras componentes.
Una estadística para la identificación de observaciones atípicas multivariadas consiste en la suma de cuadrados de los valores estandarizados de las últimas \(q\) \((q<p)\) componentes principales, \[ d^2_{2i} = (n-1)\sum^p_{k=p-q+1}\frac{f^2_{ik}}{\lambda},\ \ i=1,2,...,n. \]
Valores muy grandes de la estadística sugieren observaciones atípicas dentro del conjunto de datos.
Estimación robusta de la matriz de covarianzas y, por tanto, de la matriz de correlaciones
Análisis de componentes principales mediante Projection-Pursuit.
Análisis de componentes principales con kernels
Existen diferentes alternativas para el tratamiento de datos faltantes en el análisis de componentes principales.
Una de ellas consiste en un ACP iterativo regularizado, es decir, en un método de imputación y reconstrucción de datos basado en componentes principales, que puede plantearse en versión simple o múltiple e incorpora penalización para estabilizar la estimación de la estructura subyacente de baja dimensión de los datos.
Mientras el ACP permite reducir la dimensionalidad de conjuntos de datos numéricos, el Análisis de Correspondencias permite hacerlo con variables categóricas.
En la literatura, suele distingirse el análisis de correspondencias cuando se tienen solo dos variables categóricas, denominado Análisis de Correspondencias Simple o simplemente Análisis de Correspondencias, o cuando se tienen más de dos variables categóricas, denominado Análisis de Correspondencias Múltiple.
Considere una base de datos \(\boldsymbol{X}_{n\times p}\) con dos variables categóricas, con \(p\) y \(q\) categorías, respectivamente. Considere además, las tablas de contingencia y de frecuencias relativas asociadas a \(\boldsymbol{X}\)
\[ \begin{align*} \boldsymbol{N}_{\left(p\times q\right)} & =\left\{ n_{ij}\right\} _{\begin{array}{l} i=1,2,...,p\\ j=1,2,...,q \end{array}}\\ \\ \boldsymbol{P}_{\left(p\times q\right)} & =\left\{ p_{ij}=\frac{n_{ij}}{n}\right\} _{\begin{array}{l} i=1,2,...,p\\ j=1,2,...,q \end{array}} \end{align*} \]
El análisis de correspondencias simple se basa en la descomposición en valores singulares generalizada \[ \boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top = \boldsymbol{U}\boldsymbol{\Delta}\boldsymbol{V}^\top, \] con \(\boldsymbol{r}=\left(p_{1\cdot},p_{2\cdot},...,p_{p\cdot}\right)^\top\), \(\boldsymbol{c}=\left(p_{\cdot 1},p_{\cdot 2},...,p_{\cdot q}\right)^\top\), \(\boldsymbol{\Delta}\) la matriz de rango \(s=(\text{mín}\{p,q\}-1)\) de valores singulares \(\lambda_1^{1/2},\lambda_2^{1/2},..., \lambda_s^{1/2}\), y \(\boldsymbol{U}\) y \(\boldsymbol{V}\) las matrices de vectores propios generalizados ortogonales bajo las restricciones impuestas por \(\boldsymbol{D}^{-1}_r\) y \(\boldsymbol{D}^{-1}_c\), esto es \[ \boldsymbol{U}^\top \boldsymbol{D}^{-1}_r\boldsymbol{U} = \boldsymbol{V}^\top \boldsymbol{D}^{-1}_c\boldsymbol{V} = \boldsymbol{I}, \] donde \(\boldsymbol{D}_r=diag\left(\boldsymbol{r}\right)\) y \(\boldsymbol{D}_c=diag\left(\boldsymbol{c}\right)\).
A partir de la descomposición anterior, se calculan los score de representación de las modalidades fila y columna de la tabla de contingencias como \[ \begin{aligned} \boldsymbol{F} &= \boldsymbol{D}^{-1}_r\boldsymbol{U\Delta} \\ \boldsymbol{G} &= \boldsymbol{D}^{-1}_c\boldsymbol{V\Delta} \end{aligned} \] con \(\boldsymbol{F}^\top \boldsymbol{D}_r\boldsymbol{F} = \boldsymbol{G}^\top \boldsymbol{D}_c\boldsymbol{G} = \boldsymbol{\Delta}^2\).
La importancia de una dimensión \(k\) para la fila \(i\) y la columna \(j\) de la tabla de contingencias está dada por los cosenos cuadrados asociados a las filas y columnas \[ \begin{aligned} cos^2_{ki} &= \frac{f^2_{ik}}{\sum^s_{k=1}f^2_{ik}}\\ cos^2_{kj} &= \frac{g^2_{jk}}{\sum^s_{k=1}g^2_{jk}} \end{aligned} \] respectivamente.
Por su parte, las contribuciones de la fila \(i\) y la columna \(j\) a cada dimensión \(k\) están dadas por \[ \begin{aligned} ctr_{ki} &= \frac{f^2_{ik}}{\sum^p_{i=1}f^2_{ik}}\\ ctr_{kj} &= \frac{g^2_{jk}}{\sum^q_{j=1}g^2_{jk}} \end{aligned} \]
La inercia explicada por cada dimensión se calcula como el cociente \[ \mathcal{I}_k = \frac{\lambda_k}{\sum^s_{k=1} \lambda_k}\times 100\%,\ \ k=1,2,...,s. \] donde \[ \begin{aligned} \sum^s_{k=1} \lambda_k &= tr\left(\boldsymbol{D}^{-1/2}_c\left(\boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top \right)^\top \boldsymbol{D}^{-1}_c \left(\boldsymbol{P}-\boldsymbol{r}\boldsymbol{c}^\top \right)\boldsymbol{D}^{-1/2}_c\right) \\ &= \sum_{i=1}^{p}\sum_{j=1}^{q}\frac{\left(p_{ij}-r_ic_j\right)^{2}}{r_ic_j} = \frac{\chi^2}{n}, \end{aligned} \] por lo que el porcentaje de inercia es a su vez el porcentaje de la dependencia entre las variables explicado por cada dimensión.
Extensión del análisis de correspondencias simple a más de dos variables categóricas
Considere una base de datos con más de dos variables categóricas en un arreglo matricial con \(n\) filas y \(p\) columnas, donde cada variable tiene \(q_j\) modalidades (\(\sum^p_{j=1}q_j=q\))
Calculamos la matriz indicadora o disyuntiva completa \(\boldsymbol{Z}\) con elementos \(z_{il_j} = 1\) si el individuo \(i\) selecciona la categoría \(l\) de la variable \(j\) o \(z_{il_j} = 0\) en otro caso (\(i = 1,2,...,n\), \(j=1,2,...,p\), \(l_j = 1,2,...,q_j\))
Se calcula la matriz de probabilidad \(\boldsymbol{Y}=n^{-1}\boldsymbol{Z}\) y los vectores de totales de filas \(\boldsymbol{r}=\boldsymbol{Y1}_q\) y de columnas \(\boldsymbol{c}=\boldsymbol{Y^\top 1}_n\).
El análisis de correspondencias múltiple se basa en la descomposición en valores singulares \[ \boldsymbol{D}^{-1/2}_r\left(\boldsymbol{Y}-\boldsymbol{rc}^\top\right)\boldsymbol{D}^{-1/2}_c = \boldsymbol{U\Delta V}^\top, \] con \(\boldsymbol{D}_r = diag(\boldsymbol{r})\) y \(\boldsymbol{D}_c = diag(\boldsymbol{c})\).
Los score de representación de los individuos y las modalidades de las variables se calculan como \[ \begin{aligned} \boldsymbol{F} &= \boldsymbol{D}^{-1/2}_r \boldsymbol{U\Delta} \\ \boldsymbol{G} &= \boldsymbol{D}^{-1/2}_c \boldsymbol{V\Delta} \end{aligned} \] respectivamente.
La matriz de Burt \[ \boldsymbol{B} = \boldsymbol{Z}^\top\boldsymbol{Z}, \] que contiene todas las tablas de contingencia posibles entre las variables categóricas, juega un papel fundamental en el análisis de correspondencias múltiple, debido a que un AC sobre la matriz de Burt da los mismos factores que el análisis sobre \(Y\) pero con valores propios que aproximan mejor la inercia explicada por los factores que los valores propios asociados a \(Y\).
El Análisis Factorial de Datos Mixtos es una técnica diseñada para analizar conjuntos de datos que contienen variables tanto cuantitativas como categóricas.
A diferencia del ACP y del AC, que solo pueden manejar un tipo de variable, el AFDM es capaz de capturar la información presente en ambos tipos de variables, proporcionando una visión más completa de la estructura de los datos.
Considere la matriz de datos \(\boldsymbol{X}_{n\times p}\) con \(p_1\) variables cuantitativas y \(p_2\) variables categóricas \((p = p_1+p_2)\)
Sea \(k_j\), \(j=1,2,...,p_2\), el número de modalidades de cada variable categórica y \(m = \sum_{j=1}^{p_2} k_j\) el número total de modalidades en las variables categóricas
Sea \(\boldsymbol{G}\) la matriz indicadora asociada a las \(p_2\) variables categóricas, con elementos \(g_{il_j} = 1\) si el individuo \(i\) selecciona la categoría \(l\) de la variable \(j\) o \(z_{il_j} = 0\) en otro caso (\(i = 1,2,...,n\), \(j=1,2,...,p_2\), \(l_j = 1,2,...,k_j\))
Variables cuantitativas: \[ z_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j}, \quad s_j^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_{ij} - \bar{x}_j)^2, \quad j=1,2,...,p_1 \]
Variables cualitativas: \[ z^*_{il_j} = \frac{g_{il_j} - f_{l_j}}{\sqrt{f_{l_j}}}, \quad f_{l_j} = \frac{1}{n} \sum_{i=1}^n g_{i{l_j}}, \quad j=1,2,...,p_2 \]
Matriz de análisis \[ \boldsymbol{Z} = [\boldsymbol{Z}_{p_1} \mid \boldsymbol{Z}_m] \in \mathbb{R}^{n \times (p_1 + m)} \]
Se realiza la descomposición \[ \boldsymbol{Z} = \boldsymbol{P} \boldsymbol{\Delta} \boldsymbol{Q}^\top \]
Los score de representación de los individuos se calculan como \[ \boldsymbol{F} = \boldsymbol{Z} \boldsymbol{Q} = \boldsymbol{P} \boldsymbol{\Delta}, \] con \[ f_{ik} = \sum_{j=1}^{p_1 + m} z_{ij} q_{jk} \]
Correlación con eje \(k\): \[ r_{jk} = \operatorname{cor}(x_j, \boldsymbol{f}_k) = \sqrt{\lambda_k} q_{jk} \]
Coseno cuadrado: \[ \cos^2_{jk} = r_{jk}^2 = \lambda_k q_{jk}^2 \]
Contribución: \[ ctr_{jk} = \frac{r_{jk}^2}{\sum_{j=1}^{p_1} r_{jk}^2} \]
Cada modalidad \(l_j\) se representa por su centroide: \[ g_{l_j k} = \frac{1}{n_{l_j}} \sum_{i: g_{il_j} = 1} f_{ik} \]
Cosenos cuadrados: \[ \cos^2_{l_j k} = \frac{g_{l_j k}^2}{\sum_{j=1}^r g_{l_j j}^2} \]
Contribuciones: \[ ctr_{l_j k} = \frac{n_{l_j}}{n} \frac{g_{l_j k}^2}{\lambda_k} \]
Sea \(s\) el número de valores propios mayores que cero, la inercia total se calcula como \[ \sum_{k=1}^{s} \lambda_k = \operatorname{tr}(\boldsymbol{Z}^\top \boldsymbol{Z}) \]
Así, el porcentaje de inercia explicado por cada dimensión es \[ \mathcal{I}_k = \frac{\lambda_k}{\sum_{j=1}^s \lambda_j} \times 100\% \]
El propósito del Análisis de Correlación Canónica (ACC) es estudiar las relaciones lineales entre dos conjuntos de variables \(\mathbf{X}\) y \(\mathbf{Y}\) observadas sobre el mismo conjunto de individuos, construyendo combinaciones lineales —una por cada grupo de variables— con la mayor correlación posible.
Dadas \(\mathbf{X}_c \in \mathbb{R}^{n \times p}\) y \(\mathbf{Y}_c \in \mathbb{R}^{n \times q}\), matrices de observaciones centradas respecto al promedio de cada variable, el objetivo es construir combinaciones lineales \[ u_k = \mathbf{X}_c \mathbf{a}_k \quad \text{y} \quad v_k = \mathbf{Y}_c \mathbf{b}_k, \] donde \(\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_r \in \mathbb{R}^p\) y \(\mathbf{b}_1, \mathbf{b}_2, \dots, \mathbf{b}_r \in \mathbb{R}^q\), tales que
\(\operatorname{Cor}(u_k, v_k) = \rho_k\) sea máxima
\(\operatorname{Cov}(u_k, u_j) = \operatorname{Cov}(v_k, v_j) = \operatorname{Cov}(u_k, v_j) = 0\) para todo \(j < k\)
\(\operatorname{Var}(u_k) = \operatorname{Var}(v_k) = 1\)
Dada la matriz de correlación cruzada entre los conjuntos de datos \(\mathbf{X}\) y \(\mathbf{Y}\)
\[ \mathbf{R} = \frac{1}{n - 1} \mathbf{Z}_X^\top \mathbf{Z}_Y \in \mathbb{R}^{p \times q}, \] donde \(\mathbf{Z}_X = \mathbf{X}_c \mathbf{S}_{XX}^{-1/2}\) y \(\mathbf{Z}_Y = \mathbf{Y}_c \mathbf{S}_{YY}^{-1/2}\).
Luego, se aplica la descomposición en valores singulares de \(\mathbf{R}\),
\[ \mathbf{R} = \mathbf{U} \boldsymbol{\Lambda} \mathbf{V}^\top, \]
donde \(\mathbf{U} \in \mathbb{R}^{p \times r}\) y \(\mathbf{V} \in \mathbb{R}^{q \times r}\) son matrices ortogonales y \(\boldsymbol{\Lambda} = \operatorname{diag}(\rho_1, \dots, \rho_r) \in \mathbb{R}^{r \times r}\) contiene las correlaciones canónicas ordenadas decrecientemente \((1 \ge \rho_1 \ge \rho_2 \ge \dots \ge \rho_r \ge 0)\), con \(r = \operatorname{rango}(\mathbf{R}) \le \min(p, q)\).
Vectores canónicos: \[ \mathbf{a}_k = \mathbf{S}_{XX}^{-1/2} \mathbf{u}_k \quad \text{y} \quad \mathbf{b}_k = \mathbf{S}_{YY}^{-1/2} \mathbf{v}_k, \] donde \(\mathbf{u}_k\) y \(\mathbf{v}_k\) son las columnas de \(\mathbf{U}\) y \(\mathbf{V}\), respectivamente.
Variables canónicas: \[ u_k = \mathbf{X}_c \mathbf{a}_k = \mathbf{Z}_X \mathbf{u}_k \quad \text{y} \quad v_k = \mathbf{Y}_c \mathbf{b}_k = \mathbf{Z}_Y \mathbf{v}_k. \]
Se puede verificar que \(\operatorname{Cor}(u_k, v_k) = \rho_k\) y
\[ \operatorname{Cov}(u_k, u_j) = \operatorname{Cov}(v_k, v_j) = \operatorname{Cov}(u_k, v_j) = 0, \quad \text{para } j < k. \]
Los métodos factoriales buscan identificar factores subyacentes que explican las relaciones entre un conjunto de variables observadas.
El análisis factorial exploratorio se utiliza para descubrir esos factores sin suposiciones previas, mientras que el análisis factorial confirmatorio se emplea para verificar si una estructura de factores previamente planteada se ajusta a los datos.
Para un vector aleatorio \(\boldsymbol{X} = \left(X_{1},X_{2},...,X_{p}\right)^{\top}\) con \(E\left(\boldsymbol{X}\right)=\mu\) y \(V\left(\boldsymbol{X}\right)=\Sigma\), el modelo factorial asume que \[ \begin{aligned} X_{1} & =\ell_{11}F_{1}+\ell_{12}F_{2}+\dots+\ell_{1m}F_{m}+\varepsilon_{1} \\ X_{2} & =\ell_{21}F_{1}+\ell_{22}F_{2}+\dots+\ell_{2m}F_{m}+\varepsilon_{2} \\ & \vdots \\ X_{p} & =\ell_{p1}F_{1}+\ell_{p2}F_{2}+\dots+\ell_{pm}F_{m}+\varepsilon_{p} \end{aligned} \] o de manera resumida \[ X_j = \sum^m_{k=1}\ell_{jk}F_k + \varepsilon_j, \ \ j=1,2,...,p. \]
Generalmente, se asume que \(\boldsymbol{X}\) es el vector de variables estandarizadas.
De forma matricial, el modelo se puede escribir de la forma \[ \boldsymbol{X}=\boldsymbol{LF}+\boldsymbol{\varepsilon} \] con \(\boldsymbol{L}\) una matriz de tamaño \(p\times m\) con coeficientes \(\ell_{jk}\), comunmente denominados como cargas o loadings, asociados a la \(j\)-ésima variable sobre el \(k\)-ésimo factor; \(\boldsymbol{F}\) es un vector de tamaño \(m\times 1\) conteniendo las variables no observables, o factores comunes, \(F_k\), y \(\boldsymbol{\varepsilon}\) es el vector de variables aleatorias \(\varepsilon_{j}\) denominados errores o factores específicos.
Sin pérdida de generalidad, se asume además que \(E\left(\boldsymbol{F}\right)=\boldsymbol{0}\), \(Cov\left(\boldsymbol{F}\right)=\boldsymbol{I}\), \(E\left(\boldsymbol{\varepsilon}\right)=\boldsymbol{0}\), \(V\left(\boldsymbol{\varepsilon}\right)=\boldsymbol{\Psi}=diag\{\psi_1\,\psi_2\,...,\psi_p\}\), y \(Cov\left(\boldsymbol{\varepsilon}, \boldsymbol{F}\right) = \boldsymbol{0}\).
La matriz de covarianzas de \(\boldsymbol{\Sigma}\) se puede descomponer como \[ \boldsymbol{\Sigma}=\boldsymbol{LL}^\top+\boldsymbol{\Psi} \] y \(Cov\left(\boldsymbol{X},\boldsymbol{F}\right)=\boldsymbol{L}\), esto es \(Cov\left(X_j,F_k\right)=\ell_{jk}\).
La anterior descomposición implica que \[ \begin{aligned} \sigma^2_j &= \ell^2_{j1} + \ell^2_{j2} +\cdots +\ell^2_{jm} + \psi_j \\ &= h^2_j + \psi_j, \end{aligned} \] con \(h^2_j\) las denominadas comunalidades.
La cantidad \[ SC_k = \sum^p_{j=1} \ell^2_j \] puede ser empleada como una medida de la variabilidad del conjunto de variables que es explicada por cada factor. En el caso de variables estandarizadas, se prefieren aquellos factores para los que \(SC_k>1\).
Cuando \(m << p\) el modelo factorial provee una explicación más simple de las covariaciones en \(\Sigma\). Además, para garantizar la identificabilidad, dado que el número de parámetros distintos en \(\boldsymbol{\Sigma}\) es \(p(p+1)/2\) y en \(\boldsymbol{LL}^\top+\boldsymbol{\Psi}\) es \(pm-m(m-1)/2+p\), se requiere que \(p(p+1)/2 \ge pm-m(m-1)/2+p\) y, por tanto, que \[ m\le \frac{2p+1-\sqrt{8p-1}}{2} \]
Se quiere estimar \(\boldsymbol{L}\) y \(\boldsymbol{\Psi}\) maximizando la verosimilitud del modelo bajo el supuesto de normalidad multivariada.
La función de log-verosimilitud es \[ \ell\left(\boldsymbol{L},\boldsymbol{\Psi}\right) = -\frac{n}{2}\left(\ln{\mid 2\pi\boldsymbol{\Sigma}\mid}+tr\left(\boldsymbol{\Sigma}^{-1}\boldsymbol{S}\right)\right) \]
Se busca \[ \left(\hat{\boldsymbol{L}},\hat{\boldsymbol{\boldsymbol{\Psi}}}\right) = \arg\max_{\boldsymbol{L},\boldsymbol{\Psi}} \ell\left(\boldsymbol{L},\boldsymbol{\Psi}\right) \]
Sea \(m>1\) y \(T\) una matriz orthogonal tal que \(TT^{\top}=T^{\top}T=I\), entonces \[ \begin{aligned} X &= LF+\boldsymbol{\varepsilon}\\ &= \left(LT\right)\left(F^{\top}T\right)^\top+\boldsymbol{\varepsilon}\\ & =L^{*}F^{*}+\boldsymbol{\varepsilon} \end{aligned} \] y por tanto \(\boldsymbol{\Sigma}=\boldsymbol{LL}^{\top}+\boldsymbol{\Psi}=\boldsymbol{L}^{*}\boldsymbol{L}^{*\top}+\boldsymbol{\Psi}\)
La matriz de cargas \(\boldsymbol{L}\) puede ser entonces rotada y esta rotación puede ser determinada por algún criterio que implique una interpretación más simple de los factores.
Dos de los métodos más comunes de rotación son la rotaciones varimax y promax.
El Análisis Factorial Confirmatorio (AFC) permite evaluar si los datos observados se ajustan a una estructura factorial teórica preespecificada.
Sea \(\boldsymbol{X} \in \mathbb{R}^p\) el vector de variables observadas centradas. En el modelo de AFC se asume que:
\[ \boldsymbol{X} = \boldsymbol{L} \boldsymbol{F} + \boldsymbol{\epsilon} \] donde
\(\boldsymbol{F}\): vector de factores latentes (dimensión \(m\))
\(\boldsymbol{L}\): matriz de cargas factoriales \(p \times m\)
\(\boldsymbol{\epsilon}\): vector de errores específicos (no correlacionados con los factores)
Se asume que:
\(\mathbb{E}[\boldsymbol{F}] = \mathbb{E}[\boldsymbol{\epsilon}] = \boldsymbol{0}\)
\(\text{Cov}(\boldsymbol{F}, \boldsymbol{\epsilon}) = \boldsymbol{0}\)
\(\text{Cov}(\boldsymbol{\epsilon}) = \boldsymbol{\Psi}\) (diagonal)
\(\text{Cov}(\boldsymbol{F}) = \boldsymbol{\Omega}\)
Entonces:
\[ \boldsymbol{\Sigma} = \boldsymbol{L} \boldsymbol{\Omega} \boldsymbol{L}^T + \boldsymbol{\Psi} \]
Aunque comparten la misma formulación matemática básica, su diferencia radica en:
El AFE estima todas las cargas factoriales sin restricciones iniciales.
El AFC impone una estructura específica sobre \(\boldsymbol{L}\), basada en una hipótesis teórica.
Ejemplo de restricciones en AFC:
Supongamos 6 variables y 2 factores. En AFC podemos imponer:
\[ \boldsymbol{L} = \begin{bmatrix} L_{11} & 0 \\ L_{21} & 0 \\ L_{31} & 0 \\ 0 & L_{42} \\ 0 & L_{52} \\ 0 & L_{62} \\ \end{bmatrix} \]
La estimación de los parámetros del modelo se puede realizar mediante máxima verosimilitud, bajo el supuesto de normalidad multivariada. Se debe minimizar una función de discrepancia entre la matriz de covarianzas implícita en el modelo y la matriz observada en la muestra:
\[ F_{ML} = \log |\Sigma| + \text{tr}(\Sigma^{-1}S) - \log|S| - p \]
donde \(S\) es la matriz de covarianzas.
Para que un modelo de AFC sea estimable, debe ser identificable, lo cual implica que el número de observaciones disponibles (elementos únicos en la matriz \(S\)) debe ser al menos igual al número de parámetros libres a estimar. Además, es necesario fijar la escala de los factores, lo que se logra fijando una carga a 1 o imponiendo varianza unitaria a los factores.
Prof. Mario Pacheco / MRD