Fundación BBVA Fundación BBVA

Multivariate Statistics

Correspondence Analysis Biplots

Summary

1. Correspondence analysis is applicable to a table of nonnegative data, the primary example being a cross-tabulation of two categorical variables, that is a contingency table.

2. The method can be thought of as an analysis of row or column profiles of the data matrix-these are the rows or columns expressed relative to their marginal totals.

3. Each profile receives a weight equal to the relative marginal total, called a mass.

4. Distances between profiles are defined by the chi-square metric. This is essentially a type of standardization of the profile values similar to that used in PCA, but using the average profile element as an estimate of variance rather than the variance itself.

5. The total variance, called inertia, in the data is numerically equal to the chi-square statistic for the table divided by the table's grand total.

6. Two types of asymmetric maps, both of which are biplots, are possible, depending on whether row or column profiles (and thus their interpoint chi-square distances) are visualized. Both are form biplots.

7.The contribution biplot can be particularly useful in CA applications, especially when there are quite different levels in rows or in columns (i.e., large differences in the masses). This biplot pulls in the points represented in standard coordinates by the square roots of their respective masses. For each such point, the squares of its rescaled coordinates are equal to the part contributions that the point makes to the respective principal axes.

8. In the contribution biplot, suppose that rows are in principal coordinates (i.e., row profiles are being visualized) and columns in "shrunken" standard coordinates. Then these latter coordinates for each column are also regression coefficients when the standardized values for that column in the row profile matrix are regressed on the principal coordinates of the rows, using weighted least squares with weights equal to the row masses.

Biplots de análisis de correspondencias

Resumen Capítulo 8

1. Podemos aplicar el análisis de correspondencias a cualquier tabla de datos no negativos. El ejemplo más importante lo constituyen las tablas de contingencia resultantes de cruzar dos variables categóricas.

2.Podemos entender este método como un análisis de perfiles de filas o de columnas de una matriz de datos; es decir, expresamos las filas o las columnas con relación a los totales marginales.

3. Damos a cada perfil un peso, llamado masa, igual a su total marginal relativo.

4. Definimos las distancias entre perfiles mediante la métrica ji-cuadrado. Es decir, realizamos un tipo de estandarización de perfiles similar al utilizado en ACP, pero utilizando la media de los elementos de los perfiles como estimación de la varianza.

5. La varianza total de los datos, llamada inercia, es igual al valor del estadístico ji-cuadrado de la tabla dividido por la suma total de los valores de la tabla.

6. Dependiendo de que visualicemos los perfiles de las filas o de las columnas (y, por tanto, las distancias ji-cuadrado entre puntos), tenemos dos posibles tipos de mapas asimétricos, constituyendo ambos dos formas de biplots.

7. En el AC, el biplot de contribuciones puede resultar particularmente útil, especialmente cuando existen diferencias relativamente importantes en filas o en columnas (p.e., grandes diferencias en las masas). Este tipo de biplot reescala los puntos representados en coordenadas estándar mediante las raíces cuadradas de sus respectivas masas. Para cada uno de este tipo de puntos, los cuadrados de sus coordenadas reescaladas son iguales a las contribuciones parciales de los puntos a sus respectivos ejes principales.

8. En un biplot de contribuciones, suponiendo que las filas están en coordenadas principales (p.e., visualizamos los perfiles de las filas) y las columnas en coordenadas estándar Ā«comprimidasĀ», estas últimas coordenadas son también los coeficientes de la regresión mínimo-cuadrática ponderada, con pesos iguales a las masas de las filas, de los valores estandarizados de las columnas de la matriz de perfiles de las filas sobre las coordenadas principales de las filas.

[back]