Fundación BBVA

Multivariate Statistics

Case Study 1: Comparing Cancer Types According to Gene Expression Arrays

Summary

1. We have shown how biplots based on principal component analysis of both individual-level and aggregate-level data can be used to identify natural groups of observations in a large data set as well as distinguish between existing known groups. With respect to this data set which has a huge number of variables compared to observations:

2. In both the individual- and aggregate-level analyses, it is useful to reduce the number of variables to a smaller set that is the most determinant in showing respectively (i) the patterns in the individual-level data, and (ii) the separation of the known groups.

3. One way of eliminating variables is to calculate each variable's contribution to the solution (a planar biplot in our application). The variable with the least contribution is eliminated, and the procedure is repeated over and over again until a small subset is found.

4. We decided to stop the variable elimination process in the individual-level analysis when the Procrustes statistic rose to 10%-this was an ad hoc decision, but was based on observing the evolution of the Procrustes statistic as variables were eliminated. This statistic increased very slightly and slowly up to this point, but reducing the variables beyond this stage the solution started to change dramatically

5. In the case of the aggregate-level analysis, we monitored the ratio of between-group variance to total variance in the low-dimensional solution as variables were eliminated, and stopped when this reached a maximum.

6. In the centroid analysis, the eventual space based on the smaller set of variables can be used to classify new observations, by calculating their distances in the solution to the centroids and then choosing the centroid that is closest as the group prediction.

Estudio de caso 1: Comparación de tipos de cáncer en vectores de genes

Resumen Capítulo 13

1. Hemos mostrado cómo mediante biplots basados en análisis de componentes principales de datos a nivel individual o de datos agregados, podemos identificar grupos de observaciones dentro de un gran conjunto de datos, y distinguir entre grupos ya conocidos. Con relación a este conjunto de datos que tienen un enorme número de variables comparado con el de observaciones:

2. Tanto en el análisis a nivel individual como en el análisis agregado, es útil reducir el número de variables a un conjunto menor de variables más determinante para mostrar: a) el comportamiento de los datos individuales y b) la separación entre los grupos conocidos.

3. Un modo de eliminar variables consiste en calcular la contribución de cada variable a la solución final (en nuestro caso, un biplot bidimensional). Eliminamos la variable con la menor contribución, y repetimos el procedimiento suvesivamente hasta quedarnos con un conjunto de variables menor.

4. Decidimos detener la eliminación de variables cuando el estadístico de Procrustes llega al 10%: es una decision ad hoc, basada en la observación de la evolución del estadístico de Procrustes a medida que eliminamos variables. Este estadístico creció muy lentamete y de forma muy suave hasta llegar a este valor, después la solución cambiaba drásticamente.

5. En el análisis de datos agregados, seguimos la evolución del cociente de la varianza entre grupos y la varianza total en el espacio de baja dimensionalidad a medida que eliminamos las variables, parando cuando alcanzamos un máximo.

6. En el análisis del centroides, podemos utilizar el espacio obtenido a partir de un menor conjunto de variables para clasificar nuevas observaciones, calculando sus distancias a los centroides y luego escoger el centroide más cercano como grupo predictor.

[back]