Inicio  / Análisis estadístico  / Análisis descriptivo multivariante con biplot

Análisis descriptivo multivariante mediante biplot (2014)

¿Qué es el análisis biplot? Es un cálculo de ejes de representación a través de la descomposición factorial. Más información sobre biplot.

Matriz de datos

Para el año 2014 de nuevo contamos con una matriz de datos compuesta por 76 filas compuestas por las 76 universidades estudiadas. 11 columnas representadas por 11 variables continuas con las puntuaciones de las distintas universidades en las dimensiones: Producción, Colaboración externa, Investigación, Ayuda, Docencia, Cultura en Software libre, Tecnológicos, Divulgación, Webmetría, Institución y Administración.

La manera de conseguir los indicadores es la siguiente: se suman las puntuaciones obtenidas por las 76 universidades de los indicadores asignados a cada dimensión ponderados por sus respectivos pesos.

La elección de estos indicadores está determinada por dos razones, se toman las puntuaciones para que la suma no esté distorsionada por las escalas de las variables y se ponderan por los pesos para que la importancia dada por los expertos a cada indicador particular se vea reflejado en las variables de dimensiones usadas.

Usamos estas 11 dimensiones para evitar el uso de variables binarias, que son las más abundantes entre la información recogida, ya que este tipo de variables exigirían el uso de un Biplot logístico (ofrece resultados en forma de probabilidad de ocurrencia de las variables) transformando todos los indicadores en variables de presencia/ausencia.

Se ha optado por tratar de usar variables continuas para ser analizadas a través de Biplot clásico, y la manera es uniendo indicadores para obtener variables (las dimensiones) con un rango más amplio de resultados y por tanto, con mayor información que puedan ofrecer un comportamiento continuo.

Además de los problemas de continuidad en las variables, trabajar con 11 dimensiones a partir de la matriz de 65 indicadores de información (aunque algunas de ellas se usen para segmentar la población) ya supone una primera simplificación de la dimensionalidad de la matriz de datos que es uno de los objetivos de la técnica. Con tal volumen de variables hubiera sido necesario considerar más de 10 ejes para capturar un porcentaje aceptable de información y el número de planos de representación se incrementa exponencialmente. En una matriz de 11 columnas podremos ser capaces de capturar en torno al 70% de la información con 3 o 4 ejes y finalmente interpretar los resultados con el mismo número de planos.

Resultados

Se realiza sobre la matriz de datos 76x11 un HJ-Biplot estandarizando las columnas y obteniendo los ejes en el espacio de baja dimensión a través de la descomposición de la matriz en valores singulares (SVD).

Calidad de representación de los ejes

El cálculo de valores propios de la matriz factorizada y la cantidad de información capturada por cada eje es:

Calidad representación de ejes RuSL 2014

Tabla 1: Valores propios y porcentaje de variabilidad explicada por cada uno de los ejes tras la Descomposición en valores singulares de la matriz de datos original.


En este caso decidimos retener los tres primeros ejes. El porcentaje de variabilidad explicada, o dicho de otra forma, el porcentaje de información que recogen estos tres primeros ejes es del 70,14%. Es decir, del 100% de la información contenida en las 11 dimensiones, tras la descomposición en valores singulares de la matriz de datos original, las tres primeras dimensiones recogen el 70% de la información total.

En la Tabla 1 se puede observar también como es el primer eje el que jugará el papel más importante en posteriores análisis, ya que él solo es capaz de proporcionar más de la mitad de toda la información disponible.

Calidad de representación de las dimensiones

A continuación se expone una tabla con la cantidad de información recogida en cada eje para cada una de las dimensiones, además, se expone también el porcentaje de información acumulada que cada dimensión aporta al análisis.

Calidad representación dimensiones

Tabla 2: Contribuciones relativas expresadas en porcentaje y contribuciones relativas acumuladas de los ejes a las dimensiones.


De la Tabla 2 se deduce que, excepto las Dimensiones Ayuda e Institución y en menor medida Docencia, todos los demás indicadores alcanzan niveles óptimos de representación. Por otro lado, se deduce también que todas las dimensiones están mejor representadas en el Plano 1-2 o en el Plano 1-3 y ninguna en el plano 2-3, por lo tanto, más adelante se mostrarán las representaciones Biplot de los planos 1-2 y 1-3 ya que de esa manera nos aseguramos que se representa la mayor cantidad de información posible sin mostrar información redundante.

Se procede a continuación a representar los tres ejes seleccionados mediante los planos 1-2 y 1-3.

Representación Biplot


PLANO 1-2


Plano 1-2 RuSL

Plano 1-2


En este plano se consigue representar en torno al 62% de la información recogida. Las variables, a excepción de Ayuda, consiguen una calidad de representación superior al 60% en este plano. Hágase notar que las variables con menor cantidad de información en este plano coinciden con las que tienen flechas más cortas en el gráfico.

Vemos como se aprecia un alto grado de asociación entre las dimensiones Webmetría, Producción, Divulgación, Docencia y Cultura en Software libre. Estas variables son las más importantes a la hora de discriminar universidades en el Eje 1, de tal manera que las universidades que se encuentran más a la izquierda como Universidad de Granada (UGR), Universidad de La Laguna (ULL), Universidad de Las Palmas de Gran Canaria (ULPGC) y Universidade da Coruña (UDC) son las universidades con mayores puntuaciones en estas dimensiones. Por otro lado, el grupo de universidades que se encuentran posicionadas más a la derecha del gráfico será aquellas universidades con bajas o nulas puntuaciones en dichas dimensiones.

Por otro lado, podemos comprobar que las posiciones relativas de las universidades en el Eje 2 vienen determinadas sobre todo por las dimensiones Colaboración externa en sentido positivo y Tecnológicos en sentido negativo del plano. Así podemos observar como, además de las universidades con mejores puntuaciones, es la Universidad de Sevilla la universidad con mayor grado de Colaboración externa. Respecto de la dimensión Tecnológicos, además de la UGR, ULL, ULPGC y UDC es la Universidad de Córdoba (UCO), la Universidad de Santiago de Compostela (USC) y la Universidad Miguel Hernández de Elche (UMH) las que mayores puntuaciones obtienen en esta dimensión.

Así, de este gráfico Biplot se pueden extraer las siguientes conclusiones:

  • En la parte izquierda del gráfico se sitúan las universidades con mejores resultados en las diferentes dimensiones, encabezadas por la Universidad de Granada, le siguen las universidades de La Laguna, Las Palmas de Gran Canaria y de La Coruña.
  • Destacan también las universidades de Sevilla, Zaragoza y Deusto por haber obtenido buenos resultados en la dimensión Colaboración externa e Investigación.
  • Las universidades de Córdoba, de Santiago de Compostela y la Universidad Miguel Hernández de Elche, por el contrario, destacan respecto de la dimensión Tecnológicos.
  • Todas las anteriormente descritas, además de sus características principales, destacan en las dimensiones Webmetría, Producción, Divulgación, Docencia y Cultura en Software libre.
  • El resto de universidades se sitúan alejadas de los indicadores, ya sea por su baja calidad de representación o por sus pobres puntuaciones en el ranking.

PLANO 1-3


Plano 1-3 RuSL

Plano 1-3


Con los dos ejes conseguimos retener en torno al 60% de la información.

Como podemos observar, el plano es similar al 1-2 en tanto que la información referida al Eje 1 es la misma. Lo nuevo viene ahora en la interpretación del Eje 3, en este caso la posición relativa de las universidades respecto a este eje viene determinada por las Dimensiones Tecnológicos e Investigación en sentido positivo y Administración en el sentido negativo, podemos afirmar que se observan una fuerte asociación entre las Dimensiones Investigación Tecnológicos respecto de las posiciones relativas de las universidades en este eje. Por tanto, de este gráfico podemos concluir lo siguiente:

  • Además de las universidades con mejores resultados, la Universidad de Cádiz, la Universidad Miguel Hernández de Elche y la Universidad de Santiago de Compostela (UCA, UMH y USC respectivamente) son las universidades con mayores puntuaciones en las dimensiones Tecnológicos e Investigación.
  • Además de la UGR, las universidades de La Laguna, de Las Palmas de Gran Canaria, de Sevilla y de Zaragoza obtienen también altas puntuaciones en la dimensión Administración.
  • El resto de universidades que se encuentran a la derecha en torno al 0 en el Eje 3 son universidades que obtuvieron bajas puntuaciones en estas dimensiones o que poseen baja calidad de representación.

Agrupación de universidades


Agrupación a posteriori (Análisis de Clusters)

En el ranking del año 2014, se obtuvieron diferencias significativas entre el grupo de universidades con mejores resultados respecto de las demás. Además encontramos un grupo intermedio debido a que obtienen resultados medios en algunas dimensiones y también un grupo formado por aquellas universidades con resultados pobres o con baja calidad de representación.

Mediante un Análisis de Clúster jerárquico con las coordenadas obtenidas en el Biplot, empleando el Método de Ward de varianza mínima y usando la distancia euclídea, se han obtenido 3 grupos de universidades bien diferenciadas. A continuación, se extraen del siguiente gráfico algunas características para definir a los clusters.


Análisis de Clusters RuSL 2014

Análisis de Clusters RuSL 2014


  • Observamos que el clúster 3 (Azul) agrupa a las universidades con mejores resultados en todas las variables, este clúster contiene a 6 universidades.
  • Vemos también como el clúster 1 (Verde), está formado por aquellas universidades con valores intermedios en casi todas las dimensiones, pero sobre todo se caracteriza por ser un grupo formado por universidades que destacan en la dimensión Tecnológicos. Este grupo está conformado por 20 universidades.
  • Por último, vemos que el clúster 2 (Rojo), se caracteriza por sus pobres resultados en casi todas las dimensiones o por estar conformados por universidades con baja calidad de representación. Este grupo está compuesto por las 50 universidades restantes.

La siguiente Tabla detalla las universidades que contienen cada grupo y sus características:


Tabla analisis cluster RuSL 2014

Tabla analisis cluster RuSL 2014


Agrupación a posteriori con indicadores nominales: Tamaño de universidad

Para trabajar con esta variable, a partir de la variable cuantitativa original que medía el número de alumnos por universidad, se ha originado otra cualitativa nominal politómica con 4 categorías diferentes. Estas son:

  • Menos de 5.000 alumnos.
  • Entre 5.000 y 25.000 alumnos.
  • Entre 25.000 y 50.000 alumnos.
  • Más de 50.000 alumnos.

Para ello recurrimos a la técnica de Biplot canónico o MANOVA Biplot en la que se representan no ya las universidades individualmente sino los grupos de ellas mediante círculos interpretando la posición del círculo como el centroide del grupo y la amplitud como intervalo de confianza de pertenencia al grupo. Así círculos más amplios representan a grupos más pequeños para mantener el nivel de confianza.

La interpretación de esta representación es la misma que para el Biplot pero trasladada a términos de comparación de grupos. Si las proyecciones de los círculos sobre una variable no se cortan indica que hay diferencias entre esos grupos en la variable.

Veremos el plano 1-2 resaltando la relación de los grupos respecto a los indicadores con mayores niveles de relación con los ejes canónicos obtenidos tras el análisis, estas dimensiones son Colaboración externa, Tecnológicos y Docencia. Los resultados respecto de la dimensión Colaboración externa se muestran a continuación:


biplot numero alumnos tamaño RuSL

En este gráfico observamos diferencias estadísticamente significativas en la dimensión Colaboración externa, de tal manera que estas diferencias vienen determinadas entre las universidades grandes (más de 50.000 alumnos) respecto de las demás.

Comparamos ahora la dimensión Tecnológicos.


biplot numero alumnos tecnológico RuSL

En este caso no podemos definir diferencias entre grupos de universidades respecto del tamaño, sin embargo, el gráfico muestra como las universidades pequeñas (menos de 5.000 alumnos), poseen los peores resultados respecto de todas las dimensiones ya que se encuentran en sentido opuesto a las direcciones de las flechas que marcan las direcciones de las dimensiones.

Por último, observemos que ocurre respecto de docencia:


biplot numero alumnos docencia RuSL

De nuevo, si tomamos como referencia la dimensión Docencia, encontramos diferencias estadísticamente significativas entre las universidades grandes y las demás, de tal manera que los mejores resultados en esta dimensión vienen determinados por estas universidades grandes.

En general se observa un ordenamiento relacionado con el tamaño, cuanto más grandes son las universidades mejores resultados ofrecen en todos los indicadores.


Universidad pública o privada

Para este análisis contamos con 50 universidades públicas y 26 privadas.

En el plano 1-2 de la representación Biplot podemos observar diferencias:


universidad publica privada RuSL

Parece que, en general, las universidades privadas prestan menos atención al SL que las públicas, todas aparecen situadas en posiciones de bajos valores de los indicadores, excepto UDEUSTO con gran relación con Colaboración Externa.