Inicio  / Análisis estadístico  / Análisis descriptivo multivariante con biplot

Análisis descriptivo multivariante mediante biplot (2013)

¿Qué es el análisis biplot? Es un cálculo de ejes de representación a través de la descomposición factorial. Más información sobre biplot.

Matriz de datos

Consideramos la matriz de datos compuesta por:

  • 76 filas. Las 76 universidades estudiadas.
  • 11 Variables continúas con los indicadores de las dimensiones: Producción, Docencia, Cultura en SL, Tecnológicos, Divulgación, Webmetría, Investigación, Colaboración Externa, Ayuda, Apoyo institucional y Administración.

La manera de conseguir los indicadores es la siguiente: Se suman las puntuaciones de los indicadores asignados a cada dimensión ponderados por sus pesos.

La elección de estos indicadores está determinada por dos razones, se toman las puntuaciones para que la suma no esté distorsionada por las escalas de las variables y se ponderan por los pesos para que la importancia dada por los expertos a cada indicador particular se vea reflejado en las variables de dimensiones usadas.

Usamos estos 11 indicadores para evitar el uso de variables binarias, que son las más abundantes entre la información recogida, este tipo de variables exigen el uso de un biplot logístico (ofrece resultados en forma de probabilidad de ocurrencia de las variables) transformando todos los indicadores en variables de presencia/ausencia.

Se ha optado por tratar de usar variables continuas con un biplot clásico, y la manera es uniendo indicadores para obtener variables (las dimensiones) con un rango más amplio de resultados que puedan ofrecer un comportamiento continuo.

Además de los problemas de continuidad en las variables, trabajar con 11 indicadores a partir de la matriz de 67 variables de información (aunque algunas de ellas se usen para segmentar la población) ya supone una primera simplificación de la matriz de datos que es uno de los objetivos de la técnica. Con tal volumen de variables hubiera sido necesario considerar más de 10 ejes para capturar un porcentaje aceptable de información y el número de planos de representación se incrementa exponecialmente. En una matriz de 11 columnas podremos ser capaces de capturar en torno al 75% de la información con 3 o 4 ejes y finalmente interpretar con el mismo número de planos.

Resultados

Se realiza sobre la matriz de datos 76x11 un HJ-Biplot con columnas estandarizadas y como método de obtención de ejes descomposición de valores singulares.

Calidad de representación

Ejes

El cálculo de valores propios de la matriz factorizada y la cantidad de variabilidad (información) capturada con cada valor propio es:

Eje

Valor propio

Variabilidad explicada.

Acumulada

Eje 1

23.192

65.198

65.198

Eje 2

9.168

10.189

75.387

Eje 3

7.78

7.338

82.725

Eje 4

7.184

6.255

88.98

Eje 5

5.825

4.113

93.093

Eje 6

4.464

2.416

95.508

Eje 7

3.250

1.283

96.729

Eje 8

3.006

1.095

97.887

Eje 9

2.764

0.962

98.813

Eje 10

2.475

0.743

99.556

Eje 11

1.914

0.444

100

Elegimos representar los resultados mediante 3 ejes. Se puede observar en la columna de variabilidad explicada por cada eje que la mayor parte de la información recae en el primer eje, que condensa 65% de la variabilidad (información) total. En conjunto los tres ejes proporcionan un 82,7% de la información contenida en la matriz de datos.

Representación de variables e individuos:

Variables: cantidad de información sobre cada indicador en cada eje y acumulada:


Axis1

Axis2

Axis3

acumulada

Producción

75%

2%

12%

89%

Colaboración Externa

83%

8%

3%

94%

Investigación

78%

9%

1%

88%

Ayuda

59%

1%

9%

69%

Docencia

87%

1%

0%

88%

Cultura en SL

54%

29%

5%

88%

Tecnológicos

72%

0%

4%

76%

Divulgación

75%

1%

5%

81%

Webmetría

57%

20%

7%

84%

Institución

17%

41%

27%

85%

Administración

617%

2%

7%

70%

Todos los indicadores alcanzan óptimos niveles de representación(mayores del 70%). Y todas encuentran su mejor representación en el eje 1 (planos 1-2 ó 1-3), excepto el indicador “Institución” perteneciente al plano 2-3.

Individuos


eje1

eje2

eje3

acumulada

UGR

93,8%

1,6%

0%

95,4%

ULPGC

92,5%

1,5%

0,2%

94,2%

UCJC

72,2%

11,6%

9,8%

93,6%

UDC

85,7%

0,6%

7,3%

93,6%

UIC

65%

13,2%

14,5%

92,7%

VIU

65%

13,2%

14,5%

92,7%

UCHCEU

81%

10,7%

0,2%

91,9%

UNAV

81%

10,7%

0,2%

91,9%

UNIRIOJA

83,5%

7,6%

0,2%

91,3%

UAX

85,3%

3,5%

2,3%

91,1%

UCAM

85,3%

3,5%

2,3%

91,1%

UVIC

85,3%

3,5%

2,3%

91,1%

UCV

58,9%

21,8%

9,9%

90,6%

UNEBRIJA

58,9%

21,8%

9,9%

90,6%

UVA (Valladolid)

75,5%

14,8%

0,3%

90,6%

URJC

44,2%

24,9%

21,1%

90,2%

MU

77,3%

10,3%

2,1%

89,7%

UPSA

77,3%

10,3%

2,1%

89,7%

URL

77,3%

10,3%

2,1%

89,7%

URV

77,3%

10,3%

2,1%

89,7%

URV

77,3%

10,3%

2,1%

89,7%

UIMP

66,6%

18%

4,9%

89,5%

ULL

76,7%

7,6%

4,6%

88,9%

UAO

68,7%

13,6%

5,9%

88,2%

CEU-USP

68,7%

13,6%

5,9%

88,2%

IE

68,7%

13,6%

5,9%

88,2%

UAL

63,8%

0,9%

23,4%

88,1%

UA

1%

70,8%

16,1%

87,9%

UPNA

65,7%

1%

20,9%

87,6%

UFV

81,8%

5%

0,7%

87,5%

UPF

76,3%

3,5%

5,7%

85,5%

UNIR

71,4%

8,8%

4,9%

85,1%

UOC

63,8%

20,9%

0,2%

84,9%

UDG

52,8%

1,9%

29,5%

84,2%

UPV

75,6%

6,2%

2,4%

84,2%

UV (Valencia)

75,6%

6,2%

2,4%

84,2%

USAL

0%

80,5%

3%

83,5%

UZ

78,3%

4,6%

0,2%

83,1%

UCA

11,7%

71,1%

0%

82,8%

USC

70,9%

0,1%

10,5%

81,5%

UPO

62,9%

2,9%

14,5%

80,3%

UEMC

75,1%

5,1%

0,1%

80,3%

UJA

60%

19%

0,4%

79,4%

UMA

60%

19%

0,4%

79,4%

UC

71,4%

7%

1%

79,4%

UHU

0,1%

78,5%

0,3%

78,9%

UAB

0,3%

48,2%

30,2%

78,7%

UNIOVI

45,4%

13,8%

18,9%

78,1%

UJI

8,5%

28,8%

40,6%

77,9%

UCAV

72,3%

3,3%

3%

77,6%

UDL

63,1%

8,8%

2,9%

74,8%

UMH

59,6%

9,1%

3,7%

72,4%

UNIA

33,3%

8,8%

30,1%

72,2%

EHU

70,2%

0,2%

1%

71,4%

UPCOMILLAS

64,1%

6,8%

0,2%

71,1%

UIB

8,4%

16,7%

45,8%

70,9%

UM

18,6%

50,9%

1,4%

70,9%

UNED

4,9%

13,7%

51,7%

70,3%

UAM

40,8%

1,8%

26,9%

69,5%

UPCT

25,8%

8,7%

34,5%

69%

UDIMA

64,6%

2,3%

1,1%

68%

UCLM

33,6%

1,1%

30,8%

65,5%

US

8,6%

55,9%

0,1%

64,6%

UNILEON

26,6%

9,7%

24,9%

61,2%

UEM

54,3%

4,8%

2,1%

61,2%

UDEUSTO

1%

35%

24,3%

60,3%

UAH

55,1%

3,9%

0,7%

59,7%

UPM

22,8%

5,4%

31,4%

59,6%

UPC

2,1%

34%

22,5%

58,6%

UEX

5,5%

21,9%

26,3%

53,7%

UB

39,5%

10,6%

1,4%

51,5%

UCO

3,7%

23,5%

21,5%

48,7%

UV

30,6%

7,2%

5,7%

43,5%

UC3M

36,3%

0,8%

4,8%

41,9%

UCM

26%

1,1%

1,5%

28,6%

UBU

0%

1,4%

7,2%

8,6%

En general buenos porcentajes de representación, excepto la Universidad de Burgos(UBU) con muy baja calidad en todos los ejes, y en menor medida UCM, UC3M, UV y UCO. Estas universidades quedarán muy centradas en los planos de representación pudiendo extraer menos conclusiones de ellas.

Se procede a continuación a representar los tres planos obtenidos con los tres eje seleccionados. Obviamente el volumen de información contenido en el primer eje hace que los planos 1-2 y 1-3 contengan más variabilidad que el 2-3, pero es posible que está información sea distinta de la de los otros dos planos y por tanto de utilidad.

Representación Biplot

Plano 1-2

Análisis Biplot. Plano 1-2

En este plano conseguimos representar el 75% de la información de nuestros datos. Las 11 variables consiguen una muy aceptable calidad de representación. En torno al 60% en el peor de los casos. Se aprecian asociaciones entre ellas, así “Webmetría” y “Cultura en SL” se comportan de manera similar, como ocurre con “Investigación” y “Colaboración externa”.

En cuanto a las universidades, se puede establecer una primera aproximación a su resultado.

Dada la importancia del volumen de información del primer eje (eje horizontal) las mayores diferencias se aprecian en esa dimensión horizontal. Detallemos lo observado:

  • En la parte derecha del gráfico se sitúan las universidades con mejores resultados en todas las dimensiones, encabezadas por la Universidad de Granada y por la de Las Palmas de Gran Canarias. En esa zona encontramos a 6 de las 7 primeras universidades del ranking.
  • La que falta, universidad Rey Juan Carlos, destaca fundamentalmente en asuntos de Investigación y colaboración externa y se sitúa en la parte superior del gráfico junto a UNILEON, UV e incluso UPM.
  • Sobresaliendo en apoyo institucional, Webmetría y Cultura en SL (en los siguientes planos se diferenciará exactamente a qué indicador se asocian) USAL, UA, UDEUSTO, UAB, UPC y US.
  • El resto de universidades se sitúan en alejadas de los indicadores, ya sea por su baja calidad de representación o por sus pobres puntuaciones en el ranking.

Plano 1-3

Conseguimos con los dos ejes un 72% de información.

Como se puede apreciar, este plano es muy similar al 1-2, no en vano casi toda la información proviene del primer eje compartido por ambos planos. Lo nuevo que podemos añadir:

  • Asociación de la Universidad Politécnica de Madrid con el indicador de Apoyo Institucional al SL.
  • Universidad de León, Universidad de Vigo y Universidad Carlos III de Madrid con altos valores en “Ayuda”, “Webmetría”, “Administración”, “Cultura en SL” y “Tecnológicos”, indicadores en los que también destacarán las universidades más punteras del ranking (USC, EHU, UZ, ULL, ULPGC, UGR), aunque está información ya estaba recogida en el plano 1-2
Análisis Biplot. Plano 1-3

Plano 2-3

Se captura el 18% de la información. En este gráfico sólo representamos las variables (Institución, Cultura en SL y Webmetría) y universidades que alcanzan un mínimo de calidad de representaión de 25% entre los dos ejes. Al no estar contenido el primer eje que absorbe casi toda la variabilidad la mayoría de variables e individuos no se representan con calidad.

En el gráfico podemos observar:

  • Universidades muy asociadas con altos valores en Webmetría y Cultura en SL (zona naranja): Fundamentalmente Deusto y UPC, pero también USAL y UCO.
  • Universidades con gran fuerza institucional en el área de Software Libre(área morada): Sobre todo la Universidad Autonóma de Barcelona, y también UA, UJI, UNED, UIB o UEX.
  • La Universidad de Cádiz tiene alto resultado en las tres variables, tanto en aspecto institucional como de cultura en SL.
  • Universidad Rey Juan Carlos destaca sobremanera por su bajo resultado en Webmetría y Cultura en SL.
  • La Universidad de León sobresale por su bajo apoyo institucional.
Análisis Biplot. Plano 1-4

Agrupación de universidades

A) Agrupación a posteriori

En el Ranking 2013, obtuvimos una diferencia muy significativa entre el grupo de Universidades punteras respecto al resto de universidades situadas con resultados similares y a mucha distancia de las primeras. En este análisis Biplot , este resultado parece que se repite encontrnado muchas universidades agrupadas sin mucha diferencia en puntuaciones bajas en los indicadores.

Mediante agrupación de K-medias del método cluster usando las coordenadas obtenidas en biplot y usando como distancia la distancia euclídea al cuadrado, intentaremos hacer 4 grupos de universidades e intentaremos extraer alguna característica que los defina..

Análisis Biplot. Agrupación a posteriori

En el plano 1-2 observamos que el cluster 1 (azul) agrupa a las universidades con mejores resultados en todas las variables. Contiene 10 individuos..

También se aprecia que el cluster 3 (rojo) contiene a las 40 universidades con peor rendimiento en todo el análisis. Para explicar la formación de los otros dos grupos relacionadas a priori con “institución”, “webmetría” y “cultura en SL” recurrimos a la representación del plano 2-3.

Análisis Biplot. Agrupación a posteriori del plano 1-3

Se puede detectar en este plano que el cluster 2 (verde) está caracterizado por la fuerza institucional en lo concerniente al Software Libre, mientras que el Cluster 4 (morado) está formado por las universidades destacadas en Cultura en SL y webmetría.

La siguiente tabla detalla las universidades que contiene cada cluster y sus características:

Clúster Universidades características
1 UGR ULPGC ULL UZ Los mejores resultados en todos los indicadores
UV EHU USC UDC
URJC UNILEON
2 UA UAB UEX UJI Valores intermedios con fuerza en la dimensión institucional
UNIOVI UPM UNED UIB
UDIMA UDG UPO UAM
UDC UNIA UM UCLM
UPNA UAL UCJC UPTC
3 VIU CEU-USP UIMP UCAV Malos resultados en todos los indicadores
UVIC UPCOMILLAS UIC UCAM
UVA-Valladolid UOC UFV UC
UV-Valencia UNIRIOJA UEMC UBU
USJ UNIR UEM UB
URV UNEBRIJA UDL UAX
URL UNAV UCV UAO
UPV UMH UCM UAH
UPSA UMA UCJC MU
UPF UJA UCHCEU IE
4 UC3M US UCO UPC Buena puntuación en Cultura en SL y Webmetría
UHU UDEUSTO USAL UCA

B) Agrupación a priori con indicadores nominales:

Por tamaño de universidad se han considerado 4 grupos:

  • Menos de 5000 alumnos
  • 5.000-25.000 alumnos
  • 25.000-50.000 alumnos
  • Más de 50.000 alumnos

Para ello recurrimos a la técnica de biplot canónico o MANOVA biplot en la que se representan no ya las universidades individualmente sino los grupos de ellas mediante círculos interpretando la posición del círculo como el centroide del grupo y la amplitud como intervalo de confianza de pertenencia al grupo. Así círculos más amplios representan a grupos más pequeños para mantener el nivel de confianza.

La interpretación de esta representación es la misma que para el biplot pero trasladada a términos de comparación de grupos. Si las proyecciones de los círculos sobre una variable no se cortan indica que hay diferencias entre esos grupos en la variable.

Veremos el plano 1-2 resaltando la relación de los grupos respecto a distintos indicadores:

Análisis biplot entre cultura, investigación y divulgación del software libre

En este gráfico observamos las diferencias en las dimensiones “ayuda” y “Administración”.

Las grandes universidades (>50.000 alumnos) presentan diferencias significativas con el resto por sus valores altos en esas variables, el resto de universidades no tienen diferencias en ellas.

Igualmente se puede interpretar para las variables de “investigación” “divulgación” y “Cultura en SL”.

También comparamos las variables “tecnológicos”, “institución” y “producción” en el siguiente gráfico:

Análisis biplot de producción y apoyo institucional

Se agrupan por una parte las universidades medias y grandes –más de 25.000 alumnos- con buenos resultados en ellos, y por otro lado las universidades pequeñas –menos de 25.000- más débiles en esas variables.

En general se observa un ordenamiento relacionado con el tamaño, cuanto más grandes son las universidades mejores resultados ofrecen en todos los indicadores.

Universidad pública o privada

  • 47 universidades públicas
  • 29 universidades privadas

En el plano 1-2 de la representación biplot podemos observar diferencias:

Análisis biplot entre universidades públicas y privadas

Parece que en general las universidades privadas prestan menos atención al SL que las públicas, todas aparecen situadas en posiciones de bajos valores de los indicadores, excepto UDIMA con gran relación con el apoyo institucional.