Inicio  / Análisis estadístico  / Análisis descriptivo multivariante con biplot

Análisis descriptivo multivariante mediante biplot (2012)

¿Qué es el análisis biplot? Es un cálculo de ejes de representación a través de la descomposición factorial. Más información sobre biplot.

Matriz de datos

Consideramos la matriz de datos compuesta por:

  • 76 filas. Las 76 universidades estudiadas.
  • 7 Variables continúas con los indicadores de las dimensiones: Producción, Docencia, Cultura en SL, Tecnológicos, Divulgación, Webmetría, Apoyo institucional.

La manera de conseguir los indicadores es la siguiente: Se suman las puntuaciones de los indicadores asignados a cada dimensión ponderados por sus pesos.

La elección de estos indicadores está determinada por dos razones, se toman las puntuaciones para que la suma no esté distorsionada por las escalas de las variables y se ponderan por los pesos para que la importancia dada por los expertos a cada indicador particular se vea reflejado en las variables de dimensiones usadas.

Usamos estos 7 indicadores para evitar el uso de variables binarias (de los 30 indicadores simples considerados, 11 eran dicotómicos y además varios de los continuos como el número de cursos de formación ofrecen resultados semejantes a una variable discreta binaria), este tipo de variables exigen el uso de un biplot logístico (ofrece resultados en forma de probabilidad de ocurrencia de las variables) transformando todos los indicadores en variables de presencia/ausencia.

Se ha optado por tratar de usar variables continuas con un biplot clásico, y la manera es uniendo indicadores para obtener variables (las dimensiones) con un rango más amplio de resultados que puedan ofrecer un comportamiento continuo.

Además de los problemas de continuidad en las variables, la elección de 7 indicadores en lugar de 30 ya supone una primera simplificación de la matriz de datos que es uno de los objetivos de la técnica. Con tal volumen de variables hubiera sido necesario considerar en torno a 8 ejes para capturar un porcentaje aceptable de información y el número de planos de representación se incrementa exponecialmente. En una matriz de 7 columnas podremos ser capaces de capturar en torno al 75% de la información con 3 o 4 ejes y finalmente interpretar con el mismo número de planos.

Resumen técnico

Se realiza sobre la matriz de datos 76x7 un HJ-Biplot con columnas estandarizadas y como método de obtención de ejes, descomposición de valores singulares.

Calidad de representación

Ejes

El cálculo de valores propios de la matriz factorizada y la cantidad de variabilidad (información) capturada con cada valor propio es:

Eje

Valor propio

Variabilidad explicada.

acumulada

Eje 1

14.823

43.001

43.001

Eje 2

9.115

16.26

59.262

Eje 3

7.992

12.5

71.761

Eje 4

7.734

11.704

83.465

Eje 5

6.067

7.204

90.669

Eje 6

5.255

5.405

96.074

Eje 7

4.479

3.926

100

Nos quedamos con cuatro ejes, ya que aunque con 3 ejes la información capturada ya es aceptable(71.7%) el cuarto eje aporta casi tanta información como el tercero(11.7 frente al 12.5%) y conseguimos un 83.5 % de variabilidad explicada. Con esos cuatro ejes obtenemos casi toda la información de la matriz de datos.

Representación de variables e individuos:

Variables: cantidad de información (sobre cada indicador en cada eje y acumulada):


eje1

eje2

eje3

eje4

acumulada

PRODUCCION

56.1%

0.8%

1.7%

11.8%

70.4%

DOCENCIA

38.3%

7.5%

8.8%

31.2%

85.8%

CULTURA EN SL

57.0%

2.6%

3.2%

15.9%

78.7%

TECNOLOGICOS

21.5%

9.0%

62.1%

3.4%

96.0%

DIVULGACION

62.7%

14.6%

0.7%

1.0%

79.0%

WEBMETRIA

53.7%

19.7%

0.3%

6.7%

80.4%

APOYO INSTITUCIONAL

11.7%

59.5%

10.7%

11.9%

93.8%

Las 7 variables alcanzan óptimos niveles de representación (mayores del 70%).

Individuos


eje1

eje2

eje3

eje4

acumulada

URJC

1%

5%

41%

50%

98%

UNED

19%

3%

2%

73%

98%

EHU

27%

58%

4%

8%

97%

UGR

84%

11%

1%

1%

97%

UDG

42%

16%

26%

13%

96%

UEMC

43%

14%

32%

7%

96%

UMH

43%

14%

32%

7%

96%

UCHCEU

32%

13%

45%

6%

96%

UHU

11%

0%

72%

12%

95%

UC3M

9%

51%

13%

22%

95%

UZ

56%

24%

1%

12%

93%

UAB

16%

65%

1%

12%

93%

ULL

85%

1%

3%

4%

93%

UC

7%

38%

39%

9%

93%

UNIR

62%

3%

23%

3%

92%

UAH

13%

7%

67%

4%

91%

UM

10%

4%

0%

78%

91%

UNAV

56%

24%

10%

0%

91%

UIMP

68%

13%

4%

6%

91%

UNIRIOJA

68%

13%

4%

6%

91%

UBU

68%

13%

4%

6%

91%

UPO

68%

13%

4%

6%

91%

UAX

87%

1%

1%

1%

90%

UPM

1%

1%

12%

77%

90%

UCAV

87%

1%

1%

1%

90%

UAO

87%

1%

1%

1%

90%

UVIC

87%

1%

1%

1%

90%

UCAM

87%

1%

1%

1%

90%

UCJC

89%

0%

0%

1%

90%

UIC

85%

0%

3%

0%

89%

UNILEON

18%

0%

68%

1%

87%

VIU

49%

3%

35%

0%

87%

UVA (Valladolid)

30%

0%

41%

14%

86%

UPNA

48%

26%

12%

0%

85%

USAL

16%

2%

45%

23%

85%

UEM

20%

0%

61%

3%

84%

UJI

2%

49%

31%

2%

83%

UFV

46%

5%

31%

0%

82%

UPCT

3%

0%

38%

41%

82%

ULPGC

30%

38%

8%

7%

82%

UOC

12%

0%

2%

67%

81%

US

57%

10%

8%

5%

80%

UPCOMILLAS

21%

5%

53%

1%

80%

CEU-USP

74%

1%

3%

0%

78%

IE

74%

1%

3%

0%

78%

UDL

10%

11%

12%

45%

78%

UA

39%

26%

13%

0%

78%

USJ

0%

1%

58%

19%

78%

UEX

0%

14%

4%

59%

77%

UCA

39%

30%

0%

9%

77%

UV (Valencia)

3%

0%

71%

3%

77%

UNEBRIJA

27%

1%

48%

0%

76%

UPSA

27%

1%

48%

0%

76%

UDIMA

6%

59%

0%

11%

75%

MU

29%

0%

45%

0%

74%

URV

29%

0%

45%

0%

74%

URL

29%

0%

45%

0%

74%

UCV

29%

0%

45%

0%

74%

UAM

7%

1%

10%

55%

73%

UAL

33%

26%

13%

1%

73%

UIB

0%

37%

18%

17%

72%

UPF

13%

2%

52%

5%

72%

UCM

28%

4%

10%

28%

70%

UCO

1%

1%

45%

23%

69%

UNIOVI

8%

2%

47%

9%

66%

UDEUSTO

5%

1%

37%

20%

63%

UMA

5%

2%

43%

11%

61%

UV

13%

7%

28%

2%

50%

UPC

31%

0%

3%

9%

43%

UPV

0%

3%

21%

18%

41%

UB

1%

8%

8%

20%

37%

USC

0%

2%

0%

30%

32%

UCLM

0%

12%

4%

11%

28%

UJA

8%

15%

3%

0%

26%

En general buenos porcentajes de representación, sólo podemos tener problemas para representar UB, USC, UCLM, UJA con baja calidad en los cuatro ejes.

A la vista de los resultados en calidad de representación y dado que el eje1 captura casi el 50% de la variabilidad de los datos se opta por representar los planos con los ejes 1-2 ; 1-3 y 1-4.

Representación Biplot

Plano 1-2

Análisis Biplot. Plano 1-2

Representando las variables de universidades con calidad suficiente en ese plano(superior a 25%) encontramos ciertos datos relevantes:

  • Hay 4 universidades(zona verde), UGR, US, ULL, y UZ que destacan del resto con resultados muy buenos en las variables webmetría, divulgación, producción, cultura en SL y docencia.
  • Un grupo de 8 universidades(zona roja) que destacan por el Apoyo institucional.
  • Un gran grupo(zona azul) que presenta valores bajos en todas las variables.
  • Existe una alta relación entre los indicadores de Webmetría y Divulgación y entre los indicadores Cultura en SL y Docencia.

Plano 1-3

  • Aparece un grupo de universidades muy relacionadas con los valores tecnológicos destacando la UVA de Valladolid.
  • UCA, UPC, EHU y ULPGC presentan valores altos en los indicadores aunque no en el extremo del grupo observado en los planos 1-2 y 1-3 (UGR,US,ULL y UZ)
  • Producción también presenta relación con Webmetría y Divulgación.
Análisis Biplot. Plano 1-3

Plano 1-4

  • 6 universidades: USAL, EHU, UVA, UC3M y UCA, muy asociadas a los indicadores de cultura en SL.
  • 5 universidades: UNED, UM, UOC, UPC y ULPGC asociadas a valores altos de los indicadores de docencia y producción.
Análisis Biplot. Plano 1-4

Agrupación de universidades

A) Agrupación a posteriori

A la vista de los planos de representación y recordando las agrupaciones del ranking de universidades, se busca establecer 4 clusters de universidades con características similares en los indicadores y establecer cuáles de estos indicadores son más relevantes en cada cluster: Se usa el método de cluster k-medias(ya que queremos 4 grupos) usando las coordenadas de los individuos obtenidas en el biplot y como distancia la euclídea al cuadrado.

Análisis Biplot. Agrupación a posteriori

En el plano 1-2 observamos que el cluster 4(morado) está caracterizado por resultados altamente destacados en las variables webmetría, divulgación , producción, cultura en SL, docencia y tecnológico. Son las universidades con mejor puntuación en el ranking.

El cluster 1 (azul) formado por 8 universidades que se agrupan en torno al indicador de apoyo institucional. Los otros dos clusters se diferencian mejor en el plano 1-3:

Análisis Biplot. Agrupación a posteriori del plano 1-3

En él apreciamos que el cluster 2 lo forman las universidades con valores bajos en todos los indicadores y el cluster3 parece determinado en gran medida por los indicadores tecnológicos, aunque hay algunas universidades con más asociación con otros indicadores como UNED y docencia.

Resumiendo en una tabla las universidades de cada cluster y su características:

CLUSTER

UNIVERSIDADES

CARACTERISTICAS

1

UC3M

EHU

UDIMA

UCA

alto apoyo institucional


UAB

UIB

UJI

ULPGC







2

CEU-USP

UA

UC

UBU

malos resultados en todas las dimensiones


IE

UAH

UCAM

UPCOMILLAS


UAX

UAL

UCAV

UIC


UEMC

UFV

UCHCEU

UIMP


UDG

UMH

UCJC

UPNA


UNIRIOJA

UNAV

UNIR

UPO


URJC

UVIC

UAO








3

MU

UAM

UB

UDL

valores intermedios

asociación con indicadores tecnológicos

asociación con indicadores de docencia


UNIA

URL

UCLM

UEM


UNILEON

URV

UCM

UEX


UNIOVI

USAL

UCO

UHU


UOC

USC

UCV

UJA


UPC

USJ

UDC

UM


UPCT

UV

UDEUSTO

UMA


UPF

UV (Valencia)

UPSA

UNEBRIJA


UPM

UVA (Valladolid)

UPV

UNED


VIU










4

UGR

UZ

ULL

US

Puntuación alta en las dimensiones



B) Agrupación a priori con indicadores nominales:

Por tamaño de universidad se han considerado 4 grupos:

  • Menos de 10000 alumnos
  • 10.000-25.000 alumnos
  • 25.000-50.000 alumnos
  • Más de 50.000 alumnos

Para ello recurrimos a la técnica de biplot canónico o MANOVA biplot en la que se representan no ya las universidades individualmente sino los grupos de ellas mediante círculos interpretando la posición del círculo como el centroide del grupo y la amplitud como intervalo de confianza de pertenencia al grupo. Así círculos más amplios representan a grupos más pequeños para mantener el nivel de confianza.

La interpretación de esta representación es la misma que para el biplot, pero trasladada a términos de comparación de grupos. Si las proyecciones de los círculos sobre una variable no se cortan indica que hay diferencias entre esos grupos en la variable.

Análisis biplot entre cultura, docencia y divulgación del software libre

En este gráfico observamos las diferencias en las dimensiones “Cultura en SL”, “Docencia” y “Divulgación”. Las grandes universidades (>50.000 alumnos)presentan diferencias significativas con el resto por sus valores altos en esas variables y las pequeñas(<10.000 alumnos) por sus valores muy bajos, los dos grupos de tamaño medio no se diferencian en estos indicadores, ya que sus proyecciones sobre esas variables coinciden.

Sin embargo sí existen diferencias entre esos dos grupos, además de entre los grupos más extremos, en cuanto a producción y apoyo institucional.

Análisis biplot de producción y apoyo institucional

Las proyecciones en producción y apoyo institucional no coinciden para los tamaños intermedios. Las universidades de tamaño medio bajo (10.000-25.000) presentan mayores valores en apoyo institucional(SL en estatutos y plan de SL) y más bajos en producción que las de tamaño medio-alto(25.000-50.000 alumnos) en cuanto a producción no se encuentran diferencias entre el pequeño tamaño y el medio-bajo. En apoyo institucional no se encuentran diferencias significativas entre pequeñas, medio-grandes y grandes.

Universidad pública o privada

  • 47 universidades públicas
  • 29 universidades privadas

En el plano 1-2 de la representación biplot podemos observar diferencias:

Análisis biplot entre universidades públicas y privadas

Parece que en general las universidades privadas prestan menos atención al SL que las públicas, todas aparecen situadas en posiciones de bajos valores de los indicadores, excepto UDIMA con gran relación con el apoyo institucional.