
Impacto de los autores
En la comunidad científica utilizando Teoría de Grafos
Identificar el impacto de los autores a través de sus publicaciones científicas se ha convertido en un problema para los profesionales de la información, es por ello que para poder entender el impacto de un autor es necesario utilizar métricas cuantitativas para medir la eficacia de la publicación del investigador y la importancia de las publicaciones. Es importante medir el impacto de un autor en la comunidad científica y representarlo numéricamente para poder prever el perfil de un autor en aspectos: colaborativos, influencia, calidad de publicaciones y también lograr clasificar los autores por dichos aspectos.
A menudo el número de veces que ha sido citado un autor o una publicación suelen ser la principal característica para medir el impacto o influencia del mismo. Como afirma Meho, el análisis de citas asume que las publicaciones son influyentes o que los autores son citados con más frecuencia que otros (Lockman, 2007).
Algunos científicos exitosos han hecho solo una contribución importante en su carrera, mientras que otros han sido productivos durante toda su carrera; Egghe y Rousseau afirman que el número de citas se basan en cuatro supuestos importantes: la cita de un artículo implica el uso de ese documento por el autor que cita; la cita refleja el mérito (calidad, importancia, impacto) del artículo; las referencias son de los mejores trabajos posibles sobre el tema; y los artículos citados están relacionados en contenido con aquel en el que se utilizan (Egghe & Rousseau, 1990).
Debido a la cantidad de factores a considerar resulta difícil clasificar a los autores y construir una métrica precisa que permita determinar el impacto de un determinado autor.
El propósito de esta investigación es representar el impacto de los autores en la comunidad científica mediante el análisis de redes utilizando teoría de grafos, aplicando métricas de centralidad que permiten identificar autores importantes y autores colaborativos. Los diferentes enfoques toman como característica principal el número de conexiones entre los autores, es decir las colaboraciones que posean entre sí.
El objetivo principal de la investigación es identificar autores importantes en la comunidad científica a través del estudio de redes, utilizando teoría de grafos construyendo una metodología más, que permita evaluar la calidad de publicador de un autor desde otro enfoque. Se utilizaron diferentes herramientas para poder realizar la investigación, desde el proceso de preparación de los temas, recolección de los datos necesarios en base de datos de Google Scholar, WOS y Arnetminer, el análisis de los datos a través del desarrollo de algoritmos escritos en JAVA y el software Cytoscape; finalmente el desarrollo de una métrica que permita evaluar al autor desde su aspecto individual y colaborativo con el fin de complementar otras métricas ya existentes.
Se realizaron análisis de diferentes enfoques tomando en cuenta el factor colaborativo de los autores como característica principal para realizar los cálculos, posteriormente la validación de los datos comparando los resultados con el índice-h. Los resultados obtenidos reflejan que para cada análisis por centralidad desde distintos enfoques los autores poseen propiedades que permite clasificarlos posteriormente.
En esta sección se provee la información para sustentar teóricamente la investigación y qué herramientas fueron utilizadas a lo largo del proceso del análisis de la red de coautorías.
Material recomendado:
Se desarrollaron algoritmos para realizar tareas específicas en JAVA utlizando NetBeans como entorno de desarrollo integrado, los links de los repositorios se encuentran a continuación junto al conjunto de datos utilizados:
CONCEPTOS Y DEFINICIONES BÁSICAS
Para poder determinar la importancia de los autores en la Red de coautorías, se aplican métricas de centralidades que permiten medir la importancia que representa el autor en la red. El análisis de las centralidades se aplica a una red de coautorías la cual denota ciertas características importantes. La Ilustración 1 muestra la vista de la red de coautorías en Cytoscape.
Ilustración 1. Vista general de la Red De Publicaciones.
Centralidad en redes
Las centralidades en una red indican la importancia de los vértices dentro de la red con respecto a su posición con los demás vértices, existen distintos tipos de centralidades, por ejemplo: Cercanía, intermediación, excentricidad, grado (Junker & Schreiber, Network Centralities, 2008).
Centralidad de cercanía
La centralidad se centra en la distancia geodésica de cada nodo en relación a todos los demás nodos en la red. La cercanía puede considerarse como una medida de cuánto tiempo tomará para que la información se propague de un determinado nodo a los otros nodos en la red (Junker & Schreiber, Closeness Centrality, 2008). La Ecuación 1 muestra cómo se calcula la centralidad de cercanía.
Centralidad de Intermediación
La centralidad de intermediación se basa en el número de caminos más cortos que pasan a través de un nodo. Los nodos con una alta intermediación juegan el papel importante de conectar a los diferentes grupos de nodos (Junker & Schreiber, Shortest Path Betweeenness Centrality, 2008). La Ecuación 2 muestra cómo se calcula la centralidad de intermediación.
Centralidad de Grado
La centralidad de grado es igual al número de aristas que un nodo tiene con otros nodos dentro de la red (Junker & Schreiber, Degree Centrality, 2008). La Ecuación 3 muestra cómo se calcula la centralidad de grado.
Centralidad de Bonacich
La centralidad de Bonacich fue presentada por Phillip Bonacich. Esta consiste en considerar la centralidad de grado que poseen los nodos que están directamente conectados al nodo al que se pretende calcular la centralidad. Si los nodos vecinos poseen una alta centralidad de grado, la centralidad de Bonacich resultará ser alta debido a que es la sumatoria de todas las centralidades de grado de los nodos directamente conectados. En la Ecuación 4 se muestra la fórmula para el cálculo de esta centralidad.
Red De Publicaciones toma un conjunto de N publicaciones de diferentes tópicos y establece relaciones entre los autores (aquellos autores que posean colaboraciones con otros). Las relaciones y los autores se trasladan a un dato de tipo abstracto denominada Grafo (formando una red) donde cada relación representa una arista(R) y cada autor(A) representa un vértice estableciendo un grafo G = (A, R). Entre más aristas posea un autor (más colaboraciones) aumenta su grado que es un criterio importante dentro del análisis; también se consideran las centralidades de un grafo (Centralidad: indica los vértices más importantes dentro del grafo) dentro de la red. Un nodo con alta Centralidad de Intermediación, Cercanía y Grado representa una gran influencia dentro de la red, un factor importante dentro de la construcción de la red son las 3 maneras distintas en que se aborda la característica de colaboración: Una colaboración entre autores, Número de colaboración dentro del conjunto y el Número de colaboraciones internacionales dentro del conjunto, finalmente se hace un análisis con la centralidad de Bonacich.
ENFOQUE PARA EL ANÁLISIS DE LA RED DE COAUTORÍAS
A diferencia de los enfoques de Índice-h y El Factor de Impacto, la Red De Publicaciones se enfoca en considerar el número de colaboraciones que un autor tiene, como también el cálculo de ciertas métricas dentro de la red: Grado de Centralidad, Centralidad de Intermediación y Centralidad de Cercanía para medir la influencia del mismo. Se extrae un conjunto “N” de publicaciones para construir relaciones entre los autores(colaboraciones), aquellos autores que han colaborado entre sí en diferentes publicaciones.
La Red De Publicaciones es formada a través de un dato de tipo abstracto denominado “Grafo” que básicamente es un objeto geométrico, aunque en realidad sea un objeto combinatorio, es decir, un conjunto de nodos y un conjunto de aristas que unen cada par de vértices; en la red de autores los nodos representan los autores y las aristas representan las colaboraciones entre un par de autores. La Red cuenta con 19,948 autores y 46,068 colaboraciones construidas a partir de aproximadamente un conjunto de 30,000 publicaciones extraídas de la página web de UTDallas, utilizando algoritmos escritos en Java para buscar en el sitio web diferentes publicaciones mediante técnicas de “Crawler” y posteriormente haciendo un análisis del código HTML mediante la librería de Java JSoup para poder extraer la información de cada una de las publicaciones.
Una vez que la red se ha definido con la relación: Autor “1”, Autor “2”, Número de colaboraciones entre sí, el Grado de cada autor representaría el número de colaboraciones totales que cada uno posee. Se procede a formar la red utilizando la herramienta de software Cytoscape; luego se hace un análisis de la red para determinar las centralidades de cada uno de los nodos. 20 Con el análisis de cada uno de los nodos, el resultado del top 40 de cada centralidad es comparado con el índice-h que AMiner, Google Scholar y Web Of Science posean actualmente de cada autor; siendo el orden por centralidades: Grado, Cercanía e Intermediación. Finalmente se hace una intersección de todas las centralidades y nuevamente es comparado con el índice-h.
La red de coautorías fue creada bajo el proceso:
Una colaboración entre autores
Este enfoque considera que solo existe una colaboración entre los autores que posean relación, no considera si existen más relaciones o colaboraciones entre los autores. De esta manera la distancia entre cada par de vértices que representan los autores es igual a 1.
Número de colaboraciones dentro de la red de coautorías
Este enfoque considera el número de colaboraciones existentes entre un par de autores dentro del conjunto de publicaciones. De tal forma que la colaboración resulta ser el inverso para poder acortar las distancias entre los autores. La Ecuación 5 muestra cómo se calcula esta métrica.
Donde : NC es la sumatoria de todas las colaboraciones entre el par de autores.
Número de colaboraciones internacionales entre los autores
Este enfoque considera el número de colaboraciones existentes entre un par de autores con la característica de que si la colaboración es con un autor internacional esta tiene el doble de valor. Para poder determinar este tipo de relación fue necesario crear un programa en Java que hiciera peticiones por medio de SOAP a los servidores de Thomson Reuters para obtener la afiliación de cada uno de los autores. La Ecuación 6 muestra el cálculo de esta métrica.
Donde:
NCI es la sumatoria de todas las colaboraciones entre el par de autores, internacional y no internacional. Este valor no puede ser 0 debido a que solo se construyen relaciones entre autores que posean colaboraciones, es
decir que debe existir al menos una colaboración para establecer la relación.
Ln representa el logaritmo natural.
De cada análisis por centralidad se extrajeron los primeros 40 autores con mayor valor en cada categoría, luego estos resultados se comparan con las citas y el índice-h que los autores posean actualmente. A continuación se detalla un ejemplo de uno de los análisis desde un enfoque. Para resumir , se omitiran los demás y se pasará al resultado final del análisis.
Análisis una colaboración entre autores
Resultado del análisis con las centralidades
Todas las centralidades aplicadas para realizar los análisis en los diferentes enfoques ofrecen resultados de precisión y especificidad similares, se alcanza un máximo de 70% para precisión y 67% para especificidad con la centralidad de Bonacich, sin embargo, cada centralidad representa una característica distinta en cada autor.
La centralidad de cercanía refleja la distancia relativa que un autor tiene respecto al resto del conjunto de autores, lo que permite determinar la cercanía de un autor en una red de autores específica, por ejemplo: autores de publicaciones sobre administración, negocios, informática etc. De esta manera se puede clasificar a los autores en su sentido de cercanía con la comunidad científica de manera general y específica en algún campo de estudio.
La centralidad de intermediación permite determinar la importancia de conectividad que un autor posee, permitiendo así identificar aquellos autores que sean de suma importancia para el flujo de información dentro de la red. Mediante esta centralidad se podría generar una clasificación de autores en una red específica o general obteniendo así los ejes principales para la propagación del conocimiento.
La centralidad de grado determina el factor colaborativo de un autor, qué tan abierto a colaboraciones un autor resulta ser. Es importante identificar este tipo de autores para el desarrollo de colaboraciones científicas que permiten grandes avances investigativos en diversos temas.
La centralidad de Bonacich permite identificar el entorno colaborativo en el que un autor se desenvuelve ya que considera el factor colaborativo individual de los autores con los cuales tiene una relación directa. Esta centralidad es importante para generar una clasificación de los autores por entorno; generando una relación selectiva o no de los autores entre sí.
La aplicación de las centralidades en el análisis de redes permite identificar diferentes características importantes en los autores, por ende, es posible generar una métrica que involucre las diferentes características que cada una de las centralidades provee para clasificar a los autores tanto en factor colaborativo como individual.
La métrica D&A-índice tiene como propósito principal generar un complemento para algunas de las métricas existentes. Esta considera tanto el factor individual como también el factor colaborativo de los autores llegando a tener similitudes con aquellas métricas de medición individual entre un 50% y 60%, lo cual se complementa entre un 50% y 40% de factor colaborativo de cada autor.
La Ecuación 7 muestra como calcular M que es el índice asociado al autor antes de su normalización.
Donde:
La Ecuación 8 muestra el cálculo del índice D&A después de la normalización de los datos. La fórmula general un valor entre 0 y 1 donde 0 representa el valor de menos prestigio y 1 el de mayor prestigio dentro de la red de coautorías.
Donde:
1 Se construyó una métrica que permite evaluar a los autores considerando su aspecto colaborativo e individual. El D&A índice considera la centralidad de cercanía, intermediación y grado, haciendo una sumatoria de estas, considerando que la centralidad de grado se divide por la cantidad de colaboraciones totales dentro de la red generando así, un promedio colaborativo del autor. Al final se realiza una normalización para representar la importancia del autor entre un 0 y 1 donde 1 es el valor de más prestigio.
2 Efectivamente se aplicó la teoría de grafos centrado en la aplicabilidad de las centralidades de cercanía, intermediación, grado y Bonacich para realizar los diferentes análisis dentro de la red de coautorías, lo que permitió descubrir factores importantes e interesantes de cada autor. La centralidad de Cercanía identifica la distancia relativa de un autor hacia los demás autores permitiendo así clasificar al autor por su cercanía hacía una red específica de autores en un campo puntual de investigación. La centralidad de Intermediación refleja la importancia de conectividad que un autor posee y el papel que juega en la propagación de la información dentro de la red. La centralidad de Grado permite identificar a los autores en su factor colaborativo y la centralidad de Bonacich permite identificar en qué entorno colaborativo o no se desenvuelve un determinado autor.
3 Se identificaron autores que resultan ser importantes en la comunidad científica, se tomó como referencia el índice h que es uno de los índices de mayor prestigio a nivel global. Los resultados se acercaron hasta un 60% lo que indica que: aunque no exista una relación directa entre los índices, ambos logran clasificar autores importantes.
4 Aplicando la centralidad de Grado se obtuvieron los autores más colaborativos dentro de la red, aquellos autores que poseen más relaciones directas con otros autores. Aplicando la centralidad de Bonacich se identificaron autores y colaborativos y en qué ambiente colaborativo se desenvuelven, tomando en cuenta las relaciones directas e indirectas de los autores.
5 El factor K representado como el peso de la arista o relación entre autores, influye en el análisis debido a que en las centralidades se consideran los caminos más cortos entre los autores este camino es presentado por el escalar K, entre mayor sea el factor K la distancia será menor entre los autores y se reduce ya que se calcula el inverso (1/K).
¿Qué proceso de análisis podría mejorar la manera en que se mide la calidad de publicador de un autor?
El proceso de análisis de redes de coautorías permite medir la calidad de publicador de un autor desde el aspecto individual hasta el colaborativo. El análisis podría mejorarse si se consideran otros factores o características de los autores, por ejemplo: conferencias locales o internacionales; entre otras.
¿El estudio de las redes sociales permite identificar autores importantes en la comunidad científica?
Efectivamente el análisis de redes permite identificar autores importantes en la comunidad científica, se ha demostrado que las diferentes centralidades indican diferentes factores que poseen los autores lo cual resulta ser importante para la clasificación de los mismos.
¿Existe un factor “K” que permita mejorar el análisis del impacto del autor a través del estudio de redes de coautorías?
Al realizar los diferentes enfoques, el factor ‘K’ considerado como el peso de la arista influía en los cálculos de las diferentes centralidades, lo que indica que puede existir un factor ‘K’ que mejore la clasificación de los autores por medio del análisis de redes.