CONTENIDOS DE INTERÉS RELACIONADOS CON LA EVALUACIÓN DE LA CIENCIA Y LA COMUNICACIÓN CIENTÍFICA

INDIZACIÓN NOMBRES ESPAÑOLES EN BASES DE DATOS: ISI, MEDLINE

ESTRATEGIAS PARA LA RECUPERACIÓN DE INFORMACIÓN POR NOMBRES DE AUTORES ESPAÑOLES EN BASES DE DATOS INTERNACIONALES EN LENGUA INGLESA

COMO DEBEN FIRMAR LOS AUTORES ESPAÑOLES SUS TRABAJOS DESTINADOS A REVISTAS NACIONALES E INTERNACIONALES INDIZADAS EN BASES DE DATOS EN LENGUA INGLESA


En un estudio reciente realizado por nuestro grupo de investigación (Ruiz-Pérez R., Delgado López-Cózar E. Jiménez-Contreras E. Spanish personal names variations in national and international biomedical databases: implications for information retrieval and bibliometric studies. J Med Libr Assoc 2002; 90:411-430) se analiza un problema que se viene apuntando desde hace algún tiempo: el inadecuado tratamiento que reciben los nombres españoles en las BD internacionales en lengua inglesa y sus consecuencias para la recuperación de información y para la fiabilidad de los estudios bibliométricos. Con el fin de poner a disposición de la comunidad científica las conclusiones obtenidas y sus posibles utilidades, recogemos aquí un resumen informativo del mismo.

Se descubre que en torno al 50% de los autores españoles recogidos en las BD del SCIENCE CITATION INDEX y MEDLINE presentan dos o más formas distintas en la indización de su nombre, siendo el intervalo comprendido entre 2 y 4 variantes el más significativo. Como valor extremo se detecta algún caso que presenta 7 variantes para el nombre de un mismo autor (tabla 1)

Tabla 1. Distribución del número de autores por n variantes en SCI y MEDLINE.

n
Variantes
SCI MEDLINE
Núm. autores % Núm. autores %
1 67 51.9 69 49.3
2 36 27.9 43 30.7
3 22 17.1 13 9.3
4 4 3.1 11 7.9
5 0 0 3 2.1
6 0 0 0 0
7 0 0 1 0.7
Total 2-7 62 48.1 71 50.7
Total n 129 100 140 100

Con el fin de obtener una lectura más detallada del problema, se procedió a estudiar las variantes en relación con la productividad. Si tenemos en cuenta que la variabilidad es necesariamente 0 (n =1) para aquellos autores con un solo trabajo, se comprobó que el incremento en el número de trabajos producidos por un autor, origina, de un lado, un incremento en el número de variantes con las que dicho autor es indexado, de otro, un incremento en el número de autores que se ven afectados por la variabilidad. Así, para una productividad de entre 2-3 trabajos, la variabilidad llega a afectar al 40% de los autores. Para una productividad de entre 5-10 trabajos, la variabilidad afecta a más del 50%. Entre los autores muy productivos (10 o más trabajos) la variabilidad alcanza a casi el 90%, siendo muy pocos los autores (10%) que con más de 10 trabajos presenta una única forma de indización.

Estos datos son especialmente significativos para poder detectar las prácticas de publicación (firma de los trabajos) de los autores españoles, pues frente a aquellos que presentan una variabilidad alta o muy alta en su nombre hasta el extremo de que cada uno de sus trabajos aparece asociado a una forma distinta de su nombre , hay un reducido grupo, que pese a su elevada producción, presentan una única forma del nombre asociada con todos sus trabajos, esto es, mantienen una uniformidad absoluta.

Por último, con el fin de detectar cuales son las formas de indización más significativas en cada BD (tabla 2) y en consecuencia averiguar sus prácticas de indización, se analizaron las frecuencias que presentan las distintas estructuras de nombre encontradas (variantes).

Tabla 2. Frecuencia de las diferentes variantes en cada BD

Variantes SCI MEDLINE
Núm. % Orden Núm. % Orden
1Apellido 2Apellido, IN 2 0.19 22 507 32.9 1
1Apellido, IN 380 35.8 1 389 25.2 2
1Apellido, I1N I2N 130 12.2 3 195 12.7 3
1Apellido 2Apellido, I1N I2N 0 0 -- 135 8.8 4
1Apellido, I1N 65 6.1 5 80 5.2 5
1Apellido, I2N 40 3.8   39 2.5  
1Apellido p 2Apellido, IN 0 0   36 2.3  
1Apellido 2Apellido, I1N 0 0   26 1.7  
1Apellido p 2Apellido, I1N I2N 0 0   22 1.4  
1Apellido, I2A IN 20 1.9   21 1.4  
1Apellido2Apellido, IN 193 18.3 2 19 1.2 11
2Apellido, IN I1A 76 7.1 2 1 0.1 12
P2Apellido, IN I1A 48 4.5   2 0.1  
1Apellido2Apellido, I1N I2N 45 4.2   0 0  
2Apellido, I1N I2N I1A 21 1.9   0 0  
P2Apellido, I1N I2N I1A 15 1.5   0 0  
Otras 28 2.6   65 4.5  
Total 1063 100   1541 100  

IN= Inicial Nombre; I1N= Inicial Primer Nombre; I2N= Inicial Segundo Nombre; I1A= Inicial Primer Apellido; I2A= Inicial Segundo Apellido; P y p= Partícula (Preposición, Artículo, contracción preposición + artículo)

Se observó que las cinco primeras formas dominante de indización de los nombres españoles en MEDLINE son las que responden, por orden de importancia, a los siguientes ejemplos: 1 Álvarez Guisado, L con un 32,9%; 2 Aguilar, D con el 25,2%; 3 García, J M con el 12,7%, 4 Herrero Mateo, L M con el 8,8% y 5 Peña, J para Juan Francisco Peña Angulo, con un 5,2%.

Sin embargo, para el SCI la situación cambia de forma notable. En esta BD las cinco estructuras dominantes son: 1 Hernández, J con el 35,8%; 2 la formada con la unión de los dos apellidos y la inicial del nombre (Francisco Fernández Cervilla produce Fernándezcervilla, F) con el 18,3%; 3 García, J M con el 12%; 4 la representada por Extremera, B G procedente de Blas Gil Extremera con el 7,1% y la 5 Peña J coincidente con la de MEDLINE. El resto de las estructuras tienen, para las dos BD, valores poco significativos por debajo del 5%, si bien nada despreciables para la recuperación de información pues siempre nos quedaría la duda de no haber localizado todos los trabajos de un autor.

CONCLUSIONES

Los datos ponen de manifiesto la magnitud del problema analizado dado que la mitad de los autores recogidos en estas BD presentan variabilidad en sus estructuras de indización. Pero por otra parte, esta proporción adquiere una mayor relevancia si tenemos en cuenta que la correlación variabilidad-productividad descubre que, para el 50% restante, un 40% no presenta variabilidad por que no es posible que ello ocurra, esto es, por tener un solo trabajo recogido en las BD estudiadas. En consecuencia, tan solo un 10% de los autores que tienen mas de un trabajo recogido presentan uniformidad en su forma de indización.

Todo ello, junto al análisis de las frecuencias que presentan las distintas estructuras de nombre encontradas (tabla 2, variantes), nos lleva a afirmar que la variabilidad en la indización de los nombres españoles en las BD en lengua inglesa tiene su origen en dos causas fundamentales: por un lado en las distintas formas de nombre que los autores españoles utilizan al firmar sus trabajos a lo largo de su producción científica publicada en revistas, y por otro, en las prácticas de indización, en general adaptadas a las estructuras de nombres ingleses, que utilizan las BD.

Estas prácticas de indización no solo no corrigen el problema inicial de firma mediante la unificación de las entradas de nombre en el proceso de carga de datos (control de autoridades), sino que en muchos casos incrementan el número de variantes. No obstante, hay que decir en favor de MEDLINE que sus prácticas de indización se adaptan bastante bien a las estructuras de nombres españoles dado que produce formas lógicas y adecuadas de indización para la mayoría de los casos (tabla 2, 5 primeras estructuras dominantes).

En el SCI, sin embargo, el problema es mas grave pues produce, en proporciones considerables (tabla 2, 2 y 4 estructura dominante), formas ilógicas e impensables para nuestros nombres, siendo especialmente significativo el hecho de que la estructura de indización estándar para los nombres españoles (1Apellido 2Apellido, IN) esté prácticamente ausente en esta BD (0.19%). Esto ocurre por que la regla general aplicada "the general rule is that the final name presented is taken as the surname -this applies to all languages-. All other names presented are processed as initials", está pensada para la estructura estándar (Name and Surname) de los nombres en lengua inglesa. De tal suerte, el sistema del SCI, ante cualquier estructura de nombre que se encuentra, siempre considera que la parte final de la misma es el apellido (Surname), y por tanto, el elemento de entrada, mientras que el resto de las partes de esa estructura son procesadas como iniciales pospuestas (José Bermúdez García produce García, JB y José María Bermúdez García produce García, JMB ). El sistema del ISI contempla además una excepción para todas las lenguas: las partículas que enlazan el nombre con el apellido son consideradas como parte del apellido "Specific rule for particles: particles are included as part of the surname. There is a list of accepted particles thas is applied to all languages" (Juan Luis Del Árbol produce Delarbol, JL). Por ultimo, una norma específica para los "spanish names" nos confirma las nefastas consecuencias del procedimiento aplicado: "Compound names joined by y or e are split so that thee last name presented is processed as the surname, and the conjunction is taken as an initial" (María González y Rodriguez produce Rodriguez, MGY)

Según los criterios aplicados y considerando que la estructura estándar de nombre español es Nombre(s) 1Apellido 2Apellido, las primeras estructuras de indización dominante en el SCI deberían ser 2Apellido, IN. I1A (García, JB) y 2Apellido, I1N I2N I1A (García, JMB), sin embargo no es así, situándose por delante de ellas precisamente las que derivan de aquellos autores que han utilizado al firmar sus trabajos formas de su nombre adaptadas a los usos anglosajones, y ello mediante tres procedimientos: a) firmando con Nombre 1Apellido (Antonio Campos), lo que nos da en SCI la primera variable dominante (Campos, A) b) firmando con Nombre I2N 1Apellido (Ana M Castillo), lo que nos da la tercera variable dominante (Castillo, AM) c) o bien, firmando con su nombre completo pero uniendo los dos Apellidos por - , esto es Fernando Escobar-Jiménez, lo que da en SCI la segunda variable dominante (Escobarjimenez, F)

APLICACIONES

Como aplicación práctica de estas conclusiones, se sugieren un conjunto de recomendaciones que podrían ser aplicadas por los distintos agentes implicados en la información científica canalizada a través de las BD. Por un lado, si pretendemos atajar el problema en su origen, estas irán dirigidas a los autores de los trabajos y a las revistas que los recogen. Por el contrario, si pretendemos aportar soluciones en la fase final del proceso, las recomendaciones afectan a las propias BD y en última instancia a sus usuarios.

Para los autores se recomienda un cambio de comportamiento: que firmen sus trabajos utilizando siempre un nombre de pluma único. Para los jóvenes investigadores que lo hagan desde el comienzo mismo de su carrera y lo mantengan a lo largo de su vida profesional. Los datos sugieren que la forma mas adecuada de este nombre de pluma para reducir la variabilidad de los nombres hispanos en las BD internacionales sería: Nombre 1Apellido o bien 1Nombre I2N 1Apellido (I2N= Inicial 2 Nombre para que este, en ningún caso, sea tomado como el primer apellido), esto es, adaptado a la estructura anglosajona y evitando siempre las partículas. El uso del Nombre o del 1Nombre en su forma completa es indiferente dado que siempre lo reducen a la inicial.

Esta solución, sin embargo, presenta algunas interrogantes: 1) de entrada, renuncia a exigir cualquier implicación de las BD en la solución del problema, 2) que los autores hispanos estén o no dispuestos a amputar su nombre, lo que implica renunciar a su propia identidad lingística, 3) el uso exclusivo del primer apellido y de la inicial del nombre agravaría los problemas de homonimia y las confusiones de identificación en aquellos caso en que un mismo Apellido e Inicial representen a autores distintos. En cualquier caso, suponiendo que las BD en algún momento intenten paliar estas homonimias introduciendo el nombre completo, sería conveniente utilizarlo.

Otra solución que se ha venido manejando, consistente en unir los dos apellido por guión para que sean tomados como un solo elemento de indización, podría resultar más efectiva para reducir los problemas de homonimia apuntados anteriormente y evitaría así mismo la amputación. Aunque el SCI ha venido eliminando el guión y juntando los apellidos originando una estructura totalmente incoherente para autores españoles (Francisco Pérez-Blanco produce Perezblanco, F.) últimamente han corregido el sistema manteniendo el guión (Francisco Pérez-Blanco produce Perez-Blanco, F)

Para las revistas, recomendamos que actúen como filtro normalizador en los procesos de transferencia de la información, a saber: 1) introduciendo medidas correctoras en los procesos de revisión de originales para paliar la indisciplina de firma de los autores, 2) unificando los nombres de los autores allí donde aparezcan dentro de la revista (cabeceras de los artículos, sumarios, índices, etc.), 3) forzar el uso de un nombre de pluma mediante prescripciones muy precisas en las instrucciones a autores.

Para las BD, y dada la gran cantidad de información que procesan, parece poco probable que a corto plazo puedan implicarse en la resolución del problema, sin embargo, ello no les excusa de conocer y asumir sus responsabilidades. Estas se traducen en aplicar procedimientos de control que aseguren la forma única con que un mismo autor ha de ser siempre indexado. Para el SCI en particular, y puesto que se tiene por la mejor BD internacional, es preciso que adapte sus mecanismos de indización a las distintas estructuras lingísticas con las que trabaja. La aplicación generalizada de reglas de indización anglosajonas da como resultado la distorsión sistemática de las estructuras nominales no anglosajonas. Han de tener en cuenta por tanto, que en procesos de búsqueda que utilicen nombres personales hispanos que pretendan recuperar todos los trabajos de un conjunto de autores, para el 50% o más de los casos habrían de efectuarse dos o más intentos de búsqueda. Si utilizáramos técnicas de browsing, tendríamos que descubrir cuales son los trabajos asociados a un mismo autor representado en el índice por distintas formas de su nombre.

Para los usuarios, y con el objeto de incrementar la eficacia en los procesos de recuperación de información, así como para mejorar los resultados de los análisis bibliométricos, se habrán de adoptar algunas precauciones: Para búsquedas en las que se utilicen nombres de autores españoles, la tabla 3 nos proporciona las posibles variantes o formas del nombre que habrán de utilizarse como términos de recuperación, y ello, teniendo en cuenta: 1) que la estructura estándar de nombre español es Nombre(s) 1Apellido 2Apellido y 2) los distintos usos de firma que los autores pueden emplear a partir de dicha estructura. Así mismo, en la referida tabla se establece el orden de importancia para la recuperación de información que cada variante utilizada tiene según la BD y el porcentaje aproximado de referencias que obtendríamos con cada una sobre el total posible. A medida que el nombre del autor buscado se aleje de la referida estructura estándar por contener apellidos compuestos, partículas que enlacen el nombre con los apellidos o los apellidos entre sí, etc., etc. se habrán de utilizar algunas variantes mas según la tipología recogida en la anterior tabla 2 para aproximarnos a una recuperación del 100% de las referencias.

Tabla 3

Firma Original Variantes de búsqueda
Para nombres que respondan a la estructura representada por:
Luis Álvarez Guisado
MEDLINE (O) % SCI (O) %
Si firmó:
Luis Álvarez Guisado
Alvarez Guisado L
Guisado LA
Alvarez GL
1
12
10
33
0,1
0,4
Alvarez Guisado L
Guisado LA
Alvarez GL
22
4
9
0,2
7,1
1,9
Si firmó:
Luis Álvarez-Guisado
Alvarezguisado L 11 1,2 Alvarezguisado L 2 18,3
Si firmó:
Luis Álvarez
Alvarez L 2 25,2 Alvarez L 1 36
Para nombres que respondan a la estructura representada por:
Antonio María Caballero Plasencia
Si firmó:
Antonio María Caballero Plasencia
Caballero Plasencia AM
Plasencia AMC
Caballero Plasencia A
4
--
8
8,8
0
1,7
Caballero Plasencia AM
Plasencia AMC
Caballero Plasencia A
--
15
--
0
1,9
0
Si firmó:
Antonio María Caballero-Plasencia
Caballeroplasencia AM -- 0 Caballeroplasencia AM 7 4,2
Si firmó:
Antonio María Caballero
María Caballero A 15 0,1 María Caballero A -- 0
Si firmó:
Antonio M Caballero
Caballero AM
Caballero A
Caballero M
3
5
6
12,7
5,2
2,5
Caballero AM
Caballero A
Caballero M
3
5
8
12,2
6,1
3,8

(O). Número de orden de importancia de la variante en el proceso de búsqueda. (%) ilustrativo de referencias que obtendríamos respecto del total de referencias recogidas del autor en la base de datos, si bien este % estará siempre condicionado por la frecuencia con que haya utilizado una u otra forma al firmar sus trabajos.

Por consiguiente, para un autor que haya utilizado siempre la misma firma, la "totalidad" de sus referencias las localizaremos en cada BD mediante las variantes de búsqueda que le corresponden en la tabla, pero evidentemente, como ésta es una cuestión que, salvo para el propio autor, es desconocida de antemano por los usuarios, tendríamos que utilizar todas las variantes de búsqueda correspondientes a su estructura de nombre dado que hemos de suponer siempre que no unificó su firma.


 © EC³ Evaluación de la Ciencia y de la Comunicación Científica
    Fecha publicación: 14/10/2004 - Fecha última modificación: 15/11/2006  Optimizada para MS-Explorer con resolución 1024 x 768 pixeles