Compartir datos e investigación, más importante que nunca

Hay opiniones que sostienen que el Covid-19 puede matar el modelo de publicación científica con fines de lucro

Compartir datos e investigación, más importante que nunca

Cada día existe más conciencia de la necesidad de compartir datos y materiales derivados de las investigaciones científicas. Esta acción es conocida como datasharing y busca que los datos primarios y otros materiales de la investigación (que no se adjuntan en las publicaciones) y que se han necesitado para sustentar un trabajo o llegar a un avance, una publicación científica o un estudio se compartan entre la comunidad, de una forma libre, gratuita, permitiendo el acceso y su uso.

Debido a la alarmante situación sanitaria que continúa acechando al planeta, es necesario compartir y poner en circulación las publicaciones y los dataset (conjunto de datos) que se generan de las investigaciones relacionadas con el nuevo coronavirus (conocido formalmente como SARS-CoCV-2). Los datos (fundamentalmente aquellos relacionados con la biología, la epidemiología y las características clínicas del virus) han crecido enormemente, ya que centenas de grupos de investigadores trabajan sin cesar para poder encontrar solución al grave problema.

En los últimos meses, la comunidad científica se ha movido más por el acceso abierto y por compartir datos de investigación y hallazgos relevantes que en toda la historia de la humanidad. Los avances están siendo heroicos. Hay quien dice que el Covid-19 podría matar el modelo de publicación científica con fines de lucro.

Las iniciativas son abundantes, por ejemplo, el pasado 31 de enero la declaración Wellcome Trust afirmó que editoriales relevantes (con fines comerciales) como Elsevier, Springer Nature, The Lancet y Taylor & Francis, entre otros grupos y notables revistas de salud pública, se comprometían a compartir artículos, preprints y sus datos originados de la publicación. Por ejemplo, los repositorios de preprints bioRxiv y medRxiv poseen cerca de 900 artículos relacionados con el Covid-19

A mediados de marzo, los asesores científicos de doce países firmaron una carta abierta instando a los editores científicos a poner a disposición del público toda la investigación de Covid-19 a través de PubMed Central o la base de datos Covid de la Organización Mundial de la Salud. No cabe duda de la importante llamada de emergencia para la ciencia abierta.

En este caso, Europa, lleva la delantera a muchos países, ya que, a través del Plan S, a partir del año 2021, todas las publicaciones científicas que resulten de investigaciones financiadas por subvenciones públicas deberán publicarse en revistas o plataformas de acceso abierto compatibles.

La Unión Europea presupuesta, con millones de euros, diferentes proyectos con el objetivo de que los equipos de investigación compartan datos rápidamente para que los resultados puedan informar inmediatamente la respuesta de salud pública.

Dentro de las plataformas dispuestas, los repositorios de datos son la mejor referencia en cuanto a la información de investigación de datos compartidos. Como por ejemplo Gisaid, Google Dataset Search, QDR, HDX, etc. Gracias al conjunto de datos que se comparten existen iniciativas de intercambio de datos y en las últimas semanas se han hecho más conocidas y necesarias con la preocupante situación del coronavirus.

Por ejemplo, se han desarrollado herramientas como Genome Detective, puede tomar los datos sin procesar de la máquina de secuenciación, filtrar los resultados de los no virus, juntar el genoma y usarlo para identificar el virus.

O plataformas de código abierto y libre como NextStrain, en donde se ponen en la mesa más de 700 genomas del nuevo coronavirus, que pueden usarse para rastrear el brote al detectar nuevas mutaciones en el virus.

Indudablemente, este contexto genera grandes beneficios para los investigadores y más aun cuando el intercambio de datos es vertiginoso. Por ejemplo, se comparten las nuevas cepas del coronavirus en pacientes, los resultados epidemiológicos, los experimentos fallidos, es posible generar retroalimentación y conocimiento al instante en diversos lugares, etc.

Ahora bien, para que los repositorios y plataformas de datos puedan ser aprovechados por los investigadores y científicos es necesario destacar que la información que se ofrece cumpla varios criterios de exigencia:

- Deben estar en formatos legibles y reutilizables, tanto por los profesionales como por las máquinas. De nada sirve que el archivo de datos por ejemplo tenga un formato de imagen o texto, o que la fuente no tenga un origen científico y no esté respaldada por una agencia, administración, grupo o proyecto de investigación o, presente en algunas plataformas de datos si requiere de autentificaciones previas para poder consultarlos.

- Que los datos vayan acompañados de metadatos, es decir, de un contexto que les dote de significado y los haga comprensibles.

- En definitiva, deben cumplir con los Principios FAIR (findable, accesible, interoperable, reusable). En definitiva, esta situación está generando beneficios de acceso público al conocimiento, sin precedentes, con el anhelo de buscar una solución a la pandemia. Pero en el medio plazo es necesario modificar legislaciones para que la ciencia abierta sea la única opción disponible y que la reutilización de los datos nos presente mejor preparados de cara al futuro.

Juan José Prieto Gutiérrez es profesor en la Facultad de Ciencias de la Documentación de la Universidad Complutense de Madrid