Como si se tratase de los últimos 100m en un 4x400, le cojo el testigo a @MariaPovedaV para explicar brevemente como hemos construido y publicado el #KnowledgeGraph de #Drugs4Covid en #VenceAlVirus @oeg_upm
Let's go! https://twitter.com/MariaPovedaV/status/1246461406200967169
Let's go! https://twitter.com/MariaPovedaV/status/1246461406200967169
Inputs:
Una maravillosa ontología a la que debemos ser fiel
Un par de Apache Solr dónde se han ido almacenando las anotaciones de papers y artículos
Requisitos en el pipeline:
Reproducible
Flexible (datos cambiando continuamente)
Rápido
Una maravillosa ontología a la que debemos ser fiel
Un par de Apache Solr dónde se han ido almacenando las anotaciones de papers y artículos
Requisitos en el pipeline:
Reproducible
Flexible (datos cambiando continuamente)
Rápido
Y esto es lo que nos ha salido:
Reproducibilidad --> @rml_io mappings!
Flexible --> utilizamos #yarrrml para poder cambiar las reglas fácilmente (tanto de las fuentes como de la ontología)
Rápido --> SDM-RDFizer con CSVs, por supuesto!
Reproducibilidad --> @rml_io mappings!
Flexible --> utilizamos #yarrrml para poder cambiar las reglas fácilmente (tanto de las fuentes como de la ontología)
Rápido --> SDM-RDFizer con CSVs, por supuesto!
Y finalmente algunos resultados de performance
Descarga de Solr = ~15 min (~2Gb de CSV)
Normalización = ~10 min
Generación del RDF = ~7 min
Carga < 1 min
Es decir, generamos el #KnowledgeGraph < 30 min
Y todo subido a un SPARQL endpoint listo! Gracias @_aieme @oeg_upm
Descarga de Solr = ~15 min (~2Gb de CSV)
Normalización = ~10 min
Generación del RDF = ~7 min
Carga < 1 min
Es decir, generamos el #KnowledgeGraph < 30 min
Y todo subido a un SPARQL endpoint listo! Gracias @_aieme @oeg_upm