Wikidata:Bases de Datos Biociencias
El wikiproyecto Bases de Datos de Biociencias tiene como objetivo curar las bases de datos de Biociencias disponibles en la Web y activas para tener información completa, estructurada, actualizada, fiable y de calidad para ser utilizada en investigación, enseñanza, difusión, comunicación y gestión científica, especialmente en el área de las ciencias de la vida, biomedicina, biodiversidad y bioinformática.
El proyecto[edit]
Objetivos[edit]
Queremos reunir todas las bases de datos abiertas y activas para biociencias en Wikidata, para que sean encontrables, accesibles y usadas por investigadores, profesores, estudiantes e interesados en las biociencias. Existen miles de bases de datos con información generada por las investigaciones científicas, pero es difícil encontrarlas y saber qué contienen para poder reutilizarlas en la generación de nuevas preguntas. Nuestra meta es que todos los interesados tengan acceso a la información y puedan procesarla, en especial en los países que no son angloparlantes y que tienen menos materiales que expliquen la información especializada al público en general.
Nos proponemos difundir el uso de las bases de datos en la enseñanza universitaria y promover las biociencias in silico entre los ciudadanos interesados en la ciencia.
Antecedentes[edit]
En enero de 2022 empecé a consultar las bases de datos biológicas en Wikipedia y había muy pocas y desactualizadas, esto me llevó a verlas en Wikidata y sucedió lo mismo, faltan metadatos y solo había más de 700 bases de datos. Poco después empecé a registrar las bases de datos indexadas en The NAR online Molecular Biology Database Collection (Nucleic Acids Research (NAR) database (Q110211927)) y en The Bioregistry (Q109302681). Entonces para febrero de este mismo año reuní a varios colaboradores de mi equipo para completar con detalle las bases de datos de biociencias en Wikidata.
Hemos reunido algunas fuentes anteriores que hemos usado como referencia y que listo a continuación.
https://etherpad.wikimedia.org/p/WikiCiteExtra
Entendemos por Biociencias al dominio de conocimiento que integra todos aquellos saberes de interés para las ciencias de la vida, médicas y biomédicas.
Los principales proveedores de bases de datos son:
El European Bioinformatics Institute (Q1341845) (EBI)
El National Center for Biotechnology Information (Q82494) (NCBI) de EE. UU.
El Centro Nacional de Datos Genómicos (NGDC) en China
Preguntas[edit]
Queremos indagar las respuestas a las siguientes preguntas y generar mapas de conocimiento para responderlas:
- Cuántas bases de datos existen y sobre qué temas tratan
- Cuál es el ritmo de creación y vencimiento de las bases de datos
- Qué tipos de entidades biológicas indexan
- En qué investigaciones e innovaciones se aplican
- Cuáles son las más utilizadas
- Cómo son utilizadas
- Cuál es su impacto
- De qué regiones son
- Qué licencias tienen
- Qué tipos de tecnología implementan: XML, JSON, RDF, etc...
El plan de trabajo[edit]
- Agregar las fuentes de información sobre bases de datos en Wikidata
- Indexar las bases de datos y catálogos de bases de datos, ontologías y herramientas asociadas a wikidata
- Curar las bases de datos de Biociencias de Wikidata para obtener gráficas de conocimiento actualizadas y de calidad
- Agregar en Wikidata las bases de datos registradas en The NAR online Molecular Biology Database Collection (Nucleic Acids Research (NAR) database (Q110211927))
- Agregar las bases de datos registradas en The Bioregistry (Q109302681) que no tienen una entrada en Wikidata Bioregistry NO Wikidata
- Bases de datos, ontologías y herramientas para biology of colour (Q105582462) y Color en los seres vivos (color in nature (Q105096490))
- Bases de datos, ontologías y herramientas para herpetología
- Bases de datos, ontologías y herramientas para investigar sobre enfermedades
- Adicionar las bases de datos de biociencias generadas en México en Wikidata
Notas[edit]
En este servicio podemos realizar notas https://etherpad.wikimedia.org/p/Bases_de_Datos_Biociencias
Elementos[edit]
Estos son algunos ejemplos de registros de bases de datos de biociencias en wikidata que se pueden consultar como ejemplo para facilitar la comprensión de los elementos y las propiedades utilizadas para describir estas entidades.
- Biodiversity Heritage Library Biodiversity Heritage Library (Q172266)
- Uniprot UniProt (Q905695)
- Inaturalist iNaturalist (Q16958215)
- Arxiv arXiv (Q118398)
Elementos principales[edit]
biological database (Q4117139) | biological database |
medical database (Q1916557) | medical database |
global species database (Q5570651) | global species database |
bibliographic database (Q1789476) | bibliographic database |
taxonomic database (Q7689673) | taxonomic database |
chemical database (Q2881060) | chemical database |
model organism database (Q28208970) | model organism database |
citizen science project (Q24577212) | citizen science project |
Descrito en catálogos, plataformas o bases de datos de calidad[edit]
Existen varias fuentes para localizar bases de datos de biociencias de calidad que serán usadas como referencias.
The Bioregistry (Q109302681) | The Bioregistry |
Nucleic Acids Research (NAR) database (Q110211927) | The NAR online Molecular Biology Database Collection |
SciCrunch (Q23876293) | SciCrunch |
Registry of Research Data Repositories (Q18393912) | Registry of Research Data Repositories |
Identificadores[edit]
Identifiers.org (Q16335166) | Identifiers.org Registry |
---|---|
Otros elementos[edit]
website (Q35127) | website - Wikidata |
Propiedades[edit]
Propiedades principales[edit]
Estas son algunas de las propiedades que se usan para describir a las bases de datos, el número superíndice se refiere a propiedades que están muy relacionas, con un asterisco (*) se marca la opción más adecuada y con NA superíndice (NA) se indica que esa propiedad no aplica para bases de datos.
Algunos identificadores para estos elementos son los siguientes:
identifiers.org prefix (P4793) | identifiers.org prefix |
Freebase ID (P646) | Freebase ID |
Linked Open Data Cloud ID (P8605) | Linked Open Data Cloud identifier |
Google Knowledge Graph ID (P2671) | Google Knowledge Graph ID |
Otras propiedades[edit]
collection (P195) | collection |
platform (P400) | platform |
foundational text (P457) | foundational text |
main subject (P921) | main subject |
web feed URL (P1019) | web feed URL |
curator (P1640) | curator |
source of material (P2647) | source of material |
file format (P2701) | file format |
code of nomenclature (P944) | Code of nomenclature |
media type (P1163) | media type |
Propiedades para este proyecto[edit]
on focus list of Wikimedia project (P5008)
Biosciences databases (Q111805275) este proyecto
Consultas[edit]
Consultas principales[edit]
Estas consultas son las que más utilizamos para recuperar información de Wikidata en el proceso de biocuración, algunas las hemos realizado nosotros, otras nos las han compartido colaboradores y las últimas las hemos reunido a través de Google y Twitter. ¡Gracias a todos los que comparten sus consultas en SPARQL!
Consulta para obtener las bases de datos de biociencias[edit]
- Esta es la consulta para recuperar todas las dbs biológicas y médicas
https://w.wiki/4i9n
- Items used: biological database (Q4117139) , medical database (Q1916557)
- Properties used: subclass of (P279) , official website (P856) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel ?p_gina_web_oficial WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P31 ?statement0.
?statement0 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
UNION
{
?item p:P31 ?statement1.
?statement1 (ps:P31/(wdt:P279*)) wd:Q1916557.
}
}
LIMIT 3000
}
OPTIONAL { ?item wdt:P856 ?p_gina_web_oficial. }
}
- Consulta que muestra el link de las bases de datos NAR https://w.wiki/5SNc
- Properties used: described by source (P1343) , reference URL (P854)
# another property should be used
SELECT DISTINCT ?item ?itemLabel ?reference
WHERE {
?item p:P1343 ?statement. #BASE DE DATOS NAR
?statement ps:P1343 wd:Q110211927.
?statement prov:wasDerivedFrom [ pr:P854 ?reference ] .
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
order by ?itemLabel
- Consulta que muestra los nombres de las bases de datos con etiqueta en Inglés
- Items used: biological database (Q4117139) , medical database (Q1916557)
- Properties used: subclass of (P279) , official website (P856) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel ?p_gina_web_oficial WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P31 ?statement0.
?statement0 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
UNION
{
?item p:P31 ?statement1.
?statement1 (ps:P31/(wdt:P279*)) wd:Q1916557.
}
}
LIMIT 3000
}
OPTIONAL { ?item wdt:P856 ?p_gina_web_oficial. }
}
- Temas principales de las BD's Biologicas https://w.wiki/5ZYx
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , main subject (P921)
- Features used: BubbleChart (Q24515280)
# another property should be used
#defaultView:BubbleChart
SELECT ?temaLabel (COUNT(?tema) AS ?total )
WHERE {
?item wdt:P31 wd:Q4117139.
?item wdt:P921 ?tema.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,fr,es,de,ru,it,nl,ja,zh,pl,cs". }}
GROUP BY ?temaLabel
ORDER BY DESC(?total)
LIMIT 23
- Imagenes que tienen las BD's Biologicas https://w.wiki/5YBt
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , image (P18)
- Features used: ImageGrid (Q24515278)
# another property should be used
#defaultView:ImageGrid
SELECT DISTINCT ?item ?itemLabel ?itemDescription (SAMPLE(?image) AS ?image) ?sitelink WHERE {
?item wdt:P31 wd:Q4117139.
OPTIONAL { ?item wdt:P18 ?image. }
OPTIONAL {
?sitelink schema:about ?item;
schema:isPartOf <https://es.wikipedia.org/>.
}
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,fr,es,de,ru,it,nl,ja,zh,pl,cs". }
}
GROUP BY ?item ?itemLabel ?itemDescription ?sitelink
LIMIT 1000
- Esta consulta obtiene todas las bases de datos en Wikidata que tienen una propiedad de Wikidata asociada y alguna otra información interesante que la acompaña https://w.wiki/4uTZ
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , Wikidata property (P1687) , official website (P856) , identifiers.org prefix (P4793) , formatter URL (P1630) , formatter URI for RDF resource (P1921) , format as a regular expression (P1793) , source website for the property (P1896) , Wikidata item of this property (P1629)
# another property should be used
SELECT
?database ?databaseLabel ?databaseMiriam ?databaseHomepage
?prop ?propLabel ?propMiriam ?propHomepage ?propFormat ?propFormatRDF ?propPattern
# ?propDatabase ?propDatabaseLabel
WHERE {
?database wdt:P31 wd:Q4117139 .
?database wdt:P1687 ?prop .
OPTIONAL { ?database wdt:P856 ?databaseHomepage } .
OPTIONAL { ?database wdt:P4793 ?databaseMiriam } .
OPTIONAL { ?prop wdt:P4793 ?propMiriam } .
OPTIONAL { ?prop wdt:P1630 ?propFormat } .
OPTIONAL { ?prop wdt:P1921 ?propFormatRDF } .
OPTIONAL { ?prop wdt:P1793 ?propPattern } .
OPTIONAL { ?prop wdt:P1896 ?propHomepage } .
OPTIONAL { ?prop wdt:P1629 ?propDatabase } .
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
ORDER BY DESC(?databaseLabel)
- Bases de datos bibliográficas en Biociencias https://w.wiki/4jRW
- Items used: biological database (Q4117139) , medical database (Q1916557) , bibliographic database (Q1789476)
- Properties used: subclass of (P279) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P31 ?statement0.
?statement0 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
UNION
{
?item p:P31 ?statement1.
?statement1 (ps:P31/(wdt:P279*)) wd:Q1916557.
}
?item p:P31 ?statement2.
?statement2 (ps:P31/(wdt:P279*)) wd:Q1789476.
}
LIMIT 3000
}
}
- Patrocinadores de las bases de datos biológicas https://w.wiki/5YwL
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , sponsor (P859)
# another property should be used
#defaultView:Dimensions
SELECT ?itemLabel ?sponsorLabel
WHERE {
?item wdt:P31 wd:Q4117139.
?item wdt:P859 ?sponsor.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
- Gráfico de burbujas sobre los tipos de licencia actualmente enumerados en las bases de datos biológicas en Wikidata: https://w.wiki/5YBh
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , copyright license (P275)
- Features used: BubbleChart (Q24515280)
# another property should be used
#defaultView:BubbleChart
SELECT DISTINCT ?license (count(?license) as ?licenseType)
WHERE
{
?item wdt:P31 wd:Q4117139 ;
rdfs:label ?name .
OPTIONAL {?item wdt:P275 ?licenseItem .
?licenseItem rdfs:label ?license .
FILTER (LANG(?license) = "en")}
FILTER (LANG(?name) = "en")
}
GROUP BY ?license
- Gráfico de burbujas que tienen "descrito por la fuente" de las bases de datos https://w.wiki/5YBr
- Items used: biological database (Q4117139)
- Properties used: instance of (P31) , described by source (P1343)
- Features used: BubbleChart (Q24515280)
# another property should be used
#defaultView:BubbleChart
SELECT DISTINCT ?desc (count(?desc) as ?descType)
WHERE
{
?item wdt:P31 wd:Q4117139 ;
rdfs:label ?name .
OPTIONAL {?item wdt:P1343 ?descItem .
?descItem rdfs:label ?desc .
FILTER (LANG(?desc) = "en")}
FILTER (LANG(?name) = "en")
}
GROUP BY ?desc
Order By DESC(count(?desc))
- Consulta para ver todos los registros de la base de datos NAR en Wikidata https://w.wiki/59DP
- Items used: Nucleic Acids Research (NAR) database (Q110211927)
- Properties used: described by source (P1343)
# another property should be used
SELECT ?item ?itemLabel WHERE {
?item wdt:P1343 wd:Q110211927.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
- Consulta para ver todas las categorías y subcategorías de NAR en Wikidata https://w.wiki/59DZ
- Items used: Nucleic Acids Research (NAR) database (Q110211927) , The NAR online Molecular Biology Database Collection Categories (Q110577062) , scholarly article (Q13442814) , biological database (Q4117139)
- Properties used: subclass of (P279) , part of (P361) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P361 ?statement0.
?statement0 (ps:P361/(wdt:P279*)) wd:Q110211927.
}
UNION
{
?item p:P279 ?statement1.
?statement1 (ps:P279/(wdt:P279*)) wd:Q110577062.
}
MINUS {
?item p:P31 ?statement2.
?statement2 (ps:P31/(wdt:P279*)) wd:Q13442814.
}
MINUS {
?item p:P31 ?statement3.
?statement3 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
}
LIMIT 100
}
}
- Consulta que enumera todas las bases de datos que tienen el predicado "descrito por la fuente" que apunta al Bioregistry https://w.wiki/4uJy
- Items used: The Bioregistry (Q109302681)
- Properties used: described by source (P1343)
# another property should be used
SELECT ?item ?itemLabel
WHERE
{
?item wdt:P1343 wd:Q109302681.
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
- Esta consulta muestra las bases de datos que tienen Twitter
https://w.wiki/53Ei
- Items used: biological database (Q4117139) , medical database (Q1916557)
- Properties used: subclass of (P279) , Twitter (X) username (P2002) , official website (P856) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel ?p_gina_web_oficial (CONCAT("https://twitter.com/",?twitterName) AS ?twitterlink) ?twitterName
WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P31 ?statement0.
?statement0 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
UNION
{
?item p:P31 ?statement1.
?statement1 (ps:P31/(wdt:P279*)) wd:Q1916557.
}
}
LIMIT 3000
}
{ ?item wdt:P2002 ?twitterName. }
OPTIONAL { ?item wdt:P856 ?p_gina_web_oficial. }
}
- Esta consulta muestra todas las bases de datos con Twitter y pagina principal
https://w.wiki/52KD
- Items used: biological database (Q4117139) , medical database (Q1916557)
- Properties used: subclass of (P279) , official website (P856) , Twitter (X) username (P2002) , instance of (P31)
# another property should be used
SELECT DISTINCT ?item ?itemLabel ?p_gina_web_oficial (CONCAT("https://twitter.com/",?twitterName) AS ?twitterlink) ?twitterName
WHERE {
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
{
SELECT DISTINCT ?item WHERE {
{
?item p:P31 ?statement0.
?statement0 (ps:P31/(wdt:P279*)) wd:Q4117139.
}
UNION
{
?item p:P31 ?statement1.
?statement1 (ps:P31/(wdt:P279*)) wd:Q1916557.
}
}
LIMIT 3000
}
OPTIONAL { ?item wdt:P856 ?p_gina_web_oficial. }
OPTIONAL { ?item wdt:P2002 ?twitterName. }
}
- Juego de cartas para Bases de datos biológicas https://cardgame.morr.cc/?Q4117139
Otras consultas[edit]
- ...
Herramientas[edit]
Estas son las herramientas que utilizamos para la realización del proyecto
Propiedades de Wikidata[edit]
https://bambots.brucemyers.com/WikidataClasses.php?id=Q4117139&lang=es
Edición de Wikidata[edit]
https://cradle.toolforge.org/#/
https://github.com/SuLab/WikidataIntegrator
https://lubianat.shinyapps.io/topictagger/
Ver wikidata[edit]
https://kgtk.isi.edu/browser/Q4117139
https://qhub.info/Q4117139?tab=data-links
Wikiproyectos[edit]
Category:WikiProject resources
https://www.wikidata.org/wiki/Wikidata:WikiProjects
https://www.wikidata.org/wiki/Wikidata:WikiProjects/List
Info You can use the AutoEdit tool to quickly add label and description on Bases de Datos Biociencias in many languages.
Proyectos relacionados[edit]
Estos son algunos proyectos relacionados
- WikiProject Books
- WikiProject Periodicals
- WikiProject Source MetaData
- WikiProject Biology
- WikiProject Botany
- WikiProject Taxonomy
- Wikidata:Wikispecies
- anatomical structure (Q4936952)
- iNaturalist (Q16958215)
- taxonomy (Q8269924)
- WikiProject Elixir
- WikiProject BHL
- Wikidata property related to anatomy (Q42752243)
- knowledge organization system (Q6423319)
- rectification (Q56478729)
- open science hardware
Subpáginas[edit]
- Bases de Datos Biociencias/Avances del proyecto
- Bases de Datos Biociencias/Bioregistry
- Bases de Datos Biociencias/Fuentes
- Bases de Datos Biociencias/Materiales
- Bases de Datos Biociencias/NAR
- Bases de Datos Biociencias/Page Header
- Bases de Datos Biociencias/Participants
- Bases de Datos Biociencias/¿Cómo contribuir?
Participants[edit]
The participants listed below can be notified using the following template in discussions:{{Ping project|Bases de Datos Biociencias}}