El objetivo de Google siempre ha sido el de organizar la información del mundo y su primer objetivo fue la web comercial, ahora quiere hacer lo mismo pero para la comunidad científica con un nuevo motor de búsqueda de conjuntos de datos.
El servicio se llama Dataset Search se lanza hoy y será una especie de compañero de Google Scholar, el popular motor de búsqueda de informes académicos e informes. Las instituciones que publican sus datos en línea como universidades y gobiernos deberán incluir etiquetas de metadatos en sus páginas web que describan los describan incluyendo quién lo creó, cuándo se publicó, cómo se recopiló y así sucesivamente. Esta información será indexada por Dataset Search y combinada con Google’s Knowledge Graph (Ese es el nombre de las casillas que aparecen en las búsquedas más comunes. Por lo tanto, si el CERN publica un conjunto de datos X, también se incluirá información sobre el instituto en los resultados).
Natasha Noy, una investigadora de Google AI que ayudó a crear Dataset Search dice que el objetivo es unificar las decenas de miles de repositorios diferentes para conjuntos de datos en línea. “Queremos que los datos sean reconocibles, pero mantenlos donde está“
Por el momento la publicación de conjunto de datos está extremadamente fragmentada. Diferentes dominios científicos tienen sus propios repositorios preferidos al igual que diferentes gobiernos y autoridades locales. La mayoría de los científicos saben donde buscar pero no siempre encuentran lo que realmente quieren o buscan y de acuerdo a Noy, es en el momento cuando salen en búsqueda fuera de su comunidad cuando se pone difícil de buscar y encontrar.
La investigadora de Google da el ejemplo de un científico del clima con el que habló recientemente, quien le dijo que había estado buscando un conjunto de datos específicos sobre las temperaturas oceánicas para un próximo estudio pero no pudo encontrarlo en ninguna parte. No fue si no hasta que se encontró con un colega en una conferencia que reconoció el conjunto de datos y le dijo dónde estaba alojado. Solo entonces podría continuar con su trabajo. “Y ni siquiera se encontraba en un repositorio especialmente boutique“, dijo Noy “El conjunto de datos estaba bien escrito en un lugar bastante prominente, pero aún era difícil de encontrar“.
El lanzamiento inicial de Dataset Search cubrirá las ciencias ambientales y sociales, los datos gubernamentales y los conjuntos de datos de organizaciones de noticias como ProPublica. Sin embargo, si el servicio se vuelve popular, la cantidad de datos que indexa debería aumentar rápidamente a medida que las instituciones y los científicos se esfuerzan por hacer que su información sea accesible. Es por eso que el éxito de esta herramienta de Google dependerá en sí de la gente que publica y la adopción de la práctica de añadir los metadatos solicitados por el buscador.