Especificación de funcionalidad para enlazar fuentes de datos en la CONABIO

Objetivo

Describir la funcionalidad necesaria para integrar sistemas que resuelvan preguntas complejas con los datos que albergamos en la CONABIO. El diseño busca también facilitar los procesos internos de procesamiento de datos, por ejemplo, los procesos de validación. La organización de este documento es la siguiente. Primero proponemos una factorización del sistema en componentes básicos. Después describimos la funcionalidad de estos componentes ejemplificando el tipo de consultas que deben resolver.

Finalmente, proponemos una capa de alto nivel que recibe consultas e integra la información de los componentes básicos. Esta compone repuestas que comprenden los ejes de información espacial, de características, taxonómico y temporal. Esta capa, debe definir la lógica sobre cómo se exponen los recursos de datos, cómo se consumen, y cómo se encuentran/buscan.

Descripción del dato

Cualquier información generada dentro de CONABIO se considerá que es un dato. Cada dato debe de tener las siguientes propiedades básicas:

  • Debe de ser recuperable.
  • Debe tener responsables.
  • Debe tener vigencia.

Estas tres propiedades pueden ser implementadas en cualquier dato como: URI, creador y fecha de creación/modificación. Estas propiedades nos permiten asegurar que el contenido del dato estará disponible para cualquier interesado y además se guardará la información acerca de quién es el responsable de verificar la validez del dato.

Además de estas propiedades básicas también se han identificado otras propiedades las cuales son específicas para diversos tipos de dato dentro de CONABIO.

Tipos de datos

Dentro de CONABIO podemos definir ciertos datos como básicos, estos pueden ser divididos en:

  • Taxonómicos
  • Espaciales
  • Características
  • Individuos
  • Conjuntos de datos

Las siguientes definiciones las hemos elaborado para tener un punto de partida, estas definiciones tienen que ser elaboradas con los grupos responsables de estos tipos de dato.

Taxonómico

Este tipo de dato se define cumpliendo el estándar Darwin Core [DWC2009] en su parte referente a taxonomía.

Espacial

Este tipo de dato debe cumplir con la Norma Técnica para la elaboración de Metadatos Geográficos [NTM2010] o en su defecto el ISO 19115 para información geográfica [ISO2014].

Características

Un dato de tipo características es el que describe propiedades de otro dato. Algunos ejemplos son:

  • descripción de proyectos financiados por CONABIO. En este caso el dato básico es el proyecto y sus características inherentes, pueden haber características que se especifican en un repositorio de datos independiente que agregan información a este dato.
  • categorías de conservación de un taxón. En este caso el dato base es el taxón, el cual no tiene una categoría de conservación. Las categorías de conservacón asignadas a los taxones pertenecen a un repositorio de datos independiente, que puede tener otros responsables.
  • proyectos de distribución potencial de especies. Los mapas de distribución de especie describen propiedades de taxones que no definen al taxón, es decir, definen un estado espacio temporal del taxón que cambia, pero que al alterarse no cambia las propiedades que definen al taxón.

Uno de los estandares que pueden considerarse en la generacion de estos datos es Plinian Core [PLC2018].

Individuos

Este tipo de dato si bien tiene información del tipo espacial, del tipo puntual, esta no siempre está presente, por lo que no es esencialmente espacial. Sus características más importantes son las asociadas a términos de colectas/observaciones biológicas. Para definir este tipo de datos se usará el estándar Darwin Core [DWC2009].

Conjunto de datos

Un conjunto de datos a su vez se considerará un tipo de dato el cual describe algunas características relevantes de un tipo de datos. Algunos intentos similares para describir este tipo son Data Package y Data Resource de Frictionless Data.

Consultas elementales

Las consultas elementales son preguntas que pueden ser contestadas por un sólo tipo de dato. Estás consultas pueden corresponder a datos individuales o a agrupamientos de información contenida en el tipo de dato.

Los nodos de información

Taxa CONABIO (tipo de nodo: taxonómico, DB: CAT)

Todo debe resolverse usando URIs de taxones (IdTaxon), estos URI son el campo idnombrecatalogovalido del SNIB. Este nodo provee la siguiente información:

  • Info del taxón al que se refiere un IdTaxon
  • IdTaxon asignado a un nombre científico de taxón
  • Cuál es el nivel taxonómico de un taxón
  • Cuáles son los sinónimos de un taxón
  • Cuáles son los homónimos de un taxón
  • Cuáles son los nombres anteriores (históricos) de un taxón
  • Cuándo se creó un taxón
  • Cuándo se actualizó un taxón
  • Cuál es el estatus de la información taxonómica de un taxón
  • Cuáles son los nombres comúnes de un taxón
  • Cuál es la autoridad que nombró un taxón
  • Cuál es la fecha en que se asignó el nombre actual de un taxón
  • Cuáles son los niveles taxonómicos superiores de un taxón
  • Cuáles son los niveles taxonómicos inferiores de un taxón

Individuos SNIB (tipo de nodo: individuo)

Para este nodo todo debe resolverse usando el idejemplar, este id se genera en el momento en que el dato es integrado a la base del SNIB y aún cuando sufra transformaciones el registro, el idejemplar permanece constante. Este nodo debe poder responder las siguientes preguntas:

  • Información asociada a un idejemplar
  • A qué colección pertenece un registro
  • Qué validez tiene este registro, tanto taxonómica, espacialmente, etc.
  • Qué registros hay en una ubicación
  • Qué registros hay contenidos en un polígono
  • Ids de los taxones en una ubicación
  • Ids de los taxones en un polígono
  • Registros que se tienen para un taxón

Categorías de conservación (tipo de nodo: características)

Este nodo se refiere a un subconjunto de la información contenida en el estándar de Plinian Core y se refiere a la clase ThreatStatusAtomizedClass. Algunas de las preguntas que este nodo debe poder responder son:

  • Qué tipo de categoría es a la que se refiere un id
  • Qué autoridad es la que aplica dicha categoría
  • Cuál es el rango donde se aplica dicha categoría
  • Cuál es la categoría NOM de un taxón
  • Cuál es la categoría IUCN de un taxón
  • Qué taxones tiene cierta categoría NOM
  • Qué taxones tiene cierta categoría IUCN

Tipos de distribución (tipo de nodo: características/espaciales)

Este tipo de información describe ciertas propiedades de un taxón por lo cual debe de tener información taxonómica relacionada pero a su vez también asocia características geográficas, por ejemplo, la invasividad de una especie.

  • Qué tipo de distribución tiene un taxón en un sitio (nativa, exótica, invasora, endémica)
  • Qué taxones tienen cierto tipo de distribución (endémica, invasiva, nativa, etc) en un sitio
  • Cuál es la distribución nativa de un taxón
  • En que zonas un taxón es invasor, o exótico

Mapas de distribución de especies (tipo de nodo: características, espacial)

Al igual que el ejemplo anterior este nodo de información tiene tanto información taxonómica como espacial asociada.

  • Dado un IdTaxon verificar si existe un mapa de distribución de este
  • Dada una geometría obtener los mapas de distribución con características en la geometría.
  • Dado un id de mapa de distribución obtener el taxón asociado
  • Dado un id de mapa obtener el tipo de distribución que representa
  • Obtener los mapas de distribución para un tipo (potencial, futura, actual)

Referencias

NTM2010
Instituto Nacional de Estadística y Geografía. Diario Oficial de la Federación. Acuerdo por el que aprueba la Norma Técnica para la elaboración de Metadatos Geográficos. INEGI, 24 de diciembre de 2010.
ISO2014ISO/TC 211 Geographic information/Geomatics. Geographic information ISO 19115:2014. Abril de 2014.
DWC2009(1, 2) Taxonomic Databases Working Group. Darwin Core. 12 de febrero de 2009. Última modificación: 5 de junio de 2015.
PCL2018Plinian Core Task Group. Plinian Core, Biodiversity Information Standards (TDWG). https://github.com/tdwg/PlinianCore. Consultado el 13 de agosto de 2018.
FAIR2018Martin Boeckhout, Gerhard A. Zielhuis, Annelien L. Bredenoord. The FAIR guiding principles for data stewardship: fair enough?
FAIR2016Wilkinson MD, Dumontier M, Aalbersberg IjJ, et al. The FAIR guiding principles for scientific data management and stewardship. Sci Data. 2016;3:160018.