Uno de varios talleres interactivos ofrecidos en Botánica 2020 fue sobre la Flora digital de América del Norte (Norte de México, para darle su nombre completo; FNA para abreviar), que se puede encontrar en versión beta aquí. El taller funcionó tanto como una introducción al proyecto como un manual básico sobre su uso para búsquedas semánticas y salida de información en forma de listas de taxones. Muchos de nosotros estamos familiarizados con la versión impresa del FNA, una serie masiva de 30 volúmenes en proceso desde 1993, de los cuales 21 se han publicado hasta ahora. Cuando se complete, el proyecto tratará más de 20,000 7 especies de plantas, alrededor del XNUMX % del total mundial, incluidos sinónimos, claves de identificación, descripciones, rangos, ilustraciones y más.

Sin embargo, la debilidad de las floras impresas es que pueden quedar obsoletas rápidamente, a medida que cambia la comprensión científica de los grupos. La taxonomía de los helechos, por ejemplo, ya ha cambiado significativamente desde que comenzó a publicarse la FNA. Ingrese a FNA Online, un repositorio de búsqueda que se puede actualizar según sea necesario para mantenerse actualizado. Hablé con Jocelyn Pender, administradora de datos de biodiversidad para Agricultura y Agroalimentación de Canadá y facilitadora del taller, sobre los objetivos y desafíos del proyecto FNA Online.

Dos de los principales objetivos del proyecto son mantenerse actualizado y ampliar la base de usuarios, facilitando la búsqueda de descripciones taxonómicas tanto para humanos como para máquinas. "Creo que el futuro de la flora es digital y está centrado en los datos", afirma Pender. "Con esto en mente, estamos desarrollando FNA Online. Nos gustaría ampliar la utilidad de FNA más allá de su grupo tradicional de usuarios: botánicos profesionales, taxónomos, etc., hacia un grupo más amplio que incluya a educadores, científicos ciudadanos, botánicos aficionados, reguladores, legisladores, horticultores, agrónomos, ecólogos, biólogos moleculares, filogenéticos, etc. Esto implica aumentar las formas en que los usuarios pueden interactuar con el contenido. Nuestra visión incluye claves interactivas disponibles en varios niveles de especialización, listas de verificación rápidas para reguladores y educadores, y matrices de caracteres taxonómicos descargables para ecólogos y biólogos moleculares".

Un desafío importante que enfrentan los creadores de la FNA digital es hacer que las descripciones taxonómicas, escritas en lenguaje natural por muchos autores diferentes, sean legibles por máquina para que puedan buscarse y compararse fácilmente. Varios aspectos del uso del lenguaje natural, y de las descripciones taxonómicas en particular, hacen que esta sea una tarea difícil.

Primero, los autores individuales tienen estilos de descripción únicos y usan un vocabulario diferente. “Enfrentamos desafíos para permitir la comparación del contenido analizado entre tratamientos”, explica Pender. “¿Cómo podemos desarrollar una clave interactiva que permita a los usuarios filtrar las plantas según el color de pétalos 'rojo' cuando un autor describió los pétalos como 'fucsia' y el otro como 'granate-auburn'? Hemos estado trabajando arduamente para desarrollar sinonimias para los términos, pero esto requiere mucha mano de obra y es propenso a errores humanos e inferencias incorrectas”.

Otro obstáculo radica en la complejidad del lenguaje botánico. “Un término puede tener dos significados únicos que no se superponen en dos familias”, dice Pender. “Además, dentro de algunos grupos complejos, no existe un fuerte consenso entre los botánicos sobre el significado de las palabras. Por último, las descripciones taxonómicas utilizan un estilo particular de sublenguaje que es telegráfico; omite palabras no esenciales que los humanos insertan fácilmente. Las máquinas luchan por hacer inferencias que conecten frases e ideas”.

Por estas y otras razones, el analizador de lenguaje genera 'basura': resultados sin sentido de nombres o valores que son difíciles de solucionar y deben abordarse para que las funciones de búsqueda estén completamente operativas. Hasta la fecha, el equipo detrás de la flora digital ha analizado todas las descripciones en todos los volúmenes publicados de la FNA, pero todavía está trabajando para mejorar la "limpieza" y la organización de los datos. Un equipo canadiense también está en el proceso de construir una Flora of Canada en línea dedicada, que Pender visualiza como "un producto de combinación de datos en evolución, que integra datos de especímenes, datos de ocurrencia, datos de rasgos analizados de varias fuentes".

Si desea probar la versión beta de FNA Online, el sitio ofrece una guía para componer varias consultas y tipos de salida. Pender espera que una amplia variedad de usuarios experimente con él. “[Nos] encantaría que surgieran grupos de usuarios y casos de uso que aún no hemos imaginado”.