Catalogar la diversidad de plantas y describir nuevas especies es una tarea crítica y continua que se ve obstaculizada por la escasez de experiencia y un proceso inherentemente lento. Incluso en condiciones ideales, recolectar un espécimen en la naturaleza, describirlo como una nueva especie y publicar esa descripción puede llevar uno o dos años. Más a menudo, puede llevar décadas. Los herbarios de todo el mundo albergan una acumulación de hasta un millón de especímenes no identificados, y se cree que ya contienen la la mayoría de las especies de plantas no descritas. Los algoritmos informáticos que aprovechan el aprendizaje automático, entrenados en conjuntos de datos anotados de alta calidad, podrían ser una parte clave de la solución.
En un nuevo artículo publicado en Aplicaciones en Ciencias VegetalesEn el número especial de Machine Learning in Plant Biology, el autor principal Damon P. Little y sus colegas buscaron formas de aprovechar este potencial. Los autores organizaron un concurso en el Plataforma de ciencia de datos Kaggle desarrollar un algoritmo de identificación automática de especies utilizando el aprendizaje automático. El grupo presentó un conjunto de datos para capacitación que incluía más de 46,000 683 especímenes de herbario con imágenes que representan XNUMX especies de la familia Melastomataceae. Como es típico en las colecciones de herbario, algunas de estas especies estuvieron representadas por muchos especímenes y otras por relativamente pocos.

La competencia duró varios meses y produjo 254 modelos creados por 22 equipos diferentes. Las cuatro entradas principales pudieron identificar especies con una precisión superior al 88%. Los equipos ganadores fueron de una empresa privada y una universidad pública en China, un equipo de Facebook AI Research y, sorprendentemente, una persona, veterinaria de formación, que “se unió a la competencia durante sus vacaciones y diseñó los modelos en su teléfono. ”
Aunque los resultados del concurso fueron mejores de lo esperado, solo se ha abordado la primera etapa del problema. Actualmente, los algoritmos solo pueden asignar especímenes al taxón más probable de aquellos con los que se han entrenado; no pueden designar especímenes como desconocidos o nuevos. "Los algoritmos no están entrenados para 'saber lo que no saben', sino que están entrenados y construidos para generar resultados basados en los datos de entrenamiento", afirma Barbara Ambrose, coautora y curadora asociada de Genómica Vegetal en el Jardín Botánico de Nueva York. El siguiente paso es formular un algoritmo que pueda designar un espécimen como una probable nueva especie. Los autores están solicitando financiación para abordar este desafío.
Ambrose y Little están trabajando en el desarrollo de una herramienta que cualquier herbario pueda usar para analizar sus especímenes no identificados. "La idea es enviar una foto de tu espécimen y el algoritmo mostrará sus cinco resultados principales. Creemos que esto ayudará a eliminar la acumulación de especímenes y puede reducir el cuello de botella que supone hacer llegar un espécimen a un experto del grupo. Hay muchos herbarios pequeños que pueden carecer de experiencia taxonómica, por lo que esto les ayudaría a organizar sus colecciones", dice Ambrose. "Esto no está lejos de ser así, ya que el Dr. Little ha desarrollado un prototipo que llamamos iCurateNecesitaremos más financiación y tiempo para hacerlo. iCurate Más robusta para beneficiar a los herbarios de todo el mundo. Pero esperemos que esto no esté muy lejos en el futuro.
En este sentido, Ambrose y Little han organizado recientemente una segundo concurso de Kaggle Esto amplía enormemente el alcance taxonómico del primero. "Tuvimos 153 equipos compitiendo en esta competencia con un conjunto de datos de más de un millón de especímenes que representan más de 32,000 especies de plantas vasculares. Con los algoritmos desarrollados durante esta competencia, estamos listos para seguir desarrollando iCurate y abordar la automatización del reconocimiento de nuevas especies”.
