Hay muchos restos fósiles de plantas que podrían ayudar a escribir nuevas historias evolutivas de familias botánicas. Común entre los restos son las hojas, que podrían proporcionar una excelente manera de identificar las plantas. Pero los recursos para la identificación de hojas pueden ser de difícil acceso. Peter Wilf y sus colegas han abordado esta brecha de conocimiento al ensamblar una base de datos de acceso abierto de 30,252 imágenes de especímenes de hojas comprobadas examinadas a nivel familiar. Además de proporcionar un excelente recurso educativo para estudiantes humanos, la base de datos también podría proporcionar a los proyectos de aprendizaje automático material para mejorar sus sistemas.

Hojas de muchas formas, pero ninguna verde. Las hojas fósiles son de color marrón y los especímenes conservados de color rosa.
Pares seleccionados de hojas modernas y fósiles de un nuevo y gran conjunto de datos creado por un equipo de científicos dirigido por Penn State. Imagen: Wilf et al. 2022.

"La complejidad de las hojas está fuera de serie, y la terminología que tenemos para describirlas es solo el principio más pequeño de lo que se necesita", dijo Peter Wilf. dijo en un comunicado de prensa. “Los investigadores necesitan referencias visuales mucho más accesibles para estudiar cuáles son las diferencias entre los muchos grupos de plantas, para que podamos poner más de eso en palabras. Hay muchas familias de plantas que se ven superficialmente similares, y esta colección brinda la oportunidad de ver nuevos patrones”.

No es solo la complejidad el problema. En su artículo, Wilf y sus colegas también destacan el registro de la arquitectura de la hoja, o más bien la falta de ella. “Para desarrollar su conocimiento de la arquitectura de la hoja, los investigadores aún confían principalmente en la “tradición oral” de un número cada vez menor de colegas expertos y un puñado de documentos de encuestas y guías de campo que enfatizan las características de la hoja supuestamente diagnósticas... Hay literatura importante sobre la arquitectura de la hoja y registros de fósiles de hojas de varios taxones... Sin embargo, muchos de los grupos de angiospermas más diversos y ecológicamente significativos prácticamente no tienen documentación de las características diagnósticas de la lámina de la hoja (por ejemplo, Asteraceae, Rubiaceae), y por lo tanto, sus fósiles de hojas permanecen en gran parte sin escondido a plena vista en las colecciones de los museos…”

Acceder a estas colecciones puede ser un desafío. Físicamente, pueden estar en todo el mundo, lo que genera muchos gastos para viajar. Algunos herbarios están digitalizando sus colecciones, pero son los herbarios más grandes y mejor financiados los que pueden permitírselo. En el artículo, Wilf y sus colegas también agregan que el mero hecho de estar disponible en línea a menudo no es suficiente para un proyecto de investigación. “En la mayoría de los conjuntos de imágenes en línea, las descargas masivas no se realizan fácilmente, las imágenes se reducen a baja resolución y los nombres de los archivos no están estandarizados, lo que requiere un esfuerzo manual significativo para reorganizarlos y cotejarlos para un proyecto en particular. Agregando más complicaciones a la modularidad de los datos, los datos taxonómicos a menudo se han vuelto parcialmente obsoletos”.

“Lo que hemos hecho aquí es hacer que este recurso educativo masivo esté disponible para todos al examinar y estandarizar todas estas imágenes de diferentes fuentes heredadas”, dijo Wilf. “Nos tomó 15 años hacer eso y convertir todos los nombres de archivo, pero ahora puede tener todo el paquete en su escritorio con un solo clic en el navegador. Cada nombre de archivo tiene incrustada la información clave, en el mismo orden para una clasificación alfa rápida: familia, género, especie y número de espécimen. Los nombres de archivo se pueden buscar rápidamente en segundos para el elemento que le interesa y las imágenes se pueden ver usando herramientas estándar, como la barra de búsqueda de Windows. Todas las imágenes son de resolución original; no se reduce la resolución de nada”.

No son solo los ojos humanos los que pueden beneficiarse de la base de datos. Los autores también hablan sobre el aprendizaje automático. Describen algunas aplicaciones como "haciendo avances espectaculares" en la identificación de plantas. Pero también señalan algunos problemas. Primero, los algoritmos son opacos: no está claro qué características han reconocido las computadoras como características de diagnóstico al identificar plantas.

Otro problema es que no muchos algoritmos identifican más allá del nivel de especie. Al público le gusta conocer la especie de una planta, pero puede ser útil saber qué conecta a una familia de plantas. Para los fósiles de hojas, es posible que no haya especies o géneros existentes para conectar a una imagen, por lo que sería extremadamente útil poder identificar una familia a través del aprendizaje automático.

“Esta base de datos pone la información de estas colecciones a disposición de personas de todo el mundo en un formato que es más fácil de buscar que el original y más apto para análisis digitales”, dijo Scott Wing, coautor del artículo. “Creemos que la base de datos fomentará nuevas investigaciones y también abrirá las colecciones del museo a la gente”.

LEA EL ARTÍCULO:

Wilf, P., Wing, SL, Meyer, HW, Rose, JA, Saha, R., Serre, T., Cúneo, NR, Donovan, MP, Erwin, DM, Gandolfo, MA, González-Akre, E., Herrera, F., Hu, S., Iglesias, A., Johnson, KR, Karim, TS y Zou, X. (2021) “Un conjunto de datos de imágenes de hojas limpias, radiografiadas y fósiles examinadas para la familia de plantas para humanos y aprendizaje automático”, Fitoclaves, https://doi.org/10.3897/phytokeys.187.72350

ACCEDER A LA BASE DE DATOS

Wilf, P., Wing, SL, Meyer, HW, Rose, JA, Saha, R., Serre, T., Rubén Cúneo, N., Donovan, M., Erwin, DM, Gandolfo, MA, Gonzalez-Akre, EB, Herrera, F., Hu, S., Iglesias, A., Johnson, KR, Karim, TS y Zou, X. (2021) “Image collection and support data for: An image dataset of cleared, x-rayed, y hojas fósiles investigadas para la familia de plantas para el aprendizaje humano y automático”. Compartir higos+, https://doi.org/10.25452/figshare.plus.14980698