A medida que se intensifica el cambio climático, los científicos están trabajando para encontrar los mejores métodos, algoritmos o modelos para simular el impacto de las altas temperaturas y/o la disponibilidad limitada de agua en el crecimiento, desarrollo y productividad de los cultivos. La complejidad de las interacciones planta-entorno dificulta esto, pero una nueva investigación ha demostrado que la integración del aprendizaje automático y el modelado de cultivos puede proporcionar las respuestas necesarias.

Dr. Ioannis Droutsas, investigador asociado de la Universidad de Leeds y coautores Algoritmos de aprendizaje automático (ML) integrados en un modelo de cultivo basado en procesos para crear un nuevo marco de modelado/ML de cultivos con alto rendimiento en la representación de la respuesta de los cultivos a una amplia gama de entornos, incluidas las condiciones de estrés..

Los autores modificaron el modelo de cultivo basado en procesos existente GLAM-Parti incorpora algoritmos de aprendizaje automático para estimar variables que regularmente escapan a la capacidad predictiva del modelo de cultivo. Se utilizó ML para predicciones diarias de la eficiencia en el uso de la radiación, la tasa de cambio del índice de cosecha y la etapa fenológica.

Para la evaluación del nuevo marco GLAM-Parti-ML, los autores utilizaron un conjunto de datos existente para un cultivar de trigo cultivado bajo una amplia gama de condiciones de temperatura, radiación solar y humedad atmosférica, incluida la exposición al estrés por calor. La mitad de los datos se utilizó para entrenar los algoritmos de aprendizaje automático y la otra mitad para probar el modelo.

El modelo se ejecutó con las entradas climáticas temperatura, radiación solar y déficit de presión de vapor, los determinantes climáticos más significativos del crecimiento del trigo en condiciones de riego y buena fertilización. Las salidas de biomasa y rendimiento de grano, así como los días hasta la antesis y la madurez se compararon con las mediciones de campo al final de la temporada.

Un diagrama de flujo que muestra la metodología para la integración de ML en GLAM-Parti. El conjunto de datos se divide en tratamientos de entrenamiento y prueba. Los datos de cultivo de los tratamientos de entrenamiento se utilizan para ajustar series temporales de biomasa y rendimiento, que luego derivan las variables objetivo RUE y dHI/dt para el entrenamiento de Random Forests (RF) y XGBoost. Los tratamientos de prueba se utilizan en la evaluación de GLAM-Parti con RF y XGBoost respectivamente.
Metodología para la integración de ML en GLAM-Parti.

El equipo aplicó Random Forests y Extreme Gradient Boost. Ambos modelos ML exhibieron una alta eficiencia en el aprendizaje de los patrones entre los insumos y el rendimiento del cultivo (en términos de eficiencia en el uso de la radiación) durante el transcurso de la temporada de crecimiento. Esto dio como resultado una buena habilidad de modelo para la biomasa de cultivos; GLAM-Parti-ML reprodujo el 98 % de la varianza observada tanto en biomasa como en rendimiento de grano y el error del modelo fue inferior al 20 %. Además, el modelo reprodujo al menos el 98 % de la varianza observada en los días hasta la antesis y la madurez con menos del 11 % de error. Sin embargo, se subestimó el inicio de ambas etapas fenológicas, prediciendo la antesis y la madurez antes de lo observado.

Se muestran cuatro figuras. Los gráficos de barras emparejados comparan la biomasa observada y la prevista, el rendimiento de grano, la emergencia hasta la antesis y la emergencia hasta las fechas de madurez. Todos tienen 12 cultivares enumerados en el eje x y una línea vertical roja en el centro que indica que 6 de los cultivares se usan para entrenamiento de Random Forests y los otros 6 son tratamientos que se usan para pruebas modelo. El eje y de la figura A es la biomasa en toneladas por hectárea de 0 a 20. La biomasa de tres de los cultivares de entrenamiento y un cultivar de prueba es de alrededor de 5 toneladas por hectárea, mientras que el valor para otros cultivares es de alrededor de 10 toneladas por hectárea. Los valores de predicción de entrenamiento se sobreestiman y subestiman de manera uniforme, mientras que los valores de prueba muestran que las predicciones se subestiman. El eje y de la figura B es el rendimiento de grano en toneladas por hectárea de 0 a 8. La biomasa para dos de los cultivares de entrenamiento y un cultivar de prueba es de alrededor de 1 tonelada por hectárea, mientras que el valor para otros cultivares es de alrededor de 5 toneladas por hectárea. Los valores de predicción de entrenamiento se sobreestiman y subestiman de manera uniforme, mientras que los valores de prueba muestran que las predicciones se subestiman. El eje y de la figura C es la emergencia hasta la antesis de 0 a 100 días. La fecha de antesis varía tanto para los cultivares de entrenamiento como para los de prueba y oscila entre 50 y 100 días. Los valores de predicción de entrenamiento son iguales a los valores observados, mientras que los valores de prueba muestran que las predicciones están subestimadas. El eje y de la figura D es la emergencia hasta la madurez de 0 a 150 días. La fecha de madurez varía tanto para los cultivares de entrenamiento como para los de prueba y oscila entre 75 y 150 días. Los valores de predicción de entrenamiento son iguales a los valores observados, mientras que los valores de prueba muestran que las predicciones se subestiman en su mayoría.
Comparación entre los valores observados y simulados por GLAM-Parti para un cultivar de trigo cultivado bajo una amplia gama de temperaturas, radiación solar y condiciones de humedad atmosférica, incluida la exposición al estrés por calor. Las líneas rojas verticales separan los tratamientos utilizados para el entrenamiento de Random Forests (a la izquierda de la línea roja) y los tratamientos utilizados para las pruebas del modelo (a la derecha de la línea roja).

A continuación, se comparó GLAM-Parti con su predecesor, GLAM, un modelo de cultivo basado en procesos sin integración de aprendizaje automático. GLAM se calibró con el 100% de los datos y GLAM-Parti con solo el 50%. Sin embargo, GLAM-Parti-ML tuvo valores de error más bajos para la biomasa, el rendimiento y los días hasta la madurez y la antesis, lo que indica que las parametrizaciones de aprendizaje automático mejoraron el modelo a pesar de haber sido entrenado con solo la mitad de los datos.

Para evaluar más a fondo GLAM-Parti-ML, los autores utilizaron un segundo conjunto de datos de tres cultivares de trigo cultivados en muchos experimentos de campo en seis países. Nuevamente, la mitad de los datos se usaron para entrenar los algoritmos de aprendizaje automático y la otra mitad para probar el modelo.

Se muestran cuatro figuras. Los diagramas de dispersión comparan la biomasa observada y pronosticada, el rendimiento de grano, la emergencia hasta la antesis y las fechas de emergencia hasta la madurez para el trigo cultivado en 4 países. Los ejes de la figura A son biomasa en toneladas por hectárea de 0 a 15. El valor de R cuadrado es 0.73. Los ejes y de la figura B son el rendimiento de grano en toneladas por hectárea de 0 a 7.5. El valor de R cuadrado es 0.76. Los ejes de la figura C son de emergencia a antesis de 0 a 100 días. El valor de R cuadrado es 0.66. Los ejes para la figura son desde la emergencia hasta la madurez de 0 a 120 días. El valor de R cuadrado es 0.79.
Comparación entre los valores observados y simulados por GLAM-Parti para tres cultivares de trigo cultivados en muchos experimentos de campo en seis países.

Una vez más, el modelo tuvo un excelente desempeño. Reprodujo el 73 % de la variación de la biomasa entre ubicaciones y cultivares con un 15 % de error y el 76 % de la variación del rendimiento de grano con un 16 % de error. La fenología del cultivo fue más precisa para los días a madurez (9.9% de error) que antesis (13.2% de error). Nuevamente hubo sesgo negativo en la predicción de ambos estados fenológicos.

Droutsas concluye que “el uso de un conjunto de datos de entrenamiento más grande mejoraría enormemente las simulaciones del modelo. Sin embargo, existen pocos conjuntos de datos con las medidas requeridas”.

LEE EL ARTÍCULO:

Ioannis Droutsas, Andrew J Challinor, Chetan R Deva, Enli Wang, Integración del aprendizaje automático en el modelado basado en procesos para mejorar la simulación de respuestas complejas de cultivos, in silico Plants, 2022, diac017, https://doi.org/10.1093/insilicoplants/diac017