Traducción automática, excepto donde se indique.

Los investigadores han descubierto que la combinación de varios tipos de modelos mejora las predicciones del rendimiento de los cultivos, superando a los modelos individuales.


Puede escuchar esta página como un archivo de audio. (Solo inglés)

Para alimentar a una población mundial que se espera alcance Más de 9.8 mil millones Para 2050, será necesario aumentar la producción de alimentos. aumentado en 70%. Este desafío se complica aún más por el impacto negativo de un clima cambiante en el rendimiento de los cultivos.

El desarrollo de nuevos cultivares de cultivos y la identificación de estrategias de manejo óptimas pueden conducir a mayores rendimientos y ayudar a mitigar los efectos del cambio climático. Los modelos de cultivos servirán como herramienta guía en este trabajo, permitiendo predicciones de rendimiento basadas en factores como el medio ambiente, las prácticas de manejo y los rasgos genéticos.

Para ello, un modelo es tan bueno como sus predicciones. Si bien podría resultar tentador ignorar todos los modelos excepto el que ha demostrado consistentemente la mayor precisión en sus predicciones, un nuevo estudio publicado en in silico Plants demuestra que La combinación de predicciones de múltiples modelos puede dar como resultado una mayor precisión de la predicción..

Si bien se ha descubierto que la combinación de predicciones de múltiples modelos es beneficiosa para determinar rasgos complejos, trabajos anteriores no han aprovechado modelos que incorporen interacciones genéticas y ambientales.

Daniel Kick y Jacob Washburn, ambos investigadores genetistas del USDA-ARS y la Universidad de Missouri, probaron si las predicciones de rendimiento podrían mejorarse utilizando combinaciones de conjuntos de diferentes tipos de modelos, números de modelos y esquemas de ponderación de modelos.

Los autores incluyeron 8 tipos de modelos que incorporan información genómica, ambiental y de gestión y representan 3 categorías de modelos en su trabajo.

  • Modelos lineales son modelos estadísticos que asumen una relación lineal entre las variables de entrada (datos genotípicos y ambientales) y la variable de salida (rendimiento). Los tipos de modelos considerados en este estudio fueron el modelo lineal de efectos fijos (LM) y el mejor modelo predictivo lineal insesgado (BLUP).
  • Modelos de aprendizaje automático Haga predicciones de rendimiento basadas en patrones en los datos de entrenamiento que pueden no ser evidentes utilizando métodos estadísticos tradicionales. Los tipos de modelos considerados en este estudio fueron k vecinos más cercanos (KNN), regresión de radio vecino (RNR), SVR y regresión forestal aleatoria (RF).
  • Redes neuronales profundas (DNN) son un subconjunto del aprendizaje automático que realiza predicciones de rendimiento utilizando múltiples etapas de transformaciones de datos no lineales, donde las características de los datos están representadas por capas sucesivamente más altas y abstractas. Estos modelos se pueden optimizar de diferentes maneras. Los tipos de modelos considerados en este estudio fueron la "optimización consecutiva" de subredes (DNN-CO) y la "optimización simultánea" de todas las subredes a la vez (DNN-SO).

“Estos modelos tienen diferentes suposiciones sobre los datos. Algunos pueden ser más adecuados para la predicción fenotípica que otros y podrían representar patrones en los datos que otros pasan por alto. Esto nos llevó a entrenar y probar un conjunto diverso de modelos”, explicó Kick.

Los autores intentaron probar la solidez de los modelos de ensamblaje e identificar los tipos de modelos, junto con las estrategias específicas de promedio de modelos, que eran más efectivos para mejorar la predicción fenotípica. Los modelos fueron entrenados y probados para predecir el rendimiento a partir de datos genómicos, ambientales y de gestión utilizando un gran conjunto de datos de maíz. La capacidad de los modelos individuales y conjuntos de modelos para predecir con precisión el rendimiento se midió comparando la raíz del error cuadrático medio, que es proporcional a la diferencia entre el valor de rendimiento observado y el valor de rendimiento previsto.

Los modelos conjuntos con frecuencia predicen mejores resultados que los modelos individuales. Las predicciones de conjuntos de dos modelos tenían una probabilidad del 77% de tener una precisión mejorada en comparación con las predicciones de cualquier modelo individual por sí solo. Sin embargo, emplear un mayor número de modelos no fue la panacea. El beneficio de agregar modelos adicionales al conjunto disminuyó con cada modelo agregado. Además, la inclusión de modelos adicionales con predicciones que se alinean estrechamente con las del conjunto tuvo un impacto mínimo o nulo en la precisión.

Gráfico que muestra una mayor variabilidad en el error cuadrático medio para modelos individuales a la izquierda en comparación con la variabilidad reducida de conjuntos de dos modelos a la derecha.
Los conjuntos de modelos a menudo dieron como resultado una mayor precisión que cualquiera de los modelos por sí solo.

La mejora en la precisión de la predicción de conjuntos de dos modelos estuvo determinada por los tipos de modelos utilizados. Por ejemplo, la mayoría de las predicciones del modelo mejoraron en gran medida cuando se combinaron con un modelo de alto rendimiento individual (uno de los dos modelos lineales o el DNN de 'optimización consecutiva'). Las predicciones para conjuntos de dos modelos mejoraron menos cuando incluyeron los modelos de aprendizaje automático, KNN y RNR, o el modelo de "optimización simultánea" de redes neuronales profundas.

Los autores evaluaron la precisión de combinar predicciones de rendimiento modeladas utilizando diferentes esquemas de ponderación. Estos incluían dar a cada tipo de modelo el mismo peso o ponderar cada modelo de manera inversamente proporcional a la desviación estándar, la varianza o el error cuadrático medio de sus predicciones. De los esquemas examinados, cuando se utilizaron los ocho modelos en el mismo conjunto, la ponderación de las réplicas inversamente proporcional a la varianza de cada réplica dio como resultado el error más bajo. Este esquema tuvo un error un 1.6% menor que el mejor modelo individual.

El mejor conjunto y esquema de ponderación para conjuntos compuestos por 3 o más tipos de modelos tuvo un error un 7 % menor que el mejor modelo individual. Este conjunto se ponderó por la inversa del error esperado de cada modelo y se compuso de dos tipos de modelos lineales, el modelo de "optimización consecutiva" de redes neuronales profundas y los modelos de aprendizaje automático RF y SVR.

“Curiosamente, nuestro conjunto con mejor rendimiento incluyó dos de los modelos (RF y SVR) que tuvieron un rendimiento deficiente por sí solos. La eficacia de un conjunto proviene en parte de la es diferente en las predicciones de los modelos: uno puede ser demasiado alto y otro demasiado bajo, pero juntos dan en el blanco. En el contexto adecuado, estos modelos pueden aumentar la precisión”.

 "Con base en estos resultados, donde la predicción es de primordial importancia, a un investigador o criador le convendría, en la mayoría de los casos, ensamblar modelos juntos que usar un solo modelo", explica Kick.

LEE EL ARTÍCULO:

Daniel R Kick, Jacob D Washburn, Ensemble of best linear unbiased predictor, machine learning and deep learning models predict maize yield better than each model alonein silico Plants, Volume 5, Issue 2, 2023, diad015, https://doi.org/10.1093/insilicoplants/diad015

Empieza a escribir y pulse Intro para buscar

Descubra más de Botany One

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Continuar leyendo