Los factores de transcripción (TF) y los sitios de ADN a los que se unen (TF-DNA) son buenos objetivos para la mejora de cultivos porque controlan la expresión génica. Si bien los desarrollos tecnológicos de la última década han facilitado la caracterización de las preferencias de unión al ADN para muchos TF, muchos siguen sin identificar. Un nuevo artículo publicado en in silico Plantas describe un modelo de aprendizaje automático creado para encontrar sitios de enlace de TF candidatos.

La Sra. Sohyun Bang, estudiante de posgrado en el Instituto de Bioinformática de la Universidad de Georgia y los coautores construyeron un modelo de predicción que podría clasificar las regiones genómicas como clases de unión a TF y clases no unidas a TF del ADN genómico. Los autores optaron por centrarse en la detección de miembros de la familia TF del factor de respuesta de auxina (ARF) en maíz y soja porque la auxina desempeña un papel crucial en el crecimiento y desarrollo de las plantas y se conserva evolutivamente en todas las especies.

Debido a que los datos estaban desequilibrados, lo que significa que la mayor parte del genoma no estaba compuesto por eventos de unión a ARF, los autores se arriesgaron a producir altas tasas de falsos positivos. Por lo tanto, redujeron la cantidad de datos que no estaban compuestos por eventos de unión de ARF al limitar los datos utilizados a las regiones no metiladas, que están altamente enriquecidas para las interacciones TF-ADN en comparación con las regiones metiladas en el genoma (figura panel 1).

Una figura con cuatro paneles apilados. El panel superior está etiquetado como 1, procesamiento de preparación de datos. Muestra que los datos están limitados a regiones no metiladas que contienen regiones ARF no unidas, ambiguas y unidas a ARF. Las regiones unidas a ARF también son picos de DAP-seq. El siguiente panel está etiquetado como 2, codificar variable categórica. Muestra los dos métodos utilizados, la vectorización de conteo para k-mer y la codificación one-hot. El siguiente panel está etiquetado como 3, evalúe el modelo en maíz. Muestra regresión logística y CCN. El panel inferior tiene la etiqueta 4. En el paso final, los autores identifican el mejor modelo basado en el desempeño de los ARF de maíz y luego lo aplican a la soya.
Diseño experimental y procesamiento de datos utilizados en este estudio.

Los algoritmos de aprendizaje automático esperan variables numéricas, no secuencias de nucleótidos categóricas. Por lo tanto, los autores probaron la codificación de las variables categóricas (A,T,G,C) con una o más variables numéricas usando dos métodos (figura panel 2):

  1. La codificación one-hot considera el ADN como una secuencia 1-D de longitud fija con cuatro canales. Por ejemplo, si A, C, G, T se codifican en (1 0 0), (0 1 0), (0 0 1), (0 0 0) respectivamente, entonces la secuencia ATTGC se transformará en ((1 0 0), (0 0 0), (0 0 0), (0 0 1), (0 1 0)). Las secuencias de ADN codificadas se clasificaron utilizando redes neuronales convolucionales.
  2. La vectorización de conteo con usos de k-mer describe secuencias cortas de ADN a lo largo de su longitud (la longitud se denomina k). Por ejemplo, cuando hay un grupo de secuencias de AATTG, las fichas de 3-mer son AAT, ATT, TTG y TGC. El k probado en este documento fue de 5 a 9 pares de bases y, en última instancia, se seleccionó para usar un 7-mer, ya que produjo la tasa de falsos negativos más baja. La regresión logística se adaptó para contar características vectorizadas.

Usando estos métodos, se desarrollaron y entrenaron dos modelos para aprender patrones distintos de secuencias unidas y no unidas a TF utilizando un subconjunto de datos. Luego, los modelos se ejecutaron con los datos restantes para predecir las regiones unidas o no unidas a TF. Las precisiones de predicción de cada modelo se evaluaron frente a eventos conocidos con TF ligados y no ligados a TF que los autores identificaron usando picos de purificación y secuenciación por afinidad de ADN (DAP-seq, panel de figura 3).

El número total de eventos vinculados y no vinculados a TF predichos con precisión reveló una alta precisión de los modelos de predicción con la limitación de que a menudo pasaban por alto los eventos no vinculados a TF de alta frecuencia.

Los autores encontraron que los dos métodos de codificación, one-hot y k-mer, tenían una precisión de predicción de TF similar (76-78%) y una incidencia similar pero alta (41-46%) de tasas de falsos negativos.

Los autores optaron por continuar con el modelo k-mer y mejoraron aún más su rendimiento al incluir un clasificador de regresión logística con muestreo ascendente y selección de características. Para equilibrar los datos, que contenían más regiones no vinculadas a ARF que regiones vinculadas a ARF, los autores utilizaron muestreo ascendente, que muestrea aleatoriamente la clase minoritaria para que tenga el mismo tamaño que la clase mayoritaria en el conjunto de entrenamiento. La selección de características se realizó mediante la identificación de los patrones de secuencias genómicas de 7 mer donde es más probable que ARF se una sin usar la información del motivo.

A partir de esto, pudieron lograr una precisión de predicción de TF del 91 % y una tasa de falsos negativos del 35 %.

Finalmente, los autores validaron el mejor modelo establecido con el maíz contra el genoma de la soja para determinar si el modelo se puede utilizar para predecir de manera sólida las interacciones TF-DNA en otras especies de plantas (figura panel 4). Para hacer esto, produjeron datos DAP-seq para los mismos ARF de maíz utilizando ADN genómico de soja como entrada. Después de entrenar las regiones unidas a ARF de maíz y probar los datos de soja, lograron una precisión de predicción de TF del 70-84% pero tasas altas (36-89%) de falsos negativos por parte de los miembros de ARF.

Los hallazgos de este estudio sugieren el uso potencial de varios métodos para predecir las interacciones TF-ADN dentro y entre especies con diversos grados de éxito.

LEE EL ARTÍCULO:

Sohyun Bang, Mary Galli, Peter A Crisp, Andrea Gallavotti, Robert J Schmitz, Identificación de las interacciones entre el factor de transcripción y el ADN mediante el aprendizaje automático, in silico Plants, 2022;, diac014, https://doi.org/10.1093/insilicoplants/diac014


El modelo está disponible gratuitamente en https://github.com/schmitzlab/Identifying-transcription-factor-DNA-interactions-using-machine-learning