La soja procesada es la la fuente más grande del mundo de proteína animal y la segunda fuente más grande de aceite vegetal.

La identificación de genes que controlan rasgos importantes proporciona la base para mejoras genéticas para desarrollar cultivos que produzcan más rendimiento para abastecer a una población en crecimiento y que sean resistentes a estreses bióticos (p. ej., plagas de insectos) y abióticos (p. ej., cambio climático). Un transcriptoma representa ese pequeño porcentaje del código genético que se transcribe en moléculas de ARN. Al estudiar los transcriptomas, los investigadores esperan determinar cuándo y dónde se activan o desactivan los genes en varios tipos de células y tejidos cuando se exponen a diferentes tratamientos. En la última década, más de 3000 muestras de datos transcriptómicos de soja se han acumulado en depósitos públicos.

Estadísticas descriptivas principales de muestras de RNA-seq en el Base de datos del archivo de lectura de secuencias (SRA) del Centro Nacional de Información Biotecnológica. (a) Distribución de muestras por país (b) Número de muestras SRA por tejido.

Un nuevo artículo de revisión del Dr. Thiago Venancio y coautores de la Universidade Estadual do Norte Fluminense en Brasil explora el estado del arte en recursos transcriptómicos de soja y redes de coexpresión génica.

El artículo primero presenta tecnologías basadas en hibridación (es decir, micromatrices) y basadas en secuencias (es decir, RNA-seq) y analiza los beneficios de cada una. Lo que es más importante, los microarrays se basan en sondas específicas de especies o transcripciones (es decir, tramos cortos de ADN o ARN) que ya se sabe que indican su expresión relativa. RNA-Seq, por otro lado, puede detectar nuevos transcritos porque determina la secuencia de ácido nucleico de una molécula de ADN o ARN dada, que luego se identifica. La tecnología RNA-Seq puede detectar un mayor porcentaje de genes expresados ​​diferencialmente, especialmente genes con baja expresión. Por estas razones, la tecnología RNA-Seq ha comenzado a reemplazar las plataformas tradicionales de micromatrices para realizar perfiles transcripcionales. Se destacan los principales estudios que han investigado los programas transcripcionales de soja en diferentes tejidos y condiciones utilizando ambas tecnologías.

Luego, los autores proponen enfoques que integran la gran cantidad de datos en repositorios públicos utilizando redes de coexpresión de genes (GCN). Los GCN se utilizan para la exploración, interpretación y visualización de la relación entre genes que trabajan juntos para contribuir a la expresión de un rasgo particular (p. ej., rendimiento). “La naturaleza ama el patrón y el orden. En los sistemas biológicos, los componentes moleculares (p. ej., genes, proteínas) están organizados jerárquicamente en grupos densos denominados comúnmente como módulos. Los GCN son una herramienta poderosa para identificar módulos de genes coexpresados ​​que probablemente participen en el mismo proceso biológico. Dado que las funciones de los genes en cultivos importantes han sido identificadas experimentalmente, los GCN se pueden usar para inferir funciones de genes desconocidos en función de la función de sus compañeros de coexpresión. En una perspectiva evolutiva, estos módulos de coexpresión se pueden explorar para identificar genes que adquirieron nuevas funciones después de la duplicación, y se pueden comparar entre especies para investigar la conservación y la divergencia de los ortogrupos”, explica Venancio.

Finalmente, el artículo identifica los recursos transcriptómicos de soja y los datos de expresión de soja, incluido el Base de datos del archivo de lectura de secuencias (SRA) del Centro Nacional de Información Biotecnológica – el repositorio más grande disponible públicamente de datos de secuenciación de alto rendimiento y el Atlas de expresión de soja – una base de datos de expresión génica de alta resolución.