Pocos meses después de declarase la pandemia de covid-19, al inicio de 2020, los científicos secuenciaron el genoma del virus, el SARS-CoV-2, pero aún seguían sin conocerse muchos genes codificadores de proteínas.

Ahora, un estudio de genómica comparativa ha permitido generar el mapa genético más preciso y completo del virus. Hecho por investigadores del Instituto de Tecnología de Massachusetts (MIT) y publicado este martes en la revista Nature Communications, el estudio ha confirmado varios genes codificadores de proteínas y ha descubierto que otros -que se habían propuesto como genes- no codificaban ninguna proteína.

“Pudimos utilizar este potente enfoque de genómica comparativa de firmas evolutivas para descubrir el verdadero contenido funcional de codificación de proteínas de este genoma de enorme importancia”, destaca Manolis Kellis, autor principal del estudio y profesor de ciencias de la computación del MIT, y miembro del Instituto Broad del MIT y Harvard.

En una segunda parte del estudio, el equipo de investigación también analizó cerca de 2.000 mutaciones que han surgido en el SARS-CoV-2 desde el inicio de la pandemia, lo que les permitió evaluar la importancia que pueden tener esas mutaciones y su capacidad para evadir el sistema inmunitario o volverse más infeccioso.

Se sabía que, con casi 30.000 bases de ARN, el genoma del SARS-CoV-2 tiene varias regiones que codifican genes de proteínas y otras de las que había sospechas pero no se habían clasificado definitivamente.

Para determinar qué partes del genoma del SARS-CoV-2 contiene realmente genes, los investigadores recurrieron a la genómica comparativa, y compararon el SARS-CoV-2 (que pertenece a un subgénero de virus llamado Sarbecovirus, que infecta a los murciélagos) con el SARS-CoV (que causó el brote de SARS de 2003) y 42 cepas de sarbecovirus de murciélagos.

Así, confirmaron seis genes codificadores de proteínas en el genoma del SARS-CoV-2, además de los cinco que están bien establecidos en todos los coronavirus.

También determinaron que la región que codifica un gen llamado ORF3a también codifica un gen adicional, el ORF3c, que tiene bases de ARN que se solapan con el ORF3a, pero que están en un marco de lectura diferente, algo raro en los genomas grandes, pero común en muchos virus y que, en el caso del SARS-CoV-2, aún no se sabe qué función tiene. Los investigadores también demostraron que otras cinco regiones que se habían propuesto como posibles genes no codifican proteínas funcionales, y descartaron que queden otros por descubrir.

Además, los autores vieron que muchos trabajos anteriores utilizaban no sólo conjuntos de genes incorrectos, sino también, a veces, nombres contradictorios, por lo que, en un artículo paralelo publicado recientemente en la revista Virology, presentaron unas recomendaciones para nombrar los genes del SARS-CoV-2. En el estudio, los investigadores también analizaron más de 1.800 mutaciones que han surgido en el SARS-CoV-2 y descubrieron que, en la mayoría de los casos, los genes que evolucionaban rápidamente antes de la pandemia han seguido haciéndolo, y los que tendían a evolucionar lentamente han mantenido esa tendencia.

Asimismo, analizaron las mutaciones que han surgido en variantes preocupantes, como la cepa británica, la de Brasil y la de Sudáfrica y observaron que muchas de las mutaciones que hacen que esas variantes sean más peligrosas se encuentran en la proteína de la espiga, que ayuda al virus a propagarse con rapidez y a evitar el sistema inmunitario.

Sin embargo, cada una de esas variantes tiene “más de 20 mutaciones más, y es importante saber cuáles de ellas pueden hacer algo y cuáles no”, advierte Irwin Jungreis, autor principal del estudio e investigador del MIT.

Para los autores estos datos podrían ayudar a otros científicos a centrar su atención en las mutaciones que parecen tener efectos más significativos en la infectividad del virus.