Desenvolupen una nova eina informàtica per investigar la complexitat del genoma
Un equip de l’Institut de Biologia Integrativa de Sistemes (UV-CSIC) ha publicat en Nature Methods un programari propi per analitzar dades obtingudes per seqüenciació de lectura llarga del genoma. Aquest sistema permet descobrir noves molècules d’ARN i assignar una funció en la creació de teixits. S’aprofundeix així en el coneixement de la formació de l’organisme i les seues malalties.
La complexitat d’un organisme emergeix del genoma, el llibre que conté les instruccions del seu ADN per a la vida. El mètode per llegir aquest llibre –la seqüenciació– ha evolucionat cap a la lectura de fragments cada vegada més llargs del genoma. En aquest camp, un grup de recerca liderat per l’Institut de Biologia Integrativa de Sistemes (I2SysBio), centre mixt de la Universitat de València (UV) i el Consell Superior d’Investigacions Científiques (CSIC), ha millorat un programa informàtic propi capaç de descobrir nous trànsits –molècules d’ARN per sintetitzar proteïnes i crear teixits– a partir de la seqüenciació amb instruments de lectura llarga; i assignar-los una funció en la formació de l’organisme. Així ho ha publicat Nature Methods.
La seqüenciació de lectura llarga (long-read sequencing) és la tercera generació de mètodes de seqüenciació del genoma. Davant la lectura de fragments curts, que analitza uns 200 nucleòtids, els mètodes de lectura llarga poden btindré lectures 100 vegades més llargues, cosa que deixa menys buits en la informació del genoma per emplenar mitjançant eines bioinformàtiques. Aquesta va ser una de les raons perquè Nature Methods el considerara ‘Mètode de l’Any 2022’.
Uns anys abans, el 2018, la investigadora Ana Conesa, aleshores a la Universitat de Florida, va desenvolupar un programa informàtic anomenat SQANTI per analitzar la informació que s’extreia mitjançant aquests mètodes de lectura llarga. Ara, el seu equip de recerca a l’I2SysBio ha publicat una millora substancial d’aquest programari que es pot utilitzar lliurement en els principals sistemes comercials que utilitzen seqüenciació de lectura llarga, Pacific Biosciences (PacBio) i Oxford Nanopore Technologies (ONT).
“Les tècniques de lectura llarga analitzen millor la complexitat dels trànsits i el transcriptoma humans”, comenta Conesa. Això identifica la porció del genoma que es llig a cada cèl·lula per donar lloc a teixits i òrgans. Així, un únic gen pot donar lloc a una gran diversitat de trànsits, mitjançant petits canvis en l’estructura d’ARN que codifica, i amb ells de proteïnes amb funcions cel·lulars diferents. “La seqüenciació de lectura curta no pot resoldre aquest puzle. La lectura llarga reconstrueix millor la complexitat funcional del transcriptoma humà i això és clau per estudiar determinades malalties, sobretot de tipus neurològic i càncer”, sosté la investigadora del CSIC.
Entendre millor la complexitat de l’organisme i les malalties
La versió publicada ara –SQANTI3– soluciona alguns problemes anteriors derivats de la degradació de l’ARN i introdueix millores notables. El programa és capaç de descobrir nous trànsits que no eren a les bases de dades del genoma que usen aquests programes informàtics. A més, mitjançant tècniques d’Intel·ligència Artificial, el programari pot assignar informació funcional per al nou trànsit, “cosa essencial per entendre la complexitat funcional de l’organisme i de les malalties”, remarca Conesa.
Per desenvolupar aquest programa informàtic s’ha utilitzat el clúster de computació Garnatxa de l’I2SysBio, que disposa de 15 nodes de computació capaços d’oferir 950 fils de còmput en paral·lel. A més, el grup Genòmica de l’Expressió Gènica que dirigeix Ana Conesa a l’I2SysBio participa a ELIXIR, una de les infraestructures estratègiques per a Fòrum Estratègic Europeu sobre Infraestructures de Recerca (ESFRI) que permet a laboratoris de ciències de la vida de tot Europa compartir i emmagatzemar les vostres dades.
En el desenvolupament de SQANTI3, hi ha col·laborat la Universitat de Florida i Pacific Biosciences.