Projecte de recollida de dades ENCODE

ENCODE, a Enciclopèdia completa d’elements d’ADN, projecte col·laboratiu de recollida de dades iniciat el 2003 que tenia com a objectiu inventariar tots els elements funcionals del genoma humà. ENCODE va ser concebut per investigadors del National Human Genome Research Institute (NHGRI) dels Estats Units com a seguiment del projecte del genoma humà (HGP; 1990-2003), que havia produït una gran quantitat de dades de seqüències d’ADN però no havia implicat anàlisis exhaustius. d’elements genòmics específics.

La informació recopilada per científics ENCODE va ser pensada per servir com una mena de guia, facilitant l’estudi dels components del genoma humà que contribueixen a la funció de les cèl·lules i teixits i que, per tant, tenen implicacions per a la salut i les malalties humanes. També va proporcionar una visió important per a l'estudi de l'evolució humana i la genètica, generant finalment dades que no només van suggerir que àmplies regions del genoma que abans es consideraven no funcionals fossin efectivament funcionals, sinó que també van impugnar el concepte bàsic d'un gen.

La recerca d’elements funcionals

Elements funcionals del genoma humà, tal com es defineix al projecte ENCODE, inclouen aquells segments d'ADN que codifiquen molècules d'ARN mitjançant el procés de transcripció, que uneixen proteïnes reguladores conegudes com a factors de transcripció o que posseeixen llocs d'unió per a grups metil, que són capaços. de modificar l’estructura de la cromatina (les fibres compactes de proteïna d’ADN que es condensen per formar cromosomes). Aquests elements pertanyen a la xarxa de regulació genòmica (o reguloma), una característica de la qual és la producció de transcripcions d’ARN a partir de gens que porten informació per a la producció de proteïnes. Les proteïnes en última instància donen forma a les cèl·lules i teixits, i regulen processos químics que són essencials per a la vida.

Tot i que quan es va tancar l’HGP el 2003, no estava clar quant del genoma humà es va transcriure de manera activa en l’ARN codificant proteïnes i la complexitat i la funció de les transcripcions d’ARN no s’havien explorat àmpliament. De la mateixa manera, la rellevància funcional d'altres característiques genòmiques, que van des de les relacions entre l'expressió gènica i la modificació de les proteïnes histones en la cromatina fins a la significació transcripcional dels pseudogens (les seqüències de l'ADN rellevant es creuen que han estat difoses com a resultat de l'evolució). Com a resultat, va haver-hi una necessitat significativa d’un enfocament sistemàtic per identificar i cartografiar les localitzacions d’elements funcionals i per caracteritzar les relacions físiques dels elements del reglament. Els científics de l'ENCODE van adoptar aquests objectius i es preveia que el seu compliment donés lloc a una comprensió més completa dels mecanismes que controlen els gens i la seva activitat.

Estructura del projecte ENCODE

ENCODE es va dividir en dues etapes: una fase pilot i de desenvolupament de tecnologia i una de producció. El component pilot es va centrar en la selecció d’un conjunt de mètodes experimentals i computacionals que els investigadors d’ENCODE podrien utilitzar per identificar elements funcionals dins dels aproximadament tres mil milions de parells de bases que formen el genoma humà. Per facilitar les comparacions d'eficàcia i eficiència, es van provar diferents mètodes en les mateixes regions objectiu que cobreixen un total de 30 milions de parells de bases (30 Mb; aproximadament un 1% del genoma humà) dins de diferents tipus de cèl·lules humanes. Entre els mètodes explorats hi havia algunes tecnologies de seqüenciació d’ADN de nova generació i matrius de rajoles genòmiques (eines per escanejar genomes sencers per a regions amb característiques presentades) i altres enfocaments computacionals (com l’anàlisi de l’estructura de la cromatina). El perfeccionament de tecnologies capaces de generar dades amb un gran rendiment (automatitzat) va constituir la base del component de desenvolupament tecnològic d’ENCODE. A continuació, es van ampliar els mètodes identificats com a més útils per a l'anàlisi del genoma complet.

La fase de producció a escala completa d’ENCODE, en la qual els científics van ampliar la recerca d’elements funcionals fins al 99 per cent restant del genoma humà, va començar el 2007 i es va acabar el 2012. Més de 400 científics, la majoria finançats pel NHGRI, van participar en la fase a escala completa Aquests investigadors van formar el gruix del consorci ENCODE i les institucions amb seu als Estats Units on van realitzar la seva recerca van ser designats centres de producció ENCODE. El consorci ENCODE, a més de dur a terme la tasca de creació d'un inventari d'elements funcionals, també va desenvolupar algunes pautes de treball, com ara l'ús de línies cel·lulars designades i les eines estandarditzades d'anàlisi i informació de dades, que eren fonamentals per permetre les comparacions de dades generades pels diferents laboratoris participants.

Els centres de producció ENCODE van comptar amb el suport d’un Centre de Coordinació de Dades (DCC), situat a la Universitat de Califòrnia, Santa Cruz. El DCC va servir com a principal dipòsit de dades del projecte, proporcionant als participants de l'estudi un portal comú a través del qual podien enviar les seves dades, capturar metadades associades a experiments i conjunts de dades i desenvolupar protocols d'estandardització i verificació de dades. El DCC també va desenvolupar tutorials per ajudar els investigadors en general que estiguessin interessats en utilitzar les dades una vegada que fossin disponibles públicament. Més tard, es va afegir al projecte un anàlisis de dades (DAC), amb seu a la Facultat de Medicina de la Universitat de Massachusetts, al projecte. El DAC va ajudar a l'anàlisi integradora de les dades ENCODE.

L'inventari ENCODE

Els resultats inicials de la fase pilot d’ENCODE es van publicar el 2007. Tot i que aquesta fase del projecte estava preocupada principalment per l’enumeració dels elements funcionals que es troben dins dels 30 Mb de seqüències objectiu, el procés d’identificació de maneres d’integrar i analitzar conjunts de dades va ser conduït. a observacions intrigants, especialment sobre l’estructura i el comportament dels gens. Aquestes primeres conclusions es van recolzar en les dades addicionals generades durant la fase de producció d’ENCODE, els resultats dels quals es van publicar el 2012. Els resultats de la fase de producció també van renovar el debat sobre la importància funcional de l’ADN no codificant.

Redefinint el gen

Les dades d’ENCODE publicades el 2007 van revelar que el genoma humà està cobert àmpliament per transcripcions d’ARN, moltes de les quals es produeixen a través d’explicacions alternatives (l’edició d’una transcripció primària que es tradueix en la producció d’una proteïna diferent de la que normalment codifica la transcripció). Les troballes van corroborar informes anteriors, en què els científics van proposar que el genoma humà estigui format per vastes xarxes transcripcionals. L'existència d'aquestes xarxes, però, va desdibuixar idees tradicionals sobre les fronteres entre els gens i les regions intergèniques (les llacunes entre els gens) i va impugnar així el concepte bàsic del gen com a unitat discreta de codificació de proteïnes. El concepte es va posar de nou en qüestió el 2012, quan els científics ENCODE van informar que fins al 75% del genoma humà pot estar cobert per transcripcions d'ARN primàries. Aquesta extensa cobertura de RNA va implicar un solapament important entre els gens veïns.

Un paper funcional per a l'ADN no codificant

Les dades de la fase de producció van revelar que el 80 per cent del genoma humà és funcional bioquímicament com a resultat de l'associació amb l'ARN o les activitats de la cromatina. Com que la major part del genoma humà està format per ADN no codificant (el que abans era considerat ADN "brossa"), les dades implicaven que aquestes regions, que no produeixen proteïnes i, per tant, se suposa que no són funcionals, de fet són funcionals. rellevant. Tot i que investigadors fora del projecte ENCODE havien arribat anteriorment a aquesta mateixa conclusió, les dades d’ENCODE van destacar la seva importància. La investigació realitzada de forma independent i com a part de ENCODE va indicar que les regions no codificants poden tenir un paper important en la regulació de la producció de proteïnes i en el manteniment de la integritat estructural del genoma.