Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

139
CERCANT EL GENOMA ESTUDI FILOGENèTIC DE L’HORMONA DEL CREIXEMENT HUMà GUILLEM LOPEZ-GRADO SALINAS

description

Autor: Guillem Lopez-Grado Salinas | Tutora: Concepció Sala Fernández de Aramburo | Tema: Hormona del creixement humà, Biologia

Transcript of Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Page 1: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

CERCANT EL GENOMAEstudi filogEnètic dE l’hormona dEl crEixEmEnt humà

guillEm lopEz-grado salinas

Page 2: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Treball de recerca

Cercant el GenomaEstudi filogenètic de l’hormona del creixement humà

Guillem Lopez-Grado Salinas

Dirigit per Concepció Sala Fernández de Aramburo

2n de Batxillerat 2IES Montserrat Barcelona

6 de Novembre de 2013

Page 3: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Finally, it is has not escaped our notice that the more we learn

about the human genome, the more there is to explore.

``We shall not cease from exploration. And the end of all our

exploring will be to arrive where we started, and know the place for

the first time.” . In T. S. Eliot. Collected Poems

“Initial sequencing and analysis of the human genome” Nature, 409, 860-921 (15 February 2001)

Page 4: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Agraïments

En primer lloc voldria agrair a la persona que va posar la llavor del meu interès per la ciència: la meva professora de biologia a l’Institut Montserrat, tutora d’aquest treball i mentora, espero, per a la resta de la vida acadèmica. Ha estat gràcies al seu entusiasme a l’aula, al seu coneixement del món de la ciència a Barcelona, al seu dinamisme i la disponibilitat i accessibilitat a tota hora, la seva paciència i sobretot, la seva amistat, que ha estat possible arribar a aquest punt que em trobo ara. Mil gràcies, Conxita.

Paral·lelament em sento molt agraït i afalagat per l’atenció rebuda pel doctor Roderic Gui-gó i Serra, Cap de coordinació del grup de Genètica i Bioinformàtica del Centre de Regu-lació Genòmica de Barcelona. El fet que una persona de la seva reconeguda vàlua interna-cional es preocupi per les vocacions científiques incipients, diu molt de la seva visió com a científic i com a membre d’un dels centres més prestigiosos arreu del món en l’àmbit de la biologia. Vull agrair especialment a la seva col·laboradora Annick Labeeuw, responsable de divulgació científica del CRG, la coordinació de la meva estada al centre, facilitant-me tot el Know How (saber fer) del Centre: accés a la informació, gestió de les pràctiques i els seus continguts

Igualment agraït a Cedrik Magis, doctor investigador del Grup del Programa Bioinfor-màtica i Genòmica del grup Bioinformàtica Comparativa per a la seva atenció i dedicació en introduir-me i guiar-me pel fascinant món de l’obtenció i interpretació de dades bioin-formàtiques, d’una manera pràctica i amena…i a qualsevol hora!

Tot i haver dubtat de la meva capacitat i limitacions de poder establir un diàleg coherent amb científics tan reputats com els de l’equip del CRG, res més lluny del que vaig sentir durant el temps d’estada al Centre. Són un gran equip en el qual tothom té la seva funció i responsabilitat dins d’un projecte d’investigació, del qual et fan particip.

I no voldria deixar d’agrair el suport dels meus pares que, tot i no acabar d’entendre el con-tingut del meu treball, s’han interessat per aquest àmbit i m’han sabut donar bons consells.

Page 5: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Índex

Pròleg d’Annick del Centre de Regulació Genòmica de Barcelona

1. Introducció 1.1. Motivació 1.2. Abstract

MARC TEÒRIC

Part I

2. El genoma humà. Què és?

2.1 La Genòmica

2.1.1 El Projecte Genoma Humà 2.1.1.1 Objectius 2.1.1.2 Resultats 2.1.1.3 Metodologia 2.1.2 El projecte ENCODE 2.1.2.1 Resultats

2.2 Els gens 2.2.1 Regulació gènica 2.2.2 Mutacions gèniques

2.3 Els cromosomes

3. DNA i transcripció del material genètic

3.1 Estructura del DNA 3.1.1 Estructura primària del DNA 3.1.2 Estructura secundària del DNA 3.1.3 Estructura terciària del DNA

3.2 Nivells d’empaquetament del DNA 3.2.1 Primer nivell d’empaquetament 3.2.2 Segon nivell d’empaquetament 3.2.3 Tercer nivell d’empaquetament 3.2.4 Nivells superiors d’empaquetament

3.3 El mecanisme de transcripció 3.3.1 Iniciació 3.3.2 Elongació o allargament 3.3.3 Finalització 3.3.4 Maduració

7

88

10

11

12

131314141516

171818

20

23

24252525

2626262626

2727282828

Page 6: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

4. RNA i traducció

4.1 L’RNA 4.1.1 RNA soluble o de transferència 4.1.2 RNA missatger 4.1.3 RNA ribosòmic 4.1.4 RNA nucleolar

4.2 Traducció o biosíntesi de les proteïnes 4.2.1 Iniciació de la síntesi 4.2.2 Allargament de la cadena polipeptídica 4.2.3 Finalització de la síntesi 4.2.4 Associació de diverses cadenes polipeptídiques per constituir les proteïnes

4.3 La clau genètica

5. Proteïnes

5.1 Aminoàcids

5.2 Estructura de les proteïnes 5.2.1 Estructura primària 5.2.2 Estructura secundària 5.2.2.1 L’estructura en α-hèlix 5.2.2.2 L’hèlix del col·lagen 5.2.2.3 L’estructura en conformació-β 5.2.3 L’estructura terciària 5.2.3.1 Proteïnes filamentoses 5.2.4 L’estructura quaternària

5.3 Les funcions de les proteïnes 5.3.1 Proteïnes estructurals 5.3.2 Proteïnes amb funció de reserva 5.3.3 Proteïnes amb funció de transport 5.3.4 Proteïnes amb funció enzimàtica 5.3.5 Proteïnes amb funció hormonal

6. Bioinformàtica

6.1 Història 6.1.1 Els anys seixanta i setanta 6.1.2 Els anys vuitanta 6.1.2.1 Avenços bioinformàtics 6.1.3 Anys noranta 6.1.3.1 Avenços bioinformàtics 6.1.3.2 Avenços tecnològics 6.1.4 Principis del segle XXI

29

2929303131

3232323333

33

34

34

353535363637373838

393939394040

41

4242424343444444

Page 7: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

6.2 Àrees d’investigació 6.2.1 Anàlisi de seqüències 6.2.2 Anotació de genomes 6.2.3 Biologia evolutiva computacional 6.2.4 Anàlisi de la regulació 6.2.5 Anàlisi de l’expressió de les proteïnes 6.2.6 Predicció de l’estructura de les proteïnes 6.2.7 Genòmica comparativa 6.2.8 Modelatge de sistemes biològics

6.3 Eines

Part II

7. L’hormona del creixement humà (HGH)

7.1 Funcionament: com actua sobre l’organisme 7.1.1 Tipus segons l’estructura química

7.2 L’hormona del creixement humà 7.2.1 Estructura 7.2.2 Funcionament 7.2.3 Disfuncions 7.2.3.1 Disfuncions per dèficit d’hormona

7.3 Sistemes de detecció

7.4 Possibles tractaments / solucions 7.4.1 Com s’aconsegueix l’hormona del creixement recombinant

MARC PRÀCTIC

Part III

8. La bioinformàtica com a eina per comprendre

8.1 Exercicis d’introducció a la bioinformàtica 8.1.1 Exercici 1 8.1.2 Exercici 2 8.1.3 Exercici 3

8.2 Memòria de l’estada al Centre de Regulació Genòmica de Barcelona

8.3 Estudi filogenètic comparatiu de la GH entre humans i altres mamífers 8.3.1 Conclusions de l’estudi.

9. Conclusions

10. Referències Bibliogràfiques

11. Annexos

454546464647474848

49

50

5050

5151525354

56

5758

59

59596165

68

7477

78

79

86

Page 8: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

7CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Pròleg

Guillem contactó con el CRG en mayo de 2013 con una pregunta muy concreta sobre la hormona de crecimiento para cuya respuesta era necesario introducirse en el ámbito de la bioinformática y la genómica, conocer sus hipótesis, sus metódos de trabajo e incluso su lenguaje específico, su vocabulario propio.

Como es el caso en este tipo de preguntas, desde el CRG redirigimos su inquietud al Grupo de Bioinformatica y Genetica que coordina el doctor Roderic Guigó con el obje-tivo de que sus preguntas y prácticas fueran lo más reales y adecuadas al conocimiento científico actual.

Durante sus 2 semanas de estada en el laboratorio de docencia del CRG, Guillem ha compartido con otros estudiantes e investigadores sus sesiones prácticas y conferencias posteriores en el campo de la biología molecular. A parte de sus propio trabajo de bio-informática, Guillem fue responsable de todas las preguntas de bioinformática que se sugerían durante la práctica, demostrado mucha empatía y capacidad para resolverlas. Incluso ha publicado una reseña bibliogràfica sobre el manual de Bionformatica escrito por uno de nuestros coordinadores: Cedric Notredame, en el número de septiembre de la revista científica El·lipse del Parc de Recerca Biomèdica de Barcelona.

Su presencia fue muy enriquecedora para todos, connectando directamente con la mi-sión del Centre de Regulació Genòmica de Barcelona: hacer descubrir y avanzar el co-nocimiento científico en beneficio de la salud y valor para la sociedad.

Annick LabeeuwResponsable del Área de Difusión de la Ciencia

Unidad de Cultura Científica y de la InnovaciónDepartamento de Comunicación

Centre de Regulació Genòmica de Barcelona

Page 9: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

8CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

1. Introducció

1.1. Motivació

El setembre del 2011 vaig ser diagnosticat amb dèficit d’hormona de creixement per la Doctora Núria Cabrinety, del servei d’endocrinologia pediàtrica de l’Hospital Sagrat Cor de Barcelona i el novembre del mateix any vaig iniciar un tractament que va durar tres anys durant els quals vaig experimentar canvis de tot tipus (físics, psíquics, socials...) que van despertar el meu interès en relació a què és el que dicta els nostres trets, i l’estudi d’aquest funcionament a través de la Genòmica. Durant aquest tractament em van sorgir molts dubtes sobre aquesta patologia que no podien ser resposts exclusivament des de l’entorn i el diàleg metge-pacient de la meva història clínica. Cada pregunta sobre el per què d’aquest dèficit i el com del seu tractament portava a una resposta més complexa des del punt de vista de la biologia i concretament de la genètica. Les meves “preteses petites preguntes” tenien respostes que esdevenien il·limitades pel meu nivell de coneixement.

El temps ha anat passant, com també la meva etapa d’estudis, així doncs, a 4rt d’ESO, en el seguiment de les classes de l’assignatura El Mètode Científic el curs 2011-2012, de la qual Concepció Sala Fernández de Aramburo era professora, va ser quan es va començar a gestar la idea d’aquest treball, va ser la persona amb qui, amb un tema al nostre abast, ens vàrem iniciar en el treball de recerca de 2n de batxillerat.

En el curs 2012-13, la Concepció va esdevenir la meva professora de Biologia, i gràcies a ella vaig tenir l’oportunitat de seguir la conferència del Dr. Roderic Guigó Serra, coordi-nador del Programa de Bioinformàtica i Genòmica del Centre de Regulació Genòmica (CRG) sobre El genoma humà. Del passat al futur, emmarcada dins la Setmana de la Ci-ència 2012. De la seva exposició em va impressionar que un canvi en la posició d’una lletra del meu codi genètic pogués determinar la meva història biològica, saber que en la seqüència del genoma estigués escrit el meu passat, present i futur em va fer reflexionar sobre el que la genòmica pot explicar de la nostra vida. Però sobretot em va fascinar com es podia llegir aquest codi genètic, i la pregunta va ser: quin és “l’alfabet genètic” que ens caracteritza a cadascun de nosaltres?

Afortunadament, la meva professora de biologia va esdevenir tutora del meu treball de recerca i em va facilitar l’accés a les institucions i a les persones clau en aquest àmbit. Vaig entrar en contacte amb el Centre de Regulació Genòmica de Barcelona al mes de maig del 2013. El CRG és un centre de recerca creat el desembre de 2000 per iniciativa del Depar-

Page 10: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

9CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

tament d’Universitats, Recerca i Societat de la Informació (DURSI) de la Generalitat de Catalunya i que, a més, compta amb la participació de la Universitat Pompeu Fabra (UPF), i del Ministeri d’Economia i Competitivitat (MINECO).

El CRG té com a missió investigar i fer avançar el coneixement en benefici de la societat, la salut pública i la prosperitat econòmica… i dos dels seus valors són: comunicar i establir un diàleg amb la societat tot educant la població i tenint en compte les seves necessitats i proporcionar formació multi i interdisciplinària a la propera generació de científics i, alhora, donar suport a l’educació científica a l’abast dels estudiants, i així ha estat en el meu cas. El doctor Guigó va escoltar molt amablement el meu projecte i em va posar en contacte amb l’equip que facilitaria eines per a la realització del treball i faria el seguiment de la meva estada al CRG. Un equip de persones que estarien al meu abast, encapçalat per la responsable de divulgació científica del CRG, Annick Labeeuw, que va tenir cura de tot el procés d’intermediació entre l’Institut Montserrat i el Centre (planificació de pràctiques als laboratoris, assistència a xerrades…) i el doctor Cedrik Magis, doctor investigador del Grup del Programa Bioinformàtica i Genòmica del grup Bioinformàtica Comparativa, que em va proporcionar tots els continguts relacionats amb la introducció a la bioinfor-màtica i a la part pràctica d’aquest treball.

Aquest treball està plantejat, doncs, per un primer marc teòric bibliogràfic per establir els conceptes científics relatius a l’hormona de creixement, la genòmica i la bioinformàtica, com a àmbits científics per poder entendre i treballar la informació d’una manera eficient al se-gon apartat. En aquest es presenta el recull del treball experimental basat en les pràctiques al CRG, amb les eines pròpies de la bioinformàtica i de laboratori, tot aprenent noves tècniques al laboratori o in silico des de l’ordinador. Finalment hi han dues entrevistes: al doctor Ro-deric Guigó, com a científic inspirador del treball i una segona entrevista amb l’investigador Cedik Magis i a la coordinadora Annick Labeeuw, sobre temes relacionats amb l’àmbit de la genètica en global i la bioinformàtica vinculats a la part pràctica del treball.

Tot això per poder entendre el que, segons la meva hipòtesi de treball, suposa la recerca en genòmica i bioinformàtica com a ciències que ens permeten suggerir respostes a les questions relatives al dèficit d’hormona de creixement.

Page 11: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

10CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

1.1. Abstract

This treball de recerca is based on the experience of a student who was diagnosed with HGHD (human growth hormone deficiency). This diagnosis drove his interest about what does it make people suffering this disease, and so, in the scientific field of Genomics and Bioinformatics, where this project is focused.

It was the student’s project tutor who suggested getting in touch with the CRG in Barcelona in order to get suggestions regarding to the project’s field and on the theoretical part of it.

This treball de recerca will try to explain what causes of HGHD from the scientific field of Genomics, with the support and collaboration of the CRG both in its theoretical and practical parts. This project aims to find out the interdisciplinary of HGHD studies.

Aquest treball de recerca es basa en l’experiència d’un estudiant que va ser diagnosticat amb HGHD (deficiència d’hormona de creixement humà). Aquest diagnòstic va reconduir el seu interès sobre el què fan les persones que pateixen aquesta malaltia, des del camp científic de la Genòmica i la Bioinformàtica en el que es centra aquest projecte.

Va ser la tutora del projecte de l’estudiant qui va suggerir posar-se en contacte amb el CRG de Barcelona per trobar respostes i suggeriment respecte a l’àmbit del projecte i en la part teòrica de la mateixa.

Aquest treball de recerca tractarà d’explicar el HGHD des del camp científic de la Genòmica, amb el suport i col·laboració de la CRG, tant a la part teòrica i pràctica. Aquest projecte té com a objectiu conèixer la interdisciplinarietat dels estudis sobre el HGHD.

Page 12: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

11CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

MARC TEÒRIC

Part I

2. El genoma humà. Què és?

El genoma humà és el conjunt de la informació genètica que determina com som, el con-junt d’aquesta, repartida en 23 porcions duplicades de diferents mides anomenades cro-mosomes, que heretem dels nostres pares. En els 46 cromosomes (2 parells de cada) de les nostres cèl·lules hi tenim els gens, que contenen aquesta informació genètica codificada. En cada una de les nostres cèl·lules que tenen nucli hi ha una còpia del nostre genoma. Tots els organismes, així com nosaltres, tenen un genoma, que conté tota la informació biològica necessària per construir i mantenir un exemple viu d’aquest organisme. La infor-mació continguda en un genoma està codificada en el seu àcid desoxiribonucleic (DNA) que es troba dividit en els gens. Els gens que codifiquen per les proteïnes que s’uneixen al genoma en les posicions adequades i regulen l’expressió gènica en una sèrie de reaccions.

Figura 1: Il·lustració circular del genoma humà assenyalant la localització de gens implicats en malalties i regions similars entre si. <http://circos.ca/intro/genomic_data/>

Page 13: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

12CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

2.1. La genòmica

És una disciplina de la genètica que utilitza DNA recombinant, mètodes de seqüenciació de DNA i la bioinformàtica per seqüenciar i analitzar la funció i estructura dels genomes, les interaccions del conjunt d’aquests gens, i intenta determinar la seqüència completa del DNA dels organismes.

-Eines: Les eines que utilitza la genòmica per als seus estudis es reparteixen en tres passos en els seus projectes; la seqüenciació del DNA, assemblatge de la seqüència per a crear una representació del cromosoma original, i l’anotació i anàlisi de la mateixa.

-Seqüenciació del material genètic: La seqüenciació del DNA és el procés en el qual es determina l’ordre exacte de nucleòtids en una molècula de DNA específica. Tot i que en un principi aquesta operació es feia manualment en un laboratori, actualment la majoria d’aquest procediment necessita màquines especialitzades per tal de poder determinar l’or-dre de seqüències tan llargues com les d’un genoma complet, que, gràcies als avenços de la tecnologia, es poden trobar en laboratoris relativament petits, ja que abans era necessària una gran quantitat de maquinària per tal d’obtenir aquestes seqüències. -Assemblatge de la seqüència: El procés d’alinear i fusionar fragments relativament petits de la seqüència de DNA per a reconstruir-ne l’original mitjançant la bioinformàtica. En aquest procés s’utilitzen eines informàtiques molt necessàries, ja que les actuals no perme-ten llegir la seqüència d’un genoma complet, només poden llegir petites porcions de 20 a 1000 bases.

-Anotació: És l’últim pas del procés, es tracta de la fixació de la informació biològica a les seqüències, és a dir, donar-los un sentit biològic, identificar-les. Per a aquest pas s’utilitzen eines informàtiques que llegeixen la seqüència i la comparen amb les ja existents en una base de dades de genomes complets a nivell mundial i d’una gran quantitat d’espècies, tro-bant la més similar a aquesta per tal d’identificar-la correctament.

Page 14: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

13CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

2.1.1 El Projecte Genoma Humà

El PGH va ser un projecte internacional de 13 anys de durada, des del 1990 fins al 2003, 2 anys abans del que dictava el seu calendari original. Els objectius principals van ser els de descobrir i identificar el conjunt complet de gens que conté i fer-los accessibles per al seu posterior estudi biològic, i determinar la seqüència completa de bases de DNA en el geno-ma humà. El projecte va ser coordinat pels Instituts Nacionals de Salut i el Departament d’Energia dels EUA.

Altres contribuïdors inclouen universitats d’arreu dels Estats Units i socis internacionals al Regne Unit, França, Alemanya, el Japó i la Xina. El treball del Projecte del Genoma Humà va permetre als investigadors començar a entendre el model per a la construcció d’un ésser humà. A mesura que els investigadors aprenen més sobre les funcions dels gens i les proteïnes, aquest coneixement tindrà un impacte més important en els camps de la medicina, la biotecnologia i les ciències de la vida.

2.1.1.1 Objectius

Els principals objectius del Projecte del Genoma Humà van ser proporcionar una seqüèn-cia completa i precisa dels 3 bilions de parells de bases de DNA que componen el genoma humà i trobar tots els aproximadament 25.000 gens humans. El projecte també pretenia seqüenciar els genomes d’altres organismes que són importants per a la investigació mè-dica, com el ratolí i la mosca de la fruita (Drosophila melanogaster).

Figura 2: Portada de la revista Time sobre la consecució del Projecte Genoma Humà.

Page 15: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

14CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

A més de la seqüenciació del DNA, el Projecte del Genoma Humà va tractar de desen-volupar noves eines per obtenir i analitzar dades i fer aquesta informació àmpliament disponible. A més, ja que els avenços en genètica tenen conseqüències per als individus i la societat, el Projecte Genoma Humà s’ha compromès a estudiar les conseqüències de la investigació genòmica a través de les seves implicacions ètiques, legals i socials amb els programa ELSI.

2.1.1.2 Resultats

A l’abril de 2003, es va anunciar que el Projecte Genoma Humà havia completat una se-qüència d’alta qualitat de la totalitat del genoma humà. Aquesta seqüència va identificar la ubicació de molts gens humans i va proporcionar informació sobre la seva estructura i organització. El projecte va posar la seqüència del genoma i les eines utilitzades per ana-litzar les dades disponibles gratuïtament a través d’Internet.

A més del genoma humà, el Projecte del Genoma Humà va seqüenciar els genomes de diversos altres organismes, incloent el llevat de cervesa, el cuc rodó, i la mosca de la fruita. El 2002, els investigadors van anunciar que també havien completat un esborrany del genoma del ratolí. Mitjançant l’estudi de les similituds i diferències entre els gens humans i els d’aquests altres organismes, els investigadors poden descobrir les funcions de deter-minats gens i identificar quins són essencials per a la vida. El projecte ELSI es va convertir en el programa bioètic més important del món i un model per a altres programes ELSI arreu del món.

2.1.1.3 Metodologia

El mètode emprat per a obtenir la seqüència del genoma humà és la seqüenciació, seqüen-ciar significa determinar l’ordre exacte dels parells de bases en un segment de DNA. Els cromosomes humans varien en grandària des d’aproximadament 50 milions a 300 mili-ons de parells de bases. Com que les bases es presenten en parelles, i la identitat d’una de les bases del parell determina l’altre membre del parell, els científics no han d’analitzar les dues bases del parell.

El principal mètode utilitzat pel Projecte Genoma Humà per produir la versió final del codi genètic humà està basada en mapes, o en BAC. BAC és l’acrònim de “cromosoma artificial bacterià”. El DNA humà està fragmentat en peces que són relativament grans, però igualment manejables en grandària (entre 150.000 i 200.000 parells de bases). Els fragments es clonen en bacteris, que emmagatzemen i repliquen el DNA humà de manera que pugui ser preparat en quantitats prou grans per a ser seqüenciades. Si es tria amb cura per minimitzar la superposició, calen uns 20.000 diferents clons BAC per contenir els 3 bilions de parells de bases del genoma humà. Una col·lecció de clons BAC que contenen tot el genoma humà s’anomena “biblioteca BAC”.

Page 16: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

15CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

En el mètode a base de BAC, cada clon BAC és “mapejat” per determinar de quina part del genoma humà prové el DNA en els clons BAC. L’ús d’aquest enfocament garanteix que els científics sàpiguen tant la ubicació precisa de bases de DNA seqüenciades a partir de cada clon com també la seva relació espacial amb el DNA humà seqüenciat en altres clons BAC.

Per a la seqüenciació, cada clon BAC es talla en fragments encara més petits, d’aproxima-dament 2000 bases de longitud. Aquestes peces s’anomenen “subclons”. Una “reacció de seqüenciació” es duu a terme en aquests subclons. Els productes d’aquesta reacció es car-reguen a la màquina de seqüenciació (seqüenciador). El seqüenciador genera al voltant de 500 i 800 parells de bases d’A, T, C i G de cada reacció de seqüenciació, de manera que cada base sigui seqüenciada prop de 10 vegades. Després, un ordinador acobla aquestes seqüèn-cies curtes en trams contigus de seqüència que representen el DNA humà en el clon BAC.

2.1.2 El projecte ENCODE

El National Human Genome Research Institute (NHGRI) va fundar un consorci públic de recerca anomenat ENCODE, Encyclopaedia of DNA Elements (Enciclopèdia dels Ele-ments del DNA), el setembre del 2003, per dur a terme un projecte per identificar tots els elements funcionals dins la seqüència del Genoma Humà i construir una llista dels ele-ments funcionals del genoma Humà, incloent els elements que actuen en nivells de RNA i proteïnes, dels elements regulatoris que controlen les cèl·lules i les circumstàncies en què un gen està actiu.

Figura 3: Portada de la revista Nature en la qual es van publicar el resultats del projecte ENCODE.

Page 17: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

16CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

El projecte va començar amb dos components, una fase pilot i una fase de desenvolupament de tecnologia. La base pilot va testar i comparar mètodes existents per analitzar rigorosa-ment una porció de la seqüència del genoma humà. Les conclusions d’aquest projecte pilot van ser publicades el juny del 2007 a les revistes Nature i Genome Research. Les troballes van subratllar l’èxit del projecte en identificar i caracteritzar elements funcionals del Geno-ma Humà. La fase de desenvolupament de tecnologia també ha estat un èxit amb la promo-ció de diverses noves tecnologies per generar dades d’alt rendiment en elements funcionals.

Amb l’èxit de les fases inicials del Projecte ENCODE, l’NHGRI va finançar nous premis el setembre del 2007 per elevar el Projecte ENCODE a una fase de producció a la totalitat del genoma juntament amb estudis d’escala d’estudis pilot addicionals. Com al projecte pilot, l’esforç en la producció de l’ENCODE s’organitza com un consorci obert i inclou in-vestigadors amb diversos fons i perícia en la producció i l’anàlisi de dades. Aquesta fase de producció també inclou un Centre de Coordinació de Dades, per “rastrejar”, desar i “mos-trar” les dades del Projecte ENCODE juntament amb un Centre d’Anàlisi de Dades per analitzar les dades obtingudes en el projecte. Totes les dades generades pels participants al Projecte ENCODE seran arxivades en bases de dades públiques i estaran disponibles a través del Centre de Coordinació de Dades del projecte.

2.1.2.1 Resultats

Els resultats del projecte han desmentit la visió clàssica que es tenia del funcionament del genoma humà i han desestimat que es tracti d’una col·lecció ordenada i independent de gens. Al contrari, els resultats apunten al fet que el genoma consisteix en un programa genètic organitzat en forma de xarxa complexa integrada per gens, elements reguladors i altres tipus de seqüències de DNA, que interactuen de manera superposada, tot i que el seu funcionament no ha estat desxifrat completament.

Aquests resultats faran que la comunitat científica hagi de fer un replantejament d’algunes de les assumpcions anteriorment sostingudes sobre què són els gens i què fan, a més de com han evolucionat els elements funcionals del genoma. Això podria tenir implicacions notables en els esforços per identificar les seqüències de DNA implicades en moltes malalties humanes.

Els resultats més importants del consorci ENCODE inclouen el descobriment segons el qual la major part del DNA del genoma humà es transcriu a RNA, i que els transcrits resultants se superposen els uns als altres de manera extensiva. Aquest extens patró de transcripció posa en dubte la visió àmpliament defensada anteriorment que el genoma humà consistia en un relativament petit conjunt de gens, amb una gran quantitat de desfets de DNA, que no eren biològicament actius. Les noves dades indiquen que el genoma conté molt poques seqüències que no s’utilitzen i que, en realitat, s’assembla més a una xarxa complexa. En aquesta xarxa, els gens són només un dels molts tipus de seqüències de DNA amb un impacte funcional.

Page 18: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

17CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

2.2. Els gens

Un gen és la unitat bàsica física i funcional de l’herència i es troba al nucli de les cèl·lules, en els cromosomes. Conté informació per a un determinat caràcter de cada organisme, un segment de material genètic (DNA) que és llegit i posteriorment expressat (traduït) en un producte funcional, més concretament en elements reguladors i estructurals tals com proteïnes i enzims, en el que s’anomena expressió gènica.

El camí des del gen a la proteïna és complex i estrictament controlat dins de cada cèl·lula. Consta de dos processos principals: la transcripció i la traducció, que, junts, es coneixen com a expressió gènica.

Durant la transcripció, la informació emmagatzemada en el DNA del gen és transferida a una molècula similar anomenada RNA (Àcid Ribonucleic) al nucli de la cèl·lula. Tant el RNA com el DNA estan formats per una cadena de bases de nucleòtids, però tenen propi-etats químiques lleugerament diferents. El tipus de RNA que conté la informació necessà-ria per a sintetitzar una proteïna s’anomena RNA missatger, o mRNA, perquè transporta la informació des del DNA fora del nucli cap al citoplasma.

La traducció, el segon pas per passar d’un gen a una proteïna, té lloc al citoplasma. El mRNA interactua amb un complex especialitzat anomenat ribosoma, que “llegeix” la se-qüència de bases de mRNA. Cada seqüència de tres bases, anomenada codó, normalment codifica per a un aminoàcid particular. (Els aminoàcids són els “blocs de construcció” de les proteïnes). Un tipus d’RNA anomenat RNA de transferència (tRNA) ajunta la proteïna,

Figura 4: Braç del cromosoma 18, cada una de les regions acolorides correspon a la posició d’un gen.

Page 19: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

18CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

d’aminoàcid en aminoàcid. L’assemblatge de la proteïna continua fins que el ribosoma topa amb un codó “stop”, una seqüència de tres bases que no codifica cap aminoàcid.

Cada gen és traduït en una molècula específica. Aquesta després actua sobre les cèl·lules, modificant l’aspecte del comportamnet cel·lular per al qual aquesta molècula ve donada. Els gens no actuen de forma directa sobre la química cel·lular, sinó mitjançant les proteï-nes que elaboren en el seu estat normal o per una mutació.

En els éssers humans, els gens poden variar en grandària des d’uns pocs centenars de bases de DNA fins a més de 2 milions, el Projecte Genoma Humà ha estimat que els humans tenim entre 20.000 i 25.000 gens al nostre genoma, i aproximadament el 99% d’aquests són els mateixos en cada individu de la nostra espècie.

2.2.1 Regulació gènica

Cada cèl·lula expressa, o “encén”, només una fracció dels seus gens. La resta dels gens són reprimits o apagats. El procés d’activar i desactivar els gens es coneix com regulació gènica. La regulació gènica és una part important del desenvolupament normal. Els gens s’activen i es desactiven en diferents patrons durant el desenvolupament per fer que una cèl·lula del cervell sigui o actuï de manera diferent d’una cèl·lula de l’estómac o una cèl·lula muscular, per exemple. La regulació gènica també permet a les cèl·lules reaccionar ràpida-ment als canvis en el seu entorn. Encara que se sap que la regulació gènica és essencial per a la vida, aquest complex procés encara no s’ha entès del tot.

La regulació gènica pot ocórrer en qualsevol moment durant l’expressió gènica, però en la majoria dels casos es produeix en el nivell de la transcripció (quan la informació del DNA d’un gen es transfereix a l’mRNA). Els senyals procedents del medi o d’altres cèl·lules acti-ven proteïnes anomenades factors de transcripció. Aquestes proteïnes s’uneixen a regions reguladores d’un gen i augmenten o disminueixen el nivell de transcripció. Controlant el nivell de transcripció, amb aquest procés es pot determinar la quantitat de proteïna pro-duïda per un gen en qualsevol moment.

2.2.2 Mutacions gèniques

Els gens porten la informació genètica que ens defineix i ens diferencia de la resta d’hu-mans, però aquestes diferències poden venir donades tant per processos que provoquen un intercanvi del material genètic, que afavoreix la diversitat en els individus d’una espècie (com la meiosi, la divisió de les cèl·lules sexuals), com per mutacions en aquest material genètic, que s’han anat acumulant i manifestant en la descendència.Al llarg de l’evolució, les mutacions en la seqüència del DNA de les espècies és el que ha fet que adquirissin trets diferencials entre elles. Una mutació genètica és un canvi permanent

Page 20: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

19CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

en la seqüència de DNA que conforma un gen. Les mutacions varien en grandària des d’una sola base de DNA a un segment mitjanament gran d’un cromosoma.

Les mutacions genètiques es produeixen de dues formes: poden ser heretades d’un proge-nitor o adquirides durant la vida de la persona. Les mutacions que es transmeten de pares a fills s’anomenen mutacions hereditàries o mutacions de la línia germinal (ja que estan presents en els òvuls i els espermatozoides, també anomenats cèl·lules germinals). Aquest tipus de mutació es troba present durant tota la vida de la persona en pràcticament totes les cèl·lules del seu cos.

Les mutacions que es produeixen únicament en un òvul o espermatozoide, o les que es produeixen just després de la fecundació, s’anomenen mutacions noves (de novo). Les mu-tacions de novo podrien explicar els trastorns genètics en què el nen afectat té una mutació en totes les cèl·lules del seu cos, però no presenta antecedents familiars del trastorn.

Les mutacions adquirides (o somàtiques) es produeixen en el DNA de cèl·lules específi-ques en algun moment durant la vida d’una persona. Aquests canvis poden ser causats per factors ambientals com la radiació ultraviolada del sol, o poden passar si es comet un error en la còpia de DNA durant la divisió cel·lular. Les mutacions adquirides en les cèl·lules somàtiques (cèl·lules diferents de les cèl·lules de l’esperma i l’òvul) no es poden passar a la següent generació. Les mutacions també poden tenir lloc en una sola cèl·lula dins d’un embrió prematur.

Ja que totes les cèl·lules es divideixen durant el creixement i el desenvolupament, l’individu tindrà algunes cèl·lules amb la mutació i algunes cèl·lules sense el canvi genètic. Aquesta situació s’anomena mosaïcisme.

Alguns canvis genètics són molt rars, mentre que d’altres són comuns en la població. Els canvis genètics que es produeixen en més de l’1 per cent de la població s’anomenen poli-morfismes. Són prou comuns com per ser considerats una variació normal en el DNA. Els polimorfismes són responsables de moltes de les diferències normals entre les persones, com el color dels ulls, el del cabell, i el grup sanguini. Encara que molts polimorfismes no tenen efectes negatius sobre la salut d’una persona, algunes d’aquestes variacions poden influir en el risc de desenvolupar uns trastorns determinats.

Page 21: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

20CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

2.3. Els cromosomes

Els cromosomes es troben en tots els organismes amb nucli cel·lular (eucariotes). Al nucli de cada cèl·lula, la molècula de DNA s’empaqueta en estructures similars a fils anomenats cromosomes. Cada cromosoma es compon de DNA estretament enrotllat diverses vegades al voltant d’unes proteïnes anomenades histones que donen suport a la seva estructura.

Els cromosomes no són visibles en el nucli cel·lular, ni tan sols en un microscopi, quan la cèl·lula no s’està dividint (es troba en la interfase). No obstant això, el DNA que compon els cromosomes (la cromatina) es compacta durant la divisió cel·lular (mitosi) i és llavors quan és visible amb un microscopi, tot i que abans la cèl·lula ha de ser tenyida amb co-lorants bàsics (i és per això que s’anomenen així, el nom deriva de les paraules gregues chromos i soma, que, respectivament, signifiquen ‘color’ i ‘cos’). La major part del que els investigadors saben sobre els cromosomes va ser après observant els cromosomes durant la divisió cel·lular.

La seva funció és facilitar el repartiment de la informació genètica del DNA de la cèl·lula entre les seves dues “filles”. Cada cromosoma té un punt de constricció anomenat centrò-mer que divideix el cromosoma en dues seccions, o “braços”, que contenen els gens i les seves regions reguladores. El braç curt del cromosoma s’anomena “braç p”. El braç llarg del cromosoma s’anomena “braç q”. La ubicació del centròmer en cada cromosoma li dóna la seva forma característica i ajuda a diferenciar-los, un cromosoma amb el centròmer al mig serà metacèntric, mentre que si té el centròmer a prop del “final” serà acrocèntric, i telocèntric en el cas que el centròmer es trobi just al final del cromosoma.

En els humans, cada cèl·lula conté normalment 23 parells de cromosomes. Vint-i-dos d’aquests parells, anomenats autosomes, tenen el mateix aspecte tant en homes com en do-nes. El parell 23, els cromosomes sexuals, difereix entre homes i dones. Les dones tenen dues còpies del cromosoma X, mentre que els homes tenen un cromosoma X i un cromosoma Y.

Figura 5: Cromosoma i els seus braços “q” i “p”. U.S. National Library of Medicine.

Page 22: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

21CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Figura 6 i 7: Cariotip d’un ésser humà, on es veuen els 22 parells d’autosomes i el parell de cromosomes sexuals. El de l’esquerra correspon al d’un home i, el de la dreta, a una dona. <http://www.biology.iupui.edu/biocourses/N100/2k4csomaldisordersnotes.html>

Page 23: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

22CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Figura 8: Quadre comparatiu entre el mecanisme de reproducció cel·lular de les cèl·lules somàtiques (Mitosi) i el de les gàmetes o cèl·lules sexuals (Meiosi). Aquest segon mecanisme és el que dóna lloc a la majoria de la varietat genètica humana, a causa de l’intercanvi d’informació genètica entre els cromosomes.

Page 24: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

23CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

3. DNA i transcripció del material genètic

L’àcid desoxiribonucleic està format, excepte en el cas d’alguns virus, per dues cadenes de nucleòtids enrotllades entre si formant una doble hèlix. Els nucleòtids són els compo-nents dels àcids nucleics, formats per la unió d’una ribosa o desoxiribosa (una molècula en forma de pentàgon) amb una base nitrogenada (molècula bàsica present al DNA), que es divideixen a la seva vegada en bases púriques (adenina i guanina) o pirimidíniques (ci-tosina, timina i uracil), i finalment, amb una molècula d’àcid fosfòric (H3PO4).

Depenent de la pentosa que els forma, es distingeixen quines bases són pròpies del DNA o del RNA. Si les forma una ribosa seran nucleòtids de RNA, mentre que si les forma una desoxiribosa, ho seran de DNA.

Figura 9: Estructura de les bases púriques i pirimidíniques adenina, citosina, guanina i timina.

Figura 10: Imatge de la desoxiribosa (sucre del DNA) i la ribosa (sucre de l’RNA).

Page 25: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

24CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Els nucleòtids, al seu torn, estan formats pels nucleòsids, que tenen les mateixes molècules associades excepte l’àcid fosfòric. Aquests s’anomenen afegint la terminació –osina al nom de la base púrica, o la terminació –idina en el cas de les bases pirimidíniques. Si la pentosa és desoxiribosa s’hi anteposa el prefix desoxi–.

Els àcids nucleics són polímers (macromolècules) de nucleòtids. Presenten dos extrems, 5’, on hi ha un grup fosfat enllaçat al carboni 5’ del primer nucleòtid, i l’extrem 3’, on hi ha un radical hidroxil unit al carboni 3’ de l’últim nucleòtid.

Els àcids nucleics se sintetitzen de l’extrem 5’ al 3’. Això és degut al fet que no hi ha cap enzim que possibiliti afegir nucleòtids a l’extrem 5’ i, en canvi, sí que hi ha enzims que possibiliten afegir-ne a l’extrem 3’.

3.1 Estructura del DNA

El DNA es compon, excepte en alguns virus, de dues cadenes de nucleòtids enrotllades en-tre si formant una doble hèlix. Cada cadena és un polímer de desoxinucleòtids d’adenina, guanina, timina i citosina.

En les cèl·lules eucariotes es troba principalment al nucli, però també n’hi ha en orgànuls com els mitocondris (en les cèl·lules animals) i cloroplasts (en les vegetals), una hipòtesi per la seva presència allà és la teoria endosimbiòtica.

Figura 11 i 12: Imatge de la doble hèlix del DNA on es veuen les unions entre les bases púriques i pirimidíniques i nucleòtid de DNA. Abaix, imatge d’un desoxiribonucleòtid, un nucleòtid de DNA.

Page 26: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

25CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

El DNA nuclear es troba associat a proteïnes bàsiques anomenades histones, i a una petita quantitat de proteïnes no històniques. Aquesta associació rep el nom de fibra de cromatina.

El DNA de mitocondris i cloroplasts és similar al de les cèl·lules procariotes. Durant molt de temps es va creure que el DNA procariota no es presentava associat a proteïnes (DNA nu), però s’ha constatat que ho fa associat a proteïnes semblants a les histones, a RNA i proteïnes no històniques, formant una condensació anomenada nucleoide que no està delimitada per cap embolcall.

També en els virus s’han observat proteïnes bàsiques associades al DNA.

En el DNA es distingeixen tres nivells estructurals: l’estructura primària (seqüència dels nucleòtids), l’estructura secundària (doble hèlix) i la terciària o DNA superenrotllat (torsió de la doble hèlix sobre si mateixa).

3.1.1 Estructura primària del DNA

L’estructura primària del DNA és la seqüència de nucleòtids d’un sol filament, que es pot presentar com un simple filament estès o bé una mica doblegada sobre si mateixa. S’hi pot distingir un esquelet de fosfopolidesoxiriboses i una seqüència de bases nitrogenades.

3.1.2 Estructura secundària del DNA

L’estructura secundària del DNA és la disposició en l’espai de dues cadenes (filaments de polinucleòtids) en doble hèlix, on les bases nitrogenades es troben enfrontades i unides mitjançant enllaços d’hidrogen.

3.1.3 Estructura terciària del DNA

Les molècules de DNA circular (com el bacterià o el mitocondrial) la presenten. Consis-teix en el fet que la fibra de 20 Å es troba retorçada sobre si mateixa formant una super-hèlix, aquesta disposició s’anomena DNA superenrotllat. Aquests superenrotllaments redueixen la longitud del DNA i en faciliten el procés de duplicació.

Page 27: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

26CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

3.2 Nivells d’empaquetament del DNA

Amb la condensació aconseguida amb els superenrotllaments no n’hi ha prou per encabir el DNA al nucli d’una cèl·lula eucariota i molt menys formar els cromosomes. Per aconse-guir-ho, el DNA s’empaqueta sobre unes proteïnes, les histones. Existeixen quatre nivells d’empaquetament.

3.2.1 Primer nivell d’empaquetament

Es troba constituït per la fibra de DNA de 20 Å associada a histones (proteïnes bàsiques i de baix pes molecular), l’estructura, anomenada collaret de perles o fibra de cromatina de 100 Å es troba al nucli en repòs de totes les cèl·lules eucariotes.Inclou una successió de partícules de 100 Å anomenades nucleosomes, i cada un d’aquests nucleosomes consta d’un octàmer d’histones (vuit molècules de quatre tipes diferents d’histones) i d’una fibra de DNA de 200 parells de bases de longitud, entre la part que s’enrotlla sobre l’octàmer i els extrems amb els quals s’uneix al nucleosoma anterior i al posterior. 3.2.2 Segon nivell d’empaquetament

És l’enrotllament sobre si mateixa de la fibra de cromatina de 100 Å, en fer-ho, les histones s’agrupen i formen l’eix central de la fibra de 300 Å, la qual cosa provoca un escurçament de cinc vegades la longitud del collaret de perles, en els cromosomes, el nivell d’empaque-tament més baix és la fibra de 300 Å o solenoide.

3.2.3 Tercer nivell d’empaquetament

La fibra de 300 Å forma uns bucles d’entre 20.000 i 70.000 parells de bases de longitud, que queden estabilitzats per proteïnes, moltes vegades es troben enrotllats sobre si mateixos formant prominències d’uns 600 Å de diàmetre.

3.2.4 Nivells superiors d’empaquetament

Amb l’empaquetament de la fibra de 300 Å tan sols es redueix entre 35 i 40 vegades la lon-gitud de la fibra de DNA, en canvi, al nucli, el nivell d’empaquetament és de 100 a 1.000 vegades, i en els cromosomes és de gairebé 10.000. Un cromosoma humà de 5’5 μm conté 4 cm de fibra de DNAm una reducció d’unes 7.000 vegades.

Page 28: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

27CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

3.3 El mecanisme de transcripció

És el pas d’una seqüència de DNA a una d’RNA (tant RNAm com RNAr o RNAt). Per dur-la a terme, hi intervenen el DNA, ribonucleòtids trifosfat d’A, C, G i U, els enzims RNA-polimerases (RNAp) i els anomenats cofactors. En aquest procés, les bases de DNA són transcrites a les seves homòlogues en l’RNA, la guanina a la citosina i l’adenina, en comptes de fer-ho a la timina, a la base anomenada uracil.

Existeixen tres tipus d’RNA-polimerasa, segons el tipus d’RNA que s’ha de sintetitzar, i cadascun reconeix tres classes de gens diferents. L’RNA-polimerasa II és la responsable de la síntesi de l’RNAm de gens que codifiquen per proteïnes.

Els gens estan fragmentats de manera que sempre cal un procés de maduració en el qual s’eliminin les seqüències sense sentit (anomenades introns) i s’empalmin les seqüències amb sentit (exons). Excepcionalment hi ha gens, com els de les histones, que no presen-ten introns. També s’ha observat que en gens que es transcriuen constantment (com els de l’RNAr), el DNA sempre es troba estès, mentre que en altres sempre es presenta, apa-rentment, en forma de nucleosomes, i en d’altres hi ha transició a la forma estesa tan sols durant la transcripció.

En el cas de la síntesi d’RNAm es distingeixen les etapes següents:

3.3.1 Iniciació

L’enzim reconeix la regió del DNA on s’inicia la transcripció, la regió promotora, i s’hi fixa l’RNA-polimerasa II, que consta de dos senyals anomenats seqüències de consens: la CAAT i la TATA, a diferents distàncies del punt d’inici. Perquè es pugui fixar l’RNA-polimerasa,

Figura 13: Esquema de la transcripció del DNA en RNA.

Page 29: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

28CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

abans s’han de fixar en aquestes seqüències unes proteïnes anomenades factors de transcrip-ció, que estenen la cadena de DNA i permeten a la RNA-polimerasa transcriure una sola ca-dena de DNA en un polímer d’RNA, l’RNA missatger. Tot el conjunt rep el nom de complex d’iniciació de la transcripció.

3.3.2 Elongació o allargament

El procés de síntesi continua en sentit 5’ – 3’. Al cap de trenta nucleòtids transcrits s’afegeix una mena de caputxa constituïda per una metilguanosinatrifosfat invertida a l’extrem 5’, la funció de la qual és bloquejar l’acció dels enzims exonucleases (de l’exterior del nucli de la cel·lula) que poden destruir l’RNA i ser el senyal de l’inici de la síntesi de proteïnes. Un ma-teix gen pot ser transcrit per diverses RNA-polimerases a la vegada, l’una darrere de l’altra.

3.3.3 Finalització

La finalització de la síntesi del mRNA es produeix quan s’arriba a la seqüència TTATTT del DNA. A continuació, hi intervé l’enzim poli-A-polimerasa, que afegeix a l’extrem final 3’ un segment d’uns 200 ribonucleòtids d’adenina, l’anomenada cua de poli-A (amb funció estabilitzadora davant de les exonucleases), al transcrit primari o pre-RNAm, també ano-menat RNA heterogeni nuclear (RNAnh).

3.3.4 Maduració

La maduració té lloc al nucli. Un enzim anomenat ribonucleoproteïna petita nuclear (RNPpn), que és un complex de proteïna i RNApn, és el que la duu a terme. Diverses RNPpn s’associen entre si amb proteïnes, i formen una estructura gairebé de la grandària d’un ribosoma anomenada espliceosoma. Aquesta és la que separa els introns gràcies al fet que l’RNApn conté unes seqüències que són complementàries de les dels dos extrems dels introns. Quan s’associen, l’intró es corba i es desprèn. A continuació, actuen unes RNA-lligases específiques que empalmen els exons. L’RNAt i l’RNAr també presenten processos de maduració. En l’RNAt cal destacar l’addició del triplet CAA a l’extrem 3’. La maduració de l’RNAr s’inicia amb l’RNA nucleolar (RNAn).

Figura 14: Cadena complementària de DNA i el seu transcrit de RNA.

Page 30: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

29CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4. RNA i traducció

4.1 L’RNA

L’RNA (àcid ribonucleic) és una molècula monocatenària (excepte en el cas dels reovirus, en què és bicatenària) de ribonucleòtids constituïda per les bases adenina, guanina, citosi-na, i uracil (en comptes de la timina del DNA), que s’uneixen entre si mitjançant dos en-llaços estèrics seguits (fosfodièsters) entre el grup fosfat d’un nucleòtid i la pentosa (sucre) del següent, en sentit 5’ – 3’ (com el DNA).

L’RNA té una funció molt important en la síntesi de les proteïnes, ja que es troba involu-crat en la transcripció, descodificació i transcripció del codi genètic per a produir-les. Es troba en les cèl·lules eucariotes i procariotes i en alguns virus. En les cèl·lules eucariotes hi sol haver de cinc a deu vegades més RNA que DNA.

Es classifica en: RNA bicatenari (en el cas dels reovirus) i monocatenari.

Tenen RNA monocatenari:

-RNA soluble o de transferència (RNAs o RNAt)-RNA missatger (RNAm)-RNA ribosòmic (RNAr)-RNA nucleolar (RNAn)

4.1.1 L’RNA soluble o de transferència

Té entre 70 i 90 nucleòtids, i es troba en el citoplasma en forma de molècula dispersa. La seva funció és la de transportar aminoàcids específics fins als ribosomes, on, segons la seqüència especificada en un RNA missatger (transcrit del DNA) se sintetitzen les prote-ïnes. Tot i ser monocatenari presenta zones amb estructura secundària en doble hèlix, a causa de la complementarietat entre les bases d’uns segments i les d’uns altres, i zones amb estructura lineal, que formen nanses o bucles, cosa que confereix a la molècula una forma de fulla de trèvol. Es distingeix un braç anomenat braç D i la seva nansa, un braç T i la seva nansa, un braç anticodó, que reconeix una àrea específica de l’RNAm anomenada codó, i la seva corresponent nansa i un braç acceptor d’aminoàcids. En tres dimensions, l’RNAt presenta una estructura terciària en forma de L.

A més de les bases A, C, G i U, l’RNAt està format per la dihidrouridina (UH2, que dóna nom al braç D), la ribotimidina (T, que dóna el nom al braç T), i la iosina (I), que consti-tueixen el 10% dels ribonucleòtids de l’RNAt.

Page 31: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

30CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4.1.2 RNA missatger

L’RNAm és monocatenari i lineal. La seva funció és la de copiar la informació continguda en el DNA i dur-la fins als ribosomes, per a que es sintetitzin les proteïnes a partir dels aminoàcids que aporten els RNAt.

L’RNAm eucariòtic presenta la doble hèlix en poques zones, a causa de la complementa-rietat de les bases entre diferents segments, i zones lineals que donen lloc als anomenats enllaços en ferradura. S’associa a proteïnes per formar partícules ribonucleoproteiques.

Es forma a partir del transcrit primari o preRNAm, també anomenat RNA heterogeni nuclear (RNAhn). Aquest té una sèrie de segments amb informació, anomenats exons, alternats amb uns altres sense informació anomenats introns, que després són suprimits i no apareixen en l’RNAm. Aquest procés s’anomena maduració i té lloc al nucli.

L’RNAm té a l’extrem 5’ una molècula anomenada caputxa (guanosina trifosfat invertida i metilada en el nitrogen 7), que bloqueja l’acció dels enzims que poden destruir l’RNAm, i as-senyala l’inici en la síntesi de les proteïnes. A continuació, hi ha un segment sense informació (intró), seguit d’un altre segment amb informació que comença amb la seqüència “AUG”. A l’extrem final, o 3’, hi té entre 150 i 200 nucleòtids de la base adenina, l’anomenada cua de poli-A, que serveix d’estabilitzador enfront els enzims exonucleases.

L’RNAm eucariòtic és monosintrònic, que significa que només conté informació per a sinte-titzar una cadena polipeptídica.

Figura 15 Estructura terciària en forma de L de l’RNAt.

Page 32: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

31CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4.1.3 RNA ribosòmic

L’RNA ribosòmic (RNAr) és el que es troba formant els ribosomes de les cèl·lules, formant una subunitat gran i una subunitat petita. Representa el 60% del pes d’aquests orgànuls. Units a les proteïnes ribosòmiques, originen en els ribosomes llocs adequats per donar allotjament a l’RNAm i també als RNAt, que són portadors dels aminoàcids que formen les proteïnes. L’RNAr presenta segments lineals i segments en doble hèlix, a causa de la presència de parells de segments amb seqüències complementàries.

El seu pes molecular se sol expressar segons el coeficient de sedimentació de Svedberg (s). Aquest coeficient és directament proporcional a la velocitat de sedimentació de la partí-cula durant la ultracentrifugació, un procés que es duu a terme amb un aparell que acon-segueix caps centrífugs 250.000 vegades la força de la gravetat rotant al voltant d’un eix. Com que la velocitat de sedimentació depèn de la massa de la partícula, a partir d’aquest coeficient se’n pot calcular el pes molecular.

4.1.4 RNA nucleolar

L’RNA nucleolar (RNAn) és un RNA que es troba constituint el nuclèol. S’origina a partir de diferents segments de DNA, un dels quals rep el nom de regió organitzadora nucleo-lar. A partir d’aquest DENA, es forma al nuclèol un RNA de 45 S. Aquest RNA nucleolar s’associa a proteïnes, procedents del citoplasma, moltes de les quals són les que conformen els ribosomes. Posteriorment, la gran partícula de ribonucleoproteïna s’escindeix en tres RNA; a continuació s’afegeix un RNA de 5 S, també associat a proteïnes, sintetitzat fora del nuclèol, és a dir, al nucleoplasma a partir d’un altre segment de DNA. A partir de tots ells es formen les dues subunitats ribosòmiques, una de 40 S i l’altra de 60 S, que travessen l’embolcall nuclear i s’uneixen en el citoplasma, i donen lloc a un ribosoma de 80 S.

Figura 16 Maduració de l’RNAm al nucli de la cèl·lula.

Page 33: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

32CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4.2 Traducció o biosíntesi de les proteïnes

És el pas d’una molècula d’RNA transcrita del DNA a un producte funcional, la proteïna, i consta dels passos següents:

4.2.1 Iniciació de la síntesi

L’RNAm s’uneix a una subunitat ribosòmica petita gràcies a una seqüència inicial anome-nada regió líder, que no es tradueix, en la qual hi ha uns deu nucleòtids complementaris amb l’RNA ribosòmic. A aquests s’hi associa un aminoacil-RNAt iniciador, que presenta l’anticodó 3’...UAC...5’ i que porta l’aminoàcid metionina. Després, la subunitat petita es mou respecte a l’RNAm fins que troba el codó d’iniciació, 5’...AUG...3’. Aleshores s’establei-xen enllaços d’hidrogen entre el codó 5’...AUG...3’ i l’anticodó 3’...UAC...5’. A aquest grup de molècules s’uneix la subunitat ribosòmica gran, i així es forma el complex ribosomal o complex actiu. Aquest procés necessita energia, aportada per un GTP (guanosintrifosfat) i unes proteïnes anomenades factors d’iniciació.

En el complex ribosomal es diferencien tres llocs d’unió o centres:

-Centre peptidil o centre P, on se situa el primer aminoacil-RNAt.-Centre acceptor o centre A, on se situen els aminoacils-RNAt següents.-Centre de sortida o centre E on se situa l’RNAt sense aminoàcid.

L’RNAm se sintetitza al nucli, i,abans de sortir, experimenta un procés anomenat madura-ció. A l’extrem 5’ se li afegeix una caputxa constituïda per una metilguanosinatrifosfat, que permet que els ribosomes la identifiquin, a continuació de la qual es troba l’anomenada regió líder, que no es tradueix, i se li afegeix la cua de poli-A a l’altre extrem.

4.2.2 Allargament de la cadena polipeptídica

El primer triplet traduït és el triplet AUG, que codifica l’aminoàcid metionina. Al centre A arriba el segon aminoacil-RNAt. El radical carboxil de l’aminoàcid iniciador (metionina) s’uneix amb el radical amino de l’aminoàcid següent mitjançant un enllaç peptídic (enllaç entre el grup carboxil (-COOH) d’un aminoàcid i el grup amino (-NH2) del següent, amb el conseqüent alliberament d’una molècula d’H2O). L’enzim peptidiltransferasa catalitza aquesta unió. Així, el centre P queda ocupat per un RNAt sense aminoàcid.

Aleshores es produeix l’anomenada translocació ribosomal, i aquest RNAt passa a ocupar el centre E i surt del ribosoma. El dipeptidil-RNAt ara queda al centre P i el centre accep-tor A queda lliure en espera d’un nou aminoacil-RNAt. Aquest procés necessita energia, que aporta un GTP i unes proteïnes anomenades factors d’elongació, i es repeteix en cada un dels codons següents.

Page 34: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

33CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4.2.3 Finalització de la síntesi

El final de la síntesi és determinat pels anomenats triplets sense sentit, uns triplets que no codifi-quen per a cap proteïna i que, per tant, donen una senyal anomenada d’STOP per tal que s’aturi el procés de traducció, són tres: UGA, UAG i UAA. No hi ha cap RNAt l’anticodó del qual en sigui complementari. En canvi, són reconeguts pels factors proteics d’alliberació (FR), que necessiten consumir GTP per actuar. S’instal·len sobre el centre A i provoquen que la peptidiltransferasa faci interaccionar l’últim grup -COOH amb l’aigua, i a conseqüència d’això, la cadena polipep-tídica queda alliberada. A continuació, l’RNAm i les dues subunitats ribosomals se separen.

4.2.4 Associació de cadenes polipeptídiques per constituir les proteïnes

A mesura que la cadena polipeptídica es va sintetitzant, aquesta va adoptant una determina-da estructura secundària i terciària mitjançant els enllaços per pont d’hidrogen i els enllaços disulfur, respectivament.

4.3 La clau genètica

La clau genètica és la relació existent entre la seqüència de nucleòtids de l’RNA que es tradueix amb la cadena polipeptídica que resulta de la biosíntesi de les proteïnes. És a dir, una taula que mostra les proteïnes que codifica la seqüència de cada triplet d’aminoàcids possible en l’RNA. Es pot veure que alguns triplets poden codificar més d’un aminoàcid, però normalment només difereixen en un aminoàcid, per exemple, CUU, CUC, CUA i CUG codifiquen l’aminoàcid Leu (Leucina). Aquest fet s’anomena degeneració de la clau genètica, i és un avantatge, perquè, en-cara que es produís un error en copiar un nucleòtid, la col·linearitat entre el triplet i l’aminoàcid continuaria. Com que només hi ha quatre tipus diferents de nucleòtids i, per altra banda, vint ti-pus d’aminoàcids, la col·linearitat no es podia establir d’un en un ni entre doblets de nucleòtids, sinó com a mínim entre triplets de nucleòtids (43=64) i els aminoàcids. Per altra banda, si només hi hagués vint triplets traduïbles, hi hauria 44 triplets sense sentit (64-20), i un sol error en un nucleòtid d’un triplet probablement el faria un triplet sense sentit, i s’interrompria la biosíntesi. Per sort, amb la clau actual, simplement hi ha un aminoàcid diferent, cosa que no és perillosa.

Figura 17. Representació de la clau genètica.

Page 35: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

34CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5. Proteïnes

Una proteïna és una macromolècula anomenada polipèptid, constituïda per més de cin-quanta aminoàcids, i estan constituïdes majoritàriament per carboni, hidrogen, oxigen i nitrogen, així com també per sofre.

Una proteïna és una macromolècula anomenada polipèptid, constituïda per més de cinquan-ta aminoàcids i majoritàriament per carboni, hidrogen, oxigen i nitrogen, com també per sofre. Les proteïnes es troben immerses en la majoria de les funcions cel·lulars. Cada proteïna té una funció específica, que ve determinada per la seqüència de DNA del gen del qual s’ha transcrit i posteriorment traduït la informació genètica. Una part d’elles tenen funció estruc-tural, mentre que d’altres tenen funció de transport i d’altres funció hormonal, com també es troben unides a altres molècules com els glúcids (sucres) i els lípids (àcids grassos o greixos).

5.1 Aminoàcids

Els aminoàcids són compostos orgànics caracteritzats per tenir un grup carboxil (-COOH) i un grup amino (-NH2). Els aminoàcids que formen les proteïnes, anomenats aminoàcids primaris, presenten els dos grups units al mateix carboni, les altres dues valències del qual estan saturades amb un àtom d’hidrogen i un grup variable anomenat radical R, segons el qual difereixen els vint aminoàcids primaris.

Els aminoàcids s’ajunten entre si per formar cadenes, anomenades pèptids, que es distin-geixen segons el nombre de pèptids que les formen (si les formen dos pèptids s’anomenen dipèptids, si ho fan tres, tripèptids, etc. Si són formats per menys de deu pèptids s’anome-nen oligopèptids, i si en són més de deu, polipèptids).

Els pèptids estan units entre si per un tipus d’enllaç anomenat enllaç peptídic, un enllaç covalent que s’estableix entre el grup carboxil d’un aminoàcid i el grup amino del següent. Aquest tipus d’enllaç dóna lloc al despreniment d’una molècula d’aigua.

Figura 18. Configuració dels aminoàcids.

Page 36: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

35CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5.2 Estructura de les proteïnes

L’estructura de les proteïnes, com també els àcids nucleics, està dividida en diversos nivells (quatre en el cas de les proteïnes), anomenats igualment estructures.

5.2.1 Estructura primària

L’estructura primària de les proteïnes és la seva seqüència d’aminoàcids. Informa dels ami-noàcids que la formen, com també de l’ordre en què aquests s’han unit. El primer es reco-neix per tenir el grup amino lliure (-NH2), és a dir, no enllaçat a cap radical, és l’anomenat extrem N-inicial de la proteïna. L’últim, en canvi, es reconeix per tenir el grup carboxil lliure (-COOH), anomenat C-terminal. La seqüència es determina comptant els aminoà-cids des de l’extrem N-inicial a l’extrem C-terminal. L’ordre dels aminoàcids d’un polipèp-tid és únic per a una proteïna específica, i alterant un sol aminoàcid de la seqüència pot causar una mutació genètica, que sovint resulta en una proteïna no funcional.

5.2.2 Estructura secundària

L’estructura secundària és la disposició de l’estructura primària de la proteïna en l’espai. Es poden observar tres tipus d’aquesta estructura en les proteïnes: l’α-hèlix, l’hèlix de col-lagen i la conformació-β. El tipus d’estructura secundària que presenta una proteïna depèn

Figura 19. Estructura primària d’una proteïna.

Page 37: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

36CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

del nombre d’enllaços d’hidrogen que mostra, és a dir, dels aminoàcids que la formen, com també de les condicions de temperatura i tensió en què es troba. A mesura que els amino-àcids es van enllaçant durant la biosíntesi, la cadena adquireix una disposició o una altra.

5.2.2.1 L’estructura en α-hèlix

És l’estructura primària enrotllada helicoïdalment sobre si mateixa. Aquest doblegament es deu a la formació d’enllaços d’hidrogen entre l’oxigen del -CO- d’un aminoàcid i l’hi-drogen de l’-NH- del següent.

La formació d’aquests enllaços fa que els oxígens dels grups -CO- quedin orientats en una ma-teixa direcció, mentre que els hidrògens dels grups (-NH-) queden orientats en la direcció con-trària (si no fos així, no seria possible la formació dels enllaços per ponts d’hidrogen que donen forma a aquesta estructura), i s’estableix una hèlix que presenta 3,6 aminoàcids cada volta.

5.2.2.2 L’hèlix del col·lagen

El polipèptid de la proteïna col·lagen té una disposició en hèlixs una mica més allargada que la α-hèlix. Els radicals d’aquests aminoàcids tenen una estructura que dificulta que es formin enllaços d’hidrogen, per la qual cosa es forma una hèlix més estesa que la α-hèlix, de tan sols 3 aminoàcids per volta. La seva estabilitat es deu a l’associació de tres hèlixs, que s’uneixen mitjançant enllaços febles per ponts d’hidrogen o enllaços covalents.

Figura 20. Estructura secundària de les proteïnes en α-hèlix.

Page 38: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

37CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5.2.2.3 L’estructura en conformació-β

En aquest tipus d’estructura secundària, els aminoàcids no formen una hèlix, sinó una cadena estesa en forma de zig-zag, causada per la manca d’enllaços d’hidrogen entre els aminoàcids més propers. Si la cadena es replega, es poden establir enllaços d’hidrogen entre els segments que ara han quedat propers. La qual cosa dóna lloc a una làmina molt estable en ziga-zaga, anomenada làmina plegada.

5.2.3 L’estructura terciària

És la disposició en l’espai que presenta l’estructura secundària quan es plega sobre si ma-teixa i origina una conformació globular. Les interaccions hidrofòbiques contribueixen en gran mesura en la formació d’aquesta conformació. Com ja s’ha explicat abans, els radicals R dels aminoàcids poden ser polars i apolars, els aminoàcids amb radical hidròfil busquen el contacte amb un medi aquós, mentre que els que tenen l’R hidròfob eviten aquest medi, i per tant, es posicionen cap a l’interior de la proteïna. Això facilita que moltes proteïnes globulars siguin solubles en aigua i en dissolucions salines, i alhora, possibilita que moltes duguin a terme funcions de transport, enzimàtiques, hormonals, etc.

Les conformacions globulars es mantenen estables per l’existència d’enllaços entre els ra-dicals R dels aminoàcids. Els enllaços per pont d’hidrogen entre els radicals dels aminoà-cids ajuden a estabilitzar l’estructura aguantant la proteïna en la forma donada per les in-teraccions hidròfobes. A causa del plegament de la proteïna, es poden donar interaccions iòniques o electrostàtiques entre radicals carregats negativament que s’apropin. Un altre tipus d’enllaç en les conformacions globulars és l’anomenat pont disulfur, format entre dues cisteïnes, de tipus fort.

Figura 21. Estructura secundària en conformació-β.

Page 39: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

38CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

En una proteïna amb estructura terciària, la cadena polipeptídica als trams rectes general-ment presenta una estructura secundària de tipus α-hèlix o de conformació-β. En canvi, als colzes o els girs no presenta cap estructura determinada.

5.2.3.1 Proteïnes filamentoses

En el cas de les proteïnes que no arriben a formar estructures terciàries, es manté l’estructura secundària allargada tot donant lloc a les anomenades proteïnes filamentoses. Aquestes pro-teïnes són insolubles en l’aigua, de manera que són idònies per exercir funcions esquelètiques.

5.2.4 L’estructura quaternària

És la que presenten les proteïnes constituïdes per dues o més cadenes polipeptídiques amb estructura terciària (anomenades subunitats), idèntiques o no (del mateix tipus de proteï-na), unides per mitjà d’enllaços febles (no covalents). Segons el nombre de protòmers que s’associen, aquestes proteïnes s’anomenen dímers, tetràmers, pentàmers i polímers quan presenten un gran nombre de protòmers.

Figura 22. Estructura terciària d’una proteïna.

Figura 23. Estructura quaternària de la proteïna hemoglobina.

Page 40: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

39CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5.3 Les funcions de les proteïnes

A causa de les seves estructures secundària i terciària, com també de la seqüència d’aminoàcids que les formen, les proteïnes poden tenir diferents funcions en el nostre cos.

5.3.1 Proteïnes estructurals

Són d’estructura fibrosa i proporcionen estructura i suport a les cèl·lules. En són exemples les glicoproteïnes que trobem a la membrana plasmàtica, les queratines de les formacions dèrmiques com el cabell, les plomes i els becs, i també el col·lagen dels teixits cartilaginós, conjuntiu i ossi.

5.3.2 Proteïnes amb funció de reserva

Emmagatzemen aminoàcids, com per exemple l’ovoalbúmina de la clara d’ou o la caseïna de la llet.

5.3.3 Proteïnes amb funció de transport

Són les proteïnes encarregades del transport de molècules al voltant del cos. A nivell cel·lular, existeixen les permeases, que regulen el pas de molècules a través de la mem-brana cel·lular (permeabilitat selectiva). A nivell pluricel·lular, es poden esmentar els pigments respiratoris (com l’hemoglobina) que realitzen el transport d’oxigen en la sang.

Figura 24. Estructura en l’espai de la proteïna hemoglobina.

Page 41: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

40CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5.3.4 Proteïnes amb funció enzimàtica

Els enzims són proteïnes amb funció biocatalitzadora, és a dir, afavoreixen les reaccions bioquímiques que tenen lloc al nostre cos, i n’augmenten el rendiment i la velocitat sense que això pugui resultar un perill per a les nostres cèl·lules.

5.3.5 Proteïnes amb funció hormonal

Les hormones són substàncies transportades pel medi intern de l’organisme (la sang en els animals i la saba en els vegetals) que actuen sobre determinades cèl·lules perquè iniciïn o augmentin el ritme de determinades reaccions, es a dir, coordinen les reaccions de l’orga-nisme.

Figura 25. Reacció duta a terme per un enzim.

Page 42: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

41CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

6. Bioinformàtica

La bioinformàtica és una branca de la biologia i la informàtica enfocada en l’adquisició, l’emmagatzematge, l’anàlisi i la difusió de dades biològiques, molt sovint de DNA i seqüèn-cies d’aminoàcids. La bioinformàtica utilitza programes d’ordinador per a adquirir, em-magatzemar, organitzar, analitzar o visualitzar aquestes dades, com també per a una gran varietat d’aplicacions, incloent la determinació de les funcions de gens i proteïnes, l’establi-ment de relacions evolutives, i la predicció de les formes tridimensionals de les proteïnes. Sovint, els termes bioinformàtica, biologia computacional i biocomputació són utilitzats com a sinònims. No obstant això, hi ha conformades àrees d’aplicació pròpies de cada ter-me; el NIH (National Institutes of Health, Institut Nacional de la Salut dels Estats Units), per exemple, tot i reconèixer prèviament que cap definició podria eliminar del tot el sola-pament i la vinculació entre activitats de les diferents tècniques, defineix explícitament els termes bioinformàtica i biologia computacional:

“La bioinformàtica és la investigació, el desenvolupament o l’aplicació d’eines computacionals i aproximacions per a l’expansió de l’ús de dades biològiques, mèdiques, o de salut, incloent aquelles eines que serveixin per adquirir, em-magatzemar, analitzar o visualitzar-les.

La biologia computacional és el desenvolupament i l’aplicació de mètodes te-òrics i d’anàlisi de dades, modelat matemàtic i tècniques de simulació compu-tacional a l’estudi de sistemes biològics, de conducta i socials.”

Així doncs, la bioinformàtica tindria més a veure amb la informació, mentre que la biologia computacional ho faria amb les hipòtesis, tot i que, de fet, podem definir la bi-oinformàtica més específicament com la branca computacional de la biologia molecular. Abans de l’era de la bioinformàtica només es podien realitzar experiments biològics de dues maneres: amb un organisme viu (in-vivo) o en un medi artificial (in-vitro). Portant l’analogia encara més enllà, podem dir que la bioinformàtica és, de fet, biologia in silico.

Com David W. Mount precisa en un text sobre bioinformàtica: “[…] la bioinformàtica se centra més aviat en el desenvolupament d’eines pràctiques per a la gestió de dades i l’anàlisi (per exemple, la presentació d’informació genòmica i anàlisi seqüencial), però amb menor èmfasi en l’eficiència i la precisió”.

Per altra banda, segons el mateix autor:“[…] la biologia computacional generalment es relaciona amb el desenvolupament d’algo-rismes nous i eficients, que es pot demostrar que funcionen sobre un problema, tals com l’alineament múltiple de seqüències o el muntatge (o assemblatge) de fragments de genoma”.

Page 43: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

42CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Cal constatar, doncs, que ambdues branques treballen amb dades en escales de tal magni-tud que sobrepassen el discerniment humà, és l’exemple dels genomes i les seqüències de milions de parells de bases de les quals està format.

Els principals esforços d’investigació en aquests camps inclouen l’alineament de seqüènci-es, la predicció de gens, el muntatge del genoma, l’alineament estructural de proteïnes, la predicció de la seva estructura, la predicció de l’expressió gènica, les interaccions proteïna-proteïna i el modelat de l’evolució.

6.1 Història

La història de la bioinformàtica ha anat evolucionant en paral·lel amb la de la tecnologia i, més concretament, amb la de la informàtica. Sovint es diu que el descobriment de l’estruc-tura en doble hèlix del DNA per J.Watson i F.Crick als anys cinquanta del segle XX marca les bases de l’inici de ciències com la genòmica i la bioinformàtica, que estudien el material hereditari que ens caracteritza i ens fa únics.

A partir d’aquell moment, i gràcies al descobriment, va augmentar l’interès per desxifrar el codi de la vida, acabant/succeint/derivant en un desenvolupament de les tècniques per estudiar-lo.

El 1955 es va aconseguir seqüenciar la primera proteïna, la insulina bovina, tot i que va ser seqüenciada utilitzant mètodes de laboratori, no pas mitjançant la informàtica.

6.1.1 Els anys seixanta i setanta

L’any 1965 Margaret Dayhoff, una pionera en la bioinformàtica, aplicant mètodes ma-temàtics i computacionals al camp de la bioquímica, va publicar el primer dels Atles de Seqüències de Proteïnes, que va tenir continuïtat en anys posteriors i va ser el precursor de les actuals bases de dades de proteïnes.

L’any 1972 es crea la primera molècula de DNA recombinant, comença la seqüenciació del DNA i el desenvolupament del software per a analitzar-lo. Més endavant, l’any 1978, es publica la primera seqüència de gens completa d’un organisme, el fagoΦ-X174 (5.386 parells de bases que codifiquen 9 proteïnes).

6.1.2 Els anys vuitanta A principis dels vuitanta es publica com investigar l’estructura terciària de les proteïnes i, en la dècada següent es desenvolupen mètodes per predir de novo algunes estructures secundàries.

Page 44: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

43CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

L’any 1983, el descobriment de la PCR (Polymerase Chain Reaction, reacció en cadena de la polimerasa), un procés bioquímic utilitzat en la biologia molecular per a amplificar una o diverses còpies d’un retall de DNA, generant de milers a milions de còpies d’aquesta se-qüència, que normalment s’utilitzen per a seqüenciar mostres de material genètic, la qual cosa en permetrà l’estudi i l’anàlisi.

6.1.2.1 Avenços bioinformàtics

En relació al desenvolupament d’algorismes, mètodes i programes utilitzats per la bioin-formàtica, el 1981 apareix l’algorisme Smith-Waterman, un algorisme de cerca en bases de dades de seqüències.

L’any 1985 es creen els algorismes FASTP/FASTN per realitzar cerques ràpides de simili-tuds entre seqüències, i el 1988 es crea l’algorisme FASTA, per a comparar-ne. També es comencen a fer servir models ocults de Márkov, igualment utilitzats en sistemes de reco-neixement de veu, per a analitzar patrons i la composició de les seqüències, cosa que, més endavant, permetrà localitzar gens i predir estructures proteiques.

Els anys 1982 i 1986 apareixen importants bases de dades biològiques, com el GenBank (base de dades de gens) i el Swiss-Prot (base de dades de proteïnes) i també es creen o po-tencien diversos organismos i institucions, com l’EMBL o el NCBI; en aquests anys també es comença a estudiar la viabilitat de la Human Genome Initiative, i el NIH (National Ins-titutes of Health) comença a aportar fons a projectes relacionats amb el genoma.

Finalment, el 1988 arrenca la Human Genome Initiative, que més endavant serà conegu-da com Human Genome Project (proyecte del Genoma Humà). El 1987 es desenvolupa el llenguatge de programació PERL, d’ampli ús posterior en la bioinformàtica

6.1.3 Anys noranta

L’any 1995 s’aconsegueix seqüenciar completament els primers genomes de bacteris (Hae-mophilus influenzae, responsable d’un ampli rang de malalties com la commeningitis, l’epi-glotitis i la pneumònia, i Mycoplasma genitalium, d’1,8 milions de parells de bases -Mbps- i 0,58 Mbps, respectivament).

El 1996, i en diferents passos (per cromosoma), s’aconsegueix fer el mateix amb el primer genoma eucariota, el del llevat (Saccharomyces cerevisiae, amb 12 Mbps), així com el 1997 amb el genoma de Escherichia coli (4,7 Mbps).

El 1998 se seqüencia el primer genoma d’un organisme multicel·lular, el del Caenorhab-ditis elegans (un cuc nematode, l’únic ésser viu del qual se sap l’origen i evolució embrio-

Page 45: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

44CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

nària de totes les cèl·lules que el componen: 97 Mbp).  L’any 1999, per acabar la dècada de seqüenciacions, se seqüencia completament el primer cromosoma humà, el número 22 (33,4 Mbps).

6.1.3.1 Avenços bioinformàtics

L’any 1990 ja és possible la cerca ràpida de similituds entre seqüències amb BLAST, un al-gorisme utilitzat per a comparar seqüències biològiques de tipus local, com les seqüències d’aminoàcids de les proteïnes o els nucleòtids de les seqüències de DNA. Una cerca amb BLAST permet a l’investigador comparar la seqüència proposada amb una gran quantitat de seqüències que es troben en bases de dades, i identifica seqüències que tinguin una més gran semblança a la proposada. L’algorisme no garanteix que la solució que ha trobat sigui la correcta. No obstant, és capaç de calcular el grau de significança dels seus resultats, i posseeix un paràmetre per a jutjar els resultats obtinguts.

El 1994 apareix ClustalW, un programa computacional orientat a l’alineament múltiple de seqüències. L’any 1997 es crea PSI-BLAST, una variant de BLAST utilitzada per a buscar possibles homòlegs en organismes llunyans entre ells, filogenèticament parlant. Es troba disponible únicament per a seqüències d’aminoàcids. Primer, es crea una llista de totes les proteïnes relacionades estretament amb la proposada. Aquestes proteïnes es combinen per crear una seqüència de “perfil” general, que resumeix les característiques més signifi-cants de les seqüències. Es fa una petició (query) a la base de dades de proteïnes utilitzant aquest perfil, i es troba un conjunt de proteïnes major, que a la seva vegada és utilitzat per a crear un altre perfil general. Un cop fet, es repeteix el procés.

A finals de la dècada es desenvolupa T-Coffee (Tree-based Consistency Objective Function For alignment Evaluation), una aplicació per a l’alineament múltiple de se-qüències.

6.1.3.2 Avenços tecnològics

L’any 1990 s’inventa la World Wide Web. El 1991 apareix la primera versió del sistema operatiu  Linux, molt utilitzat posteriorment en aplicacions científiques. El  1998  Craig Venter funda Celera Genomics, la companyia que perfeccionarà la seqüenciació Shotgun i analitzarà els resultats amb software propi.

6.1.4 Principis del segle XXI

A l’any 2000 culminen diversos projectes de seqüenciació de genomes de diferents orga-nismes, entre d’altres, es publiquen el genoma de l’Arabidopsis thaliana (100 Mbps) i el de la Drosophila melanogaster (la mosca del vinagre, molt utilitzada en experiments de laboratori) (180 Mbps). 

Page 46: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

45CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Després d’un esborrany operatiu de la seqüència de DNA del genoma humà (3Gbps) l’any 2000, el 2001 es publica la seqüència del genoma humà. Poc després, l’any 2003, dos anys abans del previst, es completa el Human Genome Project. 

El 2003 és fundada a Espanya l’Instituto Nacional de Bioinformática, suportat per la Fun-dación Genoma España (fundada, al seu torn, un any abans). L’any 2005 es completa el projecte HapMap (la catalogació de variacions genètiques en l’ésser humà). 

El 2008 UniProt (base de dades de seqüències de proteïnes) presenta el primer esborrany del proteoma complet de l’ésser humà, que consta de més de vint mil entrades.

6.2 Àrees d’investigació

6.2.1 Anàlisi de seqüències

Des del primer organisme seqüenciat el 1977,  les seqüències de DNA de centenars d’organismes han estat descodificades i emmagatzemades en bases de dades. Aques-tes dades són analitzades per determinar els gens que codifiquen certes proteïnes, una comparació de gens entre espècies pot mostrar similituds entre funcions de proteïnes o relacions entre aquestes espècies (ús de la filogenètica molecular per a construir arbres filogenètics). Amb la gran quantitat de dades acumulades, cada cop s’ha tornat menys pràctic analitzar seqüències de DNA manualment. És per això que avui en dia s’utilitzen programes informàtics per estudiar els genomes d’aquests organismes. Aquests progra-mes poden compensar mutacions realitzades durant l’evolució d’un gen o una proteïna (amb bases intercanviades, omeses o inserides) per identificar seqüències relacionades però no idèntiques. Una variant d’aquest alineament de seqüències s’usa en el procés de seqüenciació.

La seqüenciació per perdigonada, usada para seqüenciar el primer genoma de bacteri, no dóna una llista seqüencial de nucleòtids, però ens ofereix seqüències de milers de frag-ments de DNA (d’aproximadament 600 a 800 nucleòtids).  Les terminacions d’aquests fragments se superposen i, quan són alineats de la manera correcta, constitueixen el geno-ma complet de l’organisme.

La seqüenciació  per perdigonada  proporciona dades de seqüència ràpidament, però la feina d’assemblar els fragments pot ser complicada per a genomes grans. En el cas del Projecte Genoma Humà, va costar mesos de temps de processador para assemblar els fragments. El shotgun sequencing és el mètode d’elecció per a tots els genomes se-qüenciats actualment i els algorismes d’assemblatge genòmic són un àrea crítica de la investigació en bioinformàtica.

Page 47: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

46CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

6.2.2 Anotació de genomes

En el context de la genòmica, l’anotació és el procés de marcat dels gens de la seqüència de DNA. El primer sistema software d’anotació de genomes va ser dissenyat el 1995 por un membre de l’equip que va seqüenciar i analitzar el primer genoma en ser descodificat d’un organisme independent. Va construir un software per localitzar els gens, l’RNA de transferència, i altres característiques, com també per a realitzar les primeres atribucions de funció a aquells gens. La majoria dels actuals sistemes d’anotació genòmica treballen de forma similar, però els programes disponibles per a l’anàlisi del genoma es troben en continu canvi i millora.

6.2.3 Biologia evolutiva computacional

La biologia evolutiva és l’estudi de l’origen ancestral de les espècies, com també del seu canvi a través del temps. La informàtica ha donat suport als biòlegs evolutius en diferents camps clau. Ha permès als investigadors seguir l’evolució d’un elevat nombre d’organismes observant canvis en el seu DNA, enlloc de fer-ho exclusivament mitjançant la seva taxo-nomia física o observacions fisiològiques.

Més recentment, ha permès comparar genomes complets, cosa que permet l’estudi d’es-deveniments evolutius més complexos, com la duplicació de gens o la seva transferència horitzontal. També ha permés la construcció de models computacionals complexos de poblacions per a predir el resultat del sistema a través del temps i el seguiment i difusió d’informació sobre un ampli i creixent nombre d’espècies i organismes. Els futurs esforços se centraran a reconstruir el cada vegada més complex arbre filogenètic de la vida.

L’àrea d’investigació de les ciències de la computació, denominada computació evoluti-va sovint es confon amb la biologia evolutiva computacional, però ambdues àrees no te-nen relació. Aquest camp se centra en el desenvolupament d’algorismes genètics i altres estratègies de resolució de problemes amb una marcada inspiració evolutiva i genètica.

6.2.4 Anàlisi de la regulació

La regulació gènica és la complexa orquestració d’esdeveniments que comencen amb un senyal extracel·lular tal com una hormona, que condueix a un increment o davallada en l’activitat d’una o més proteïnes. S’han aplicat tècniques bioinformàtiques per a explorar diversos passos en/d’aquest procés. Per exemple, l’anàlisi del promotor d’un gen implica la identificació i l’estudi de les seqüències motiu dels voltants del DNA de la regió codifi-cant d’un gen. Aquests motius influeixen en l’abast segons el qual aquesta regió es trans-criu en mRNA. Les dades d’expressió es poden utilitzar per a inferir la regulació gènica: es podrien comparar dades de microarrays provinents d’una ampla varietat d’estats d’un

Page 48: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

47CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

organisme per a formular hipòtesis sobre els gens involucrats en cada estat. En un orga-nisme unicel·lular, es podrien comparar etapes del cicle cel·lular al llarg de diverses con-dicions d’estrès (xoc de calor, inanició, etc.). Es podrien aplicar, llavors, algorismes d’agru-pament (algorismes de clustering, o anàlisis de clúster) a aquesta informació d’expressió per a determinar quins gens són expressats simultàniament. Per exemple, els promotors d’aquests gens es poden buscar segons l’abundància de seqüències o elements reguladors.

6.2.5 Anàlisi de l’expressió de les proteïnes

Els microarrays de proteïnes i l’espectrometria de masses d’alt rendiment poden proporci-onar una instantània de les proteïnes presents en una mostra biològica. La bioinformàtica està molt compromesa a donar suport als dos procediments. L’aproximació als microar-rays de proteïnes fa front a problemes similars als existents per a microarrays destinats a mRNA, mentre que per a l’espectrometria de masses el problema és casar grans quantitats de dades de massa contra masses predites per bases de dades de seqüències de proteïnes, a més de la complicada anàlisi estadística de mostres on es detecten múltiples, però incom-plets, pèptids de cada proteïna.

6.2.6 Predicció de l’estructura de les proteïnes

La predicció de l’estructura de les proteïnes és una altra aplicació important de la bi-oinformàtica. La seqüència d’aminoàcids d’una proteïna, també anomenada estructura primària, pot ser determinada fàcilment des de la seqüència de nucleòtids sobre el gen que la codifica. En la immensa majoria dels casos, aquesta estructura primària determi-na únicament una estructura de la proteïna en el seu ambient natiu. (Hi ha excepcions, com l’encefalopatia espongiforme bovina, o “mal de les vaques boges”). El coneixement d’aquesta estructura és vital per a entendre la funció de la proteïna. La informació es-tructural de les proteïnes es classifica en estructura secundaria, terciària i quaternària. La solució general viable per a la predicció de tals estructures encara és un problema obert. Per ara, la majoria dels esforços han anat dirigits a heurístiques que la majoria de vegades funcionen.

Una de las idees clau en bioinformàtica és la noció d’homologia. En la branca genòmica de la bioinformàtica, s’utilitza l’homologia per predir la funció d’un gen: si la seqüència del gen A, la funció de la qual és coneguda, és homòloga a la seqüència del gen B, del qual desconeixem la funció, es pot inferir que B podria compartir la funció d’A.

En la branca estructural de la bioinformàtica, l’homologia s’utilitza per a determinar qui-nes parts d’una proteïna són importants en la formació de l’estructura i en la interacció amb altres proteïnes. En la tècnica denominada modelatge por homologia, aquesta infor-mació s’utilitza per predir l’estructura d’una proteïna una vegada coneguda l’estructura

Page 49: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

48CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

d’una proteïna homòloga. Aquesta és, actualment, l’única via per a predir estructures de proteïnes d’una manera fiable.

Un exemple del que s’ha dit és l’homologia proteica similar entre l’hemoglobina en hu-mans i la hemoglobina en els llegums (leghemoglobina). Ambdues serveixen per al mateix propòsit de transportar oxigen en l’organisme. Encara que les dues tenen una seqüència d’aminoàcids completament diferent, les seves estructures són virtualment idèntiques, cosa que reflecteix els seus pràcticament idèntics propòsits.

Altres tècniques per predir l’estructura de les proteïnes inclouen l’enhebrat de proteïnes (protein threading) i el modelat de novo, basat en les característiques físiques i químiques.

6.2.7 Genòmica comparativa

El nucli de l’anàlisi comparativa del genoma és l’establiment de la correspondència en-tre gens (anàlisi ortòleg) o entre altres característiques genòmiques de diferents organis-mes. Aquests mapes intergenòmics són els que fan possible rastrejar els processos evo-lutius responsables de la divergència entre dos genomes. Una multitud d’esdeveniments evolutius actuant a diferents nivells organitzatius conformen l’evolució del genoma.  Al nivell més baix, les mutacions puntuals afecten nucleòtids individuals. Al major nivell, amplis segments cromosòmics experimenten duplicació, transferència horitzontal, inver-sió, transposició, deleció i inserció. Finalment, els genomes sencers estan involucrats en processos d’hibridació i endosimbiosi, i sovint condueixen a una sobtada especiació.

La complexitat de l’evolució del genoma planteja molts desafiaments a desenvolupadors de models matemàtics i algorismes, que han de recórrer a un espectre de tècniques algo-rísmiques, estadístiques i matemàtiques que s’estenen des d’exactes, heurístiques, amb pa-ràmetres fixats, i mitjançant algorismes d’aproximació per a problemes basats en models de parsimònia, fins a algorismes Márkov Chain Monte Carlo per a anàlisis Bayesians de problemes basats en models probabilístics. Molts d’aquests estudis es basen en la detecció d’homologia i la computació de famílies de proteïnes.

6.2.8 Modelatge de sistemes biològics

La biologia de sistemes implica l’ús de  simulacions per ordinador  de subsistemes  cel-lulars  (com ara xarxes de metabòlits i enzims  que comprenen el  metabolisme, camins de transducció de senyals, i xarxes de regulació genètica), tant per analitzar com per visua-litzar les complexes connexions d’aquests processos cel·lulars. La vida artificial o l’evolució virtual proben d’entendre els processos evolutius per mitjà de la  simulació per ordina-dor de senzilles formes de vida (artificial).

Page 50: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

49CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

6.3 Eines

Les eines de software utilitzades en la bioinformàtica són programes dissenyats per a ser emprats des d’un ordinador mitjançant la interfície d’usuari (interface en anglès), nor-malment alfanumèrica, manejant-la amb comandes específiques per a cada acció i siste-ma. Actualment, però, dels sistemes operatius més utilitzats (Windows, Linux i Mac OS) només Mac OS X (Apple) i Linux (GNU) ens donen aquesta opció, i això fa que, tant en els laboratoris com en supercomputadors com ara el Mare Nostrum siguin els sistemes utilitzats (el supercomputador Mare Nostrum, situat al Centre de Supercomputació de Barcelona, a la Universitat Politècnica de Catalunya, actualment destinat a la investigació sobre el genoma humà, es basa en el sistema operatiu Linux).

Així doncs, aquestes eines de software van des de aplicacions i programes manejats per la línia de comandaments a més complexos programes gràfics i serveis web autònoms situats en institucions públiques o companyies de bioinformàtica.

Possiblement, l’eina més utilitzada i coneguda pels bioinformàtics és BLAST, l’algoritme per determinar la similitud de seqüències amb d’altres residents en bases de dades de pro-teïnes o de seqüències de nucleòtids, i pot ser utilitzat per establir relacions funcionals i evolutives entre aquestes, com també per identificar membres de famílies gèniques.

Per a la l’alineament múltiple de seqüències, el software més utilitzat és Clustal W, actu-alment en la seva segona versió, aquest programa et permet alinear una gran quantitat de seqüències per a comparar-les i veure’n les diferències, molts cops evolutives.

Per altra banda existeix una gran quantitat de software bioinformàtic amb altres objectius, com ara: l’alineament estructural de proteïnes, visualització de l’estructura de les proteï-nes, predicció de gens, predicció d’acoblament proteïna-proteïna, o modelatge de sistemes biològics, entre d’altres.

L’avenç de la bioinformàtica ha permès crear interfases per a una ampla varietat d’apli-cacions bioinformàtiques, permetent que una aplicació, duent a terme una funció en un ordinador de qualsevol part del món, pugui utilitzar algoritmes, dades i recursos de com-putació allotjades en servidors en qualsevol altra part del planeta. Els principals avantatges radiquen en el fet que l’usuari final es despreocupa d’actualitzacions i modificacions en el software o en les bases de dades, ja que, en els anteriors casos, el software, com també les bases de dades, es troben dins l’ordinador de treball. Aquests serveis són els que hauria d’utilitzar un usuari amb el sistema operatiu Windows.

Page 51: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

50CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Part II

7. L’hormona del creixement humà (hGH)

7.1 Què és una hormona?

Les hormones són substàncies químiques produïdes per les glàndules endocrines (òr-gans especialitzats constituïts per cèl·lules secretores i teixit conjuntiu) que actuen com a missatgers químics, fins i tot quan es troben en concentracions plasmàtiques molt pe-tites. Les hormones són alliberades per processos d’exocitosi de les cèl·lules endocrines. Tant els animals com els vegetals secreten hormones. L’acció de les hormones sobre els diferents teixits depèn de la seva naturalesa química i de la capacitat de fixació de les cèl·lules receptores dels òrgans.

La branca de la medicina que estudia les malalties relacionades amb les hormones s’ano-mena endocrinologia.

7.1.1 Tipus segons l’estructura química

Químicament, les hormones poden ser d’estructura:

-Lipídica: és el cas dels esteroides, l’estradiol, produït per l’ovari n’és un exemple.

-Peptídica: són  cadenes peptídiques (unió d’aminoàcids). Com que la majoria no travessen la membrana plasmàtica de les cèl·lules, aquestes disposen de receptors específics per a aquestes hormones en la seva superfície, l’hormona del creixement és una hormona peptídica produïda a la hipòfisi.

-Composta per aminoàcids: Estan formades per aminoàcids i, com en el cas de les hormones peptídiques, entren a la cèl·lula a través de les proteïnes receptores de membrana. És el cas de, per exemple, l’adrenalina, produïda per la medul·la de les glàndules suprarenals.

-Mixta: el cas de les glucoproteïnes, com la tirotropina, secretada per la hipòfisi anterior.

-Hormones tiroïdals: Actuen a través de receptors que estimulen el metabolisme energètic mitjançant l’estimulació de gens catabòlics. La tiroxina n’és un exemple, i se sintetitza a la glàndula tiroïdal.

Page 52: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

51CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

7.2 L’hormona del creixement humà

L’hormona del creixement humà (HGH) o somatotropina és una hormona peptídica pro-duïda per la hipòfisi, la funció de la qual és estimular el creixement dels teixits i ossos i la reproducció cel·lular.

7.2.1 Estructura

L’hormona del creixement humà és una cadena polipeptídica formada per la unió de 217 aminoàcids, sintetitzada, emmagatzemada i secretada a la glàndula pituïtària anterior per les cèl·lules somatotròpiques.

Fig.ura 26. Imatge de la bicapa lipídica de la membrana plasmàtica cel·lular, les proteïnes que hi apareixen són les anomenades receptors de membrana.

Figura 27 i 28. Representació de la forma globular de l’hormona del creixement i el seu receptor (esquerra) i representació de la seva estructura quaternària, on es diferencien les zones amb α–hèlix i les zones amb conformació β.

Page 53: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

52CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

La seva estructura inclou quatre hèlixs, necessàries per al seu acoblament I interacció amb el receptor de l’hormona del creixement, situat a la bicapa lipídica de la membrana cel·lular.

Estructuralment, la HGH és evolutivament homòloga a la proteïna prolactina, una hor-mona associada amb la lactància. Com la majoria de les proteïnes, consta de diverses isoformes moleculars, que són diverses formes d’una mateixa proteïna, possiblement ge-nerades per gens relacionats, com també possiblement siguin degudes a petites diferències entre al·lels d’un mateix gen que tenen lloc en posicions especifiques d’un mateix gen.

7.2.2 Funcionament

Els efectes de l’hormona en els diferents teixits del cos es descriuen com a anabòlics, és a dir, de creixement o producció.

Com en la majoria de proteïnes, la HGH actua interaccionant amb un receptor especí-fic (proteïna receptora de l’hormona del creixement) situat a la doble capa lipídica de la membrana de les cèl·lules, el que causa la dimerització d’aquest receptor () i l’activació de la transducció d’un senyal intracel·lular que “porta” al creixement.

L’augment de l’alçada a finals de la infància i principis de l’adolescència és segurament l’efecte més notable i visible de la HGH. L’alçada sembla que és estimulada per aquests dos mecanismes:

1. Com que les hormones polipeptídiques no són solubles en aigua, no poden penetrar la membrana cel·lular, que es compon de lípids. Així, la HGH exerceix els seus efectes

Fig.ura 29. Taula comparativa entre les reaccions del catabolisme i l’anabolisme.

Page 54: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

53CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

enllaçant-se al seu receptor específic a les cèl·lules (anomenades target cells, cèl·lules ob-jectiu en anglès, les cèl·lules destinades a rebre la hormona), on activa el MAPK/ERK, una cadena de proteïnes que comunica el senyal del receptor de membrana al DNA del nucli de la cèl·lula. El senyal s’inicia amb l’acoblament de la proteïna al receptor, i acaba quan el DNA del nucli expressa una proteïna i produeix un canvi en la cèl·lula, en aquest cas, la mitosi. Mitjançant aquest mecanisme, la HGH estimula directament la divisió i multiplicació dels condròcits de cartílag (creixement del cartílag).

2. La HGH també estimula, a través de la via de senyalització JAK-STAT, la producció de l’insulin-like growth factor 1 (IGF-1), una hormona homòloga a la proinsulina. El fetge, per tant, és el major òrgan receptor de la HGH, per a dur a terme aquest procés, i també perquè és el principal productor de l’IGF-1. Aquest factor té efectes estimulants del creixement en un gran nombre de teixits, en els quals es produeix IGF-1, conver-tint-la en una hormona endocrina. L’IGF-1 també té efectes estimulants als osteoblasts per promoure el creixement ossi.

7.2.3 Disfuncions

La producció de l’hormona del creixement és un procés controlat, com la resta de proces-sos del cos. Però, de vegades, aquesta producció es veu afectada i dóna més o menys quan-titat d’hormona de la necessària. També en el procés de transport i a l’hora de transduir els senyals a l’interior de la cèl·lula hi pot haver problemes.

Figura 30. Procés de regulació endocrina del creixement.

Page 55: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

54CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

7.2.3.1 Disfuncions per dèficit d’hormona

El dèficit de l’hormona del creixement és una afecció causada per una alçada poc conside-rable o l’absència de l’hormona del creixement. Degut al fet que no produeixen la quantitat d’hormona de creixement necessària, els pacients amb dèficit de l’hormona del creixement experimenten problemes a l’hora de créixer en la proporció esperada i presenten una bai-xa estatura. Aquesta afecció s’expressa normalment en la infantesa.

Aquests dèficits tenen una incidència d’1 entre 4.000 i 10.000 individus en escala global.El dèficit de l’hormona del creixement és comunament causat per mutacions en un de tres gens possibles. Els dèficits de tipus IA i II són causats per mutacions en el gen GH1. El de tipus IB és causat per mutacions tant en el gen GH1 com en el GHRHR. El dèficit de tipus III és causat per mutacions en el gen BTK.

El gen GH1 proporciona les instruccions per a sintetitzar el pèptid de l’hormona del crei-xement (somatotropina). Les mutacions en aquest gen perjudiquen la producció de l’hor-mona. Sense la suficient hormona, el cos no pot arribar al seu creixement normal.

El gen GHRHR proporciona les instruccions per a la síntesi d’una proteïna anomenada re-ceptor hormonal alliberador de l’hormona del creixement (growth hormone releasing hor-mone receptor en anglès). Aquest receptor s’uneix a una molècula anomenada “alliberado-ra de l’hormona del creixement”. La unió d’aquestes dues hormones causa la producció de l’hormona del creixement i el seu alliberament des de la glàndula pituïtària. Les mutacions en aquest gen perjudiquen la producció o l’alliberament de l’hormona del creixement, el resultat és l’endarreriment en el creixement del cos.

El gen BTK ens proporciona les instruccions per a realitzar una proteïna anomenada Ti-rosina kinasa de Bruton (Bruton tyrosine kinase en anglès, d’aquí ve el nom del gen BTK), essencial per al desenvolupament i la maduració de les cèl·lules B del sistema immunitari, enviant senyals per a la seva maduració cap a proteïnes anticossos. Encara es desconeix la relació entre les mutacions en el gen BTK i el dèficit de l’hormona del creixement.

Figura 31. Procés que segueix la informació genètica des dels gens fins a ser sintetitzada en una estructura funcional, la proteïna.

Page 56: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

55CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Els dèficits segueixen diferents patrons hereditaris segons el tipus:

• Els tipus de dèficit IA i IB són heretats en caràcter recessiu autosòmic, la qual cosa vol dir que ambdues còpies dels gens GH1 o GHRHR en cada cèl·lula tenen mutaci-ons. Els progenitors de l’individu amb dèficit de caràcter recessiu tenen cadascú una còpia del gen mutat, però normalment no mostren símptomes del dèficit.

• El dèficit de tipus II pot ser heretat en caràcter dominant, i això vol dir que una mu-tació en una còpia del gen GH1 en les cèl·lules és suficient per a causar-lo. Aquest dèficit també es pot donar per noves mutacions en el gen GH1 i presentar-se en persones sense historial familiar del dèficit.

• El dèficit d’hormona del creixement del tipus III, causat per mutacions en el gen BTK, és heretat en un al·lel recessiu lligat al cromosoma X. El gen es troba situat al cromosoma X, per tant, en els homes (que només tenen una còpia del cromosoma) és suficient una sola còpia alterada per causar-lo. En canvi, en les dones, la mutació hauria de tenir lloc en ambdues còpies del gen per a causar el dèficit. Pel que els homes estan afectats per malalties de caràcter recessiu lligades al cromosoma X més freqüentment que les dones. Una característica especial de l’herència lligada al cro-mosoma X és que els pares no poden transferir els trets lligats a aquest cromosoma a la descendència.

Existeixen quatre tipus de dèficit de l’hormona del creixement, diferenciats per la seva severitat, els gens involucrats i el patró hereditari.

• El dèficit d’hormona del creixement del tipus IA és causat per una absència total d’hormona de creixement. En aquest dèficit, els problemes es manifesten en el con-text de bebès més petits del normal després del part. Aquest tipus de dèficit és causat per mutacions al gen GH1.

• Els pacients amb dèficit del tipus IB produeixen nivells molt baixos de l’hormona. A causa d’això, el seu creixement també és menor de l’habitual, però no tan sever com en el cas IA. Els problemes de creixement apareixen en la infantesa. Aquest dèficit pot estar causat per mutacions tant en el gen GH1 com en el GHRHR.

• Els individus amb deficiència de l’hormona del tipus II mostren nivells molt baixos d’hormona en la sang, i la seva baixa estatura varia en severitat. Els problemes del creixement d’aquests individus és normalment evident en la mitjana infantesa. S’es-tima que al voltant de la meitat dels afectats per aquest dèficit pateixen subdesen-volupament de la glàndula pituïtària. Aquest dèficit està causat per mutacions en el gen GH1.

• El dèficit del tipus III és similar al tipus II, en què els afectats produeixen poca quantitat d’hormona del creixement i una baixa estatura que varia en severitat i on

Page 57: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

56CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

els problemes relacionats amb el creixement es manifesten en la mitjana infantesa. Els pacients amb aquest tipus de deficiència poden presentar també un sistema im-munitari afeblit i, per tant, són propensos a infeccions freqüents, ja que produeixen poca quantitat de cèl·lules B, glòbuls blancs especialitzats que protegeixen el cos envers les infeccions. Està causat per mutacions en el gen BTK.

7.3 Sistemes de detecció

En la majoria dels casos, el primer pas de la detecció es fa en revisions rutinàries de pedi-atria, on els doctors es fixen en la corba de creixement d’un infant (amb dèficit de l’hor-mona del creixement) i observen que presenta signes més o menys evidents de retard en el creixement, és a dir, no segueix la línia de creixement estadística.

Posteriorment, el pediatra demanarà una radiografia de la mà (normalment l’esquerra) per determinar l’edat òssia del pacient observant els ossos de la mà i el canell, ja que la gran-dària i la forma dels ossos canvia a mesura que la persona creix. Aquests canvis es poden observar en la radiografia, i segueixen un patró a mesura que avança el creixement del nen.

Figura 32. Taules del creixement infantil (dels 2 als 20 anys).

Page 58: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

57CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Els tests per trobar el dèficit de l’hormona del creixement requereixen altres proves a part d’una analítica de sang:

• Aquestes proves per determinar-ne el dèficit inclouen un examen d’estimulació (que pot durar unes quantes hores) utilitzat per calcular els nivells de GH en sang. S’han d’ex-treure mostres freqüents o provocar un pic d’alliberament. Es poden utilitzar diferents tipus de reactius i fàrmacs per a estimular l’alliberament de l’hormona, com ara la prova d’hipoglucèmia insulínica o la prova del glucagon, que augmenten el nivell de glucosa en la sang amb un estímul. Aquestes proves se solen fer a primeres hores del matí i en dejú.

• També es realitzen anàlisis de sang després de proves d’esforç.

• Una ressonància magnètica del cap pot mostrar l’hipotàlem i la hipòfisi.

7.4 Possibles tractaments / solucions

Un cop diagnosticat el dèficit, el doctor (ara un endocrinòleg, encarregat del seguiment del tractament) l’inicia el més aviat possible, per augmentar la velocitat de creixement i el desenvolupament i estatura finals, obtenint el resultat desitjat (el més pròxim possible a la mitjana de l’alçada dels pares) al final d’aquest.

Figura 33. Taula del creixement anormal corregida d’un pacient amb tractament del dèficit de l’hormona del creixement.

Page 59: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

58CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

El PREU/mg d’hormona es troba al voltant dels 20 €, i això suposa un cost anual d’entre 10.000 i 30.000€ en funció del tractament i la quantitat d’hormona administrada al pacient. A causa del cost del tractament, les sessions de revisió i control, com també les proves mèdiques que s’hi relacionen, són dutes a terme sovint per a avaluar el correcte seguiment del tractament.

El tractament es realitza en la majoria dels casos amb injeccions subcutànies diàries abans que el pacient vagi a dormir, dispensades a la farmàcia del mateix hospital, en quantitat su-ficient per a un mes. Les dosis administrades varien segons la indicació per a la qual estan destinades. Les punxades es fan generalment en zones que són aptes en aquest sentit per la presència de massa muscular, com ara les cuixes o l’avantbraç, des d’on passa a la sang i es dirigeix al fetge, on activa l’IGF-1 i fa que aquest es reparteixi pel cos.

7.4.1 Com s’aconsegueix l’hormona del creixement recombinant

Fins els anys vuitanta del segle passat, l’única font d’obtenció de l’hormona del creixe-ment per als tractaments de dèficits eren les hipòfisis dels cadàvers humans, de les quals s’extreia la substància per a ser processada i, posteriorment, utilitzada. Però a partir del 1985 es va començar a produir mitjançant l’enginyeria genètica. Gràcies a l’augment de producció que aquest fet va comportar, es va incrementar el nombre d’estudis i assa-jos amb l’hormona, i gràcies a això es van ampliar les seves indicacions. En aquests mo-ments, l’hormona utilitzada en els tractaments és obtinguda mitjançant tècniques de DNA recombinant, per obtenir l’anomenada Hormona del creixement humà recombinant.

Aquestes tècniques han permès l’expressió de proteïnes humanes en cèl·lules hoste, la utilit-zada en aquest cas és el bacteri Escherichia Coli, molt utilitzat en processos i estudis de labo-ratori. L’expressió de proteïnes recombinants en E. Coli permet la seva ràpida i econòmica producció en grans quantitats. El procés d’obtenció consisteix a inserir la seqüència del gen GH1 en el genoma del bacteri, que començarà a sintetitzar la proteïna en grans quantitats. Un cop obtinguda la proteïna, aquesta s’ha d’extreure del bacteri i purificar-la, per posteriorment enviar-la al laboratori farmacèutic on prepararan la mescla per a la solució en la xeringa.

Figura 34. Procés de l’enginyeria genètica en la clonació d’un gen.

Page 60: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

59CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

MARC PRÀCTIC

Part III

8. La bioinformàtica com a eina per comprendre

8.1 Exercicis d’introducció a la bioinformàtica

Cedrik Magis, investigador del CRG i coordinador de l’apartat teòric d’aquest treball va considerar convenient que, prèviament a la meva estada al CRG, dugués a terme un seguit d’exercicis a fi d’adquirir les habilitats necessàries tant per a resoldre’ls com per a la realitza-ció del l’apartat bioinformàtic corresponent al treball.

En aquests exercicis analitzo i poso en pràctica com es desenvolupa  el treball de l’investiga-dor Bioinformàtic. Com obtenir informació, adquirir les habilitats i maneig del programari, i la seva posterior interpretació, contrastant els resultats a fi d’interpretar el que impliquen els mateixos, per tal de reconduir els coneixements de Biologia.

Els següents exercicis van adreçats a consolidar tot el que un Bioinformàtic pot plantejar i aplicar, les seves habilitats com usuari de la Informàtica i també els coneixements del marc teòric (biològic) que treballa.

8.1.1 Exercici 1

Hem d’assessorar en una investigació d’un crim, en l’última beguda de la víctima hi ha 4 proteïnes sospitoses, que podrien ser la causa de la mort, aquest exercici inicia en l’ús del programa BLAST.

>> Sospitosa 1:

1. Alpha-S1-casein.

2. Bos taurus (boví). 

3. Té un rol important en la capacitat de la llet per transportar fosfat de calci.

4. No pot ser la causant de la mort del turista, ja que, tot i ser causant de l’al·lèrgia a la llet de vaca, és poc probable que el turista hagi mort a causa d’ingerir aquesta proteïna.

5. Propietats al·lergògenes: provoca una reacció al·lèrgica en humans, és una de les cau-ses de l’al·lèrgia a la llet de vaca.

Page 61: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

60CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

>> Sospitosa 2:

1. Alpha-amylase 1.

2. Homo sapiens (humà).

3. Funció Hidrolitzadora de D-glucosa.

4. No pot ser la causant de la mort, ja que la seva única funció es la d’hidrolitzar mo-lècules de D-glucosa.

>> Sospitosa 3:

1. Snake venom metalloproteinase atrolysin-D.

2. Crotalus atrox (cròtal).

3. Causa hemorràgies provocant la degradació de proteïnes de la matriu com ara la fibrotecnina i el col·lagen de tipus IV.

4. És la principal sospitosa de la mort del turista, ja que és part del verí del cròtal, un tipus de serp. Aquet verí, com el de moltes altres, causa hemorràgies internes, que poden causar la mort.

>> Sospitosa 4:

1. Beta-lactoglobulin.

2. Bos taurus (boví).

3. Component primari del sèrum, està involucrada en el seu transport.

4. Com la sospitosa 1, tot i causar l’al·lèrgia a la llet de vaca, és molt poc probable que hagi causat la mort del turista encara que es donés el cas que aquest fos al·lèrgic a la llet.

5. Propietats al·lergògenes: causa una reacció al·lèrgica en els humans, es una de les cau-sants de l’al·lèrgia a la llet de vaca.

Conclusió:

La meva conclusió sobre la mort del turista a l’aeroport és que la causant de la mort és la proteïna metalloproteinase atrolysin-D, que es troba al verí del cròtal.

Page 62: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

61CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

8.1.2 Exercici 2

En aquesta activitat hem de construir un arbre filogenètic utilitzant 5 seqüències homòlo-gues de DNA provinents de 5 primats diferents, fetes especialment per a l’exercici, el que significa que no mostren la distància genètica real entre les espècies.

Primat seqüència:

Neanderthal (n) TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCC

Humà (h) TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCC

Ximpanzé (c) TGATCCTGCAGTCCTCTTCTGGCGCCCTGGGCGCGTGCGGTTGTCC

Goril·la (g) TGGACCTGCAGTCATCTTCTGCCCGCCCGAGCGCTTGCCGATGTCC

Orangutan (o) ACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

Comparació:

(N)-(C):TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCCTGATCCTGCAGTCCTCTTCTGGCGCCCTGGGCGCGTGCGGTTGTCC

Neanderthal - Ximpanzé: 4 diferències

(N)-(G):TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCCTGGACCTGCAGTCATCTTCTGCCCGCCCGAGCGCTTGCCGATGTCC

Neanderthal – Goril·la: 11 diferències

(N)-(O):TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCCACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

Neanderthal – Orangutan: 16 diferències

Page 63: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

62CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

(H)-(C):TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCCTGATCCTGCAGTCCTCTTCTGGCGCCCTGGGCGCGTGCGGTTGTCC

Humà – Ximpanzé: 5 diferències

(H)-(G):TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCCTGGACCTGCAGTCATCTTCTGCCCGCCCGAGCGCTTGCCGATGTCC

Humà – Goril·la: 12 diferències

(H)-(O):TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCCACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

Humà – Orangutan: 17 diferències

(C)-(O): TGATCCTGCAGTCCTCTTCTGGCGCCCTGGGCGCGTGCGGTTGTCCACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

Ximpanzé – Orangutan: 14 diferències

(G)-(O)TGGACCTGCAGTCATCTTCTGCCCGCCCGAGCGCTTGCCGATGTCCACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

Goril·la – Orangutan: 14 diferències

Taula 3: Diferències entre les seqüències de primats.

Neanderthal Humà Ximpanzé Goril·la OrangutanNeanderthal 0 3 4 11 16Humà 3 0 5 12 17Ximpanzé 4 5 0 11 14Goril·la 10 12 11 0 14Orangutan 16 17 14 14 0

Page 64: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

63CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Diferències Diferència proporcional

Neanderthal i humà 3 3/46 = 0.065Neanderthal/humà i ximpanzé 4.5 4.5/46 = 0.097Neanderthal/humà/ximpanzé i goril·la 11.25 11.25/46 = 0.244Neanderthal/humà/ximpanzé/goril·la i orangutan 14.625 14.625/46 = 0.317

Neanderthal/Humà Ximpanzé Goril·la Orangutan

Neanderthal/Humà

0 (4+5)/2= 4.5 (11+12)/2= 11.5 (16+17)/2=16.5

Ximpanzé (4+5)/2= 4.5 0 11 14Goril·la (11+12)/2= 11.5 11 0 14Orangutan (16+17)/2= 16.5 14 14 0

neanderthal-humà: 0.065*20= 1.3 milions d’anys

ximpanzé-humà: 0.097*20= 3.26 milions d’anys

goril·la-humà: 0.244*20= 8.12 milions d’anys

orangutan-humà: 0.317*20= 14.46 milions d’anys

Qüestions:

Un cop tingueu construït l’arbre, podreu contestar algunes preguntes.

1. En el vostre arbre filogenètic, quant temps fa que els goril·les i els humans van diver-gir d’un ancestre comú? I els orangutans respecte als humans?

3.26 milions d’anys i 14.46 milions d’anys

2. Podríeu saber si aquestes i les altres estimacions del vostre arbre són correctes?

No, ja que en el primer pas hem assumit que els canvis en el DNA trigarien 20 milions d’anys en produir-se, no hem aplicat una dada 100% real.

3. Per què podria ser que els arbres filogenètics construïts a partir de diferents regions d’ADN donin com a resultats arbres amb distàncies diferents?

Perquè no tots els gens han evolucionat a la vegada, i per tant, unes seqüències serien més primitives que d’altres

Page 65: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

64CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

4. Quines regions d’ADN utilitzaríeu per comparar organismes que són propers evolu-tivament entre ells?

Les corresponents a gens en comú entre aquests organismes.

5. Quins tipus de gens hauríeu de fer servir per comparar organismes que es troben evolutivament allunyats?

Els que tinguin en comú, ja que així es podran observar els canvis i mutacions que han patit al llarg del temps, i veure com han evolucionat.

6. Què hauríeu de fer en el cas de trobar seqüències que quan són comparades mostren gaps (forats), deguts a insercions o delecions?

Continuar amb l’anàlisi, ja que mitjançant les insercions, delecions i gaps es pot veure l’evolució d’una seqüència respecte d’una altra.

Page 66: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

65CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

8.1.3 Exercici 3

Un exercici de genòmica basat en el cas d’una malaltia anomenada Retinitis Pigmentosa. Aquest exercici presenta qüestions relatives a la genòmica. I introdueix en l’ús dels visualit-zadors d’estructures (químiques i en l’espai) de proteïnes amb el programa YASARA.

Respostes

Pas 1

A. Ordena els passos: 2-4-1-3

1- Després del plegament dels aminoàcids: una proteïna2- TTATCCGGGCTGATGGATGATCAT3- Metionina – Isoleucina – Isoleucina – Histidina – Glutamina – Prolina – Glicina4- AUGAUCAUCCAUCAGCCCGGAUAA

B.- Per a quin aminoàcid codifica AUG?Per cap, assenyala quan s’ha de començar a codificar la proteïna.

Pas 2

A. Aquestes dues seqüències codifiquen per la proteïna de la rodopsina. Són seqüèn-cies d’ADN o de Rnam? Com ho pots saber?

Són seqüències d’RNAm, perquè contenen la base pirimidínica uracil, que es la homò-loga a la timina del DNA.

B. Per a quin aminoàcid codifica el primer codó? I l’últim? Pots fer servir la taula pro-porcionada anteriorment.

Primer codó: Inici de la codificació.

Últim codó: Parada/Final de la codificació.

Pas 3

A. Quantes diferències ets capaç de trobar entre les dues seqüències?

Sis diferències.

B. Troba la segona diferència. Quin és el codó de la rodopsina estàndard? I quin és el codó del nen? (Cada línia comença amb un nou codó).

CCG.

Page 67: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

66CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

C. Per a quin aminoàcid codifica aquest codó en la rodopsina estàndard?

Prolina.

D. I en la del nen?

UCG, Serina.

E. Omple la taula següent. L’última columna no l’hauràs d’omplir fins al pas 4.

Mutació número

Rodopsina estàndard Rodopsina del nenAminoàcid númeroCodó Aminoàcid Codó Aminoàcid

1 AAC Asparagina (Asn) N AAU Asparagina

(Asn) 234

2 UCG Serina(Ser) S CCG Prolina (Pro) 556

3 UGU Cisteïna (Cys) C UAU Tirosina (Tir) 560

4 AUG Inici M AGG Arginina (Arg) 620

5 GCG Alanina (Ala) A GAG Àcid glutàmic

(Glu) 875

6 AAG Lisina (Lys) K GAG Àcid glutàmic

(Glu) 886

7 ACC Treonina (Thr) T ACA Treonina

(Thr) 1008

Pas 4

A. Quants aminoàcids conté la proteïna de la rodopsina?

Conté 1.047 aminoàcids.

B. En quina posició trobem el primer aminoàcid mutat? Escriu-ho a la taula.Completa la taula. Aquesta taula la necessitarem després per a la visualització de les mutacions.

Page 68: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

67CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Pas 5

A. Quins elements de la taula periòdica estan representats per les diferents boles de colors (verd, blau, vermell...)?

Vermell: Oxigen Blau fosc: NitrogenBlau clar: CarboniVerd: SofreRosa: Zinc

Fig.ura 35. Vista de la proteïna rodopsina amb el programa Yasara

Page 69: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

68CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

8.2 Memòria de l’estada al CRG del 8 al 19 de juliol

Dia 1

DILLUNS 08 DE JULIOL

M’han convocat al CRG a les 9 del matí, juntament amb els altres assistents pel treball de recerca que col·laboren amb el centre, i amb els participants al programa Joves i Ci-ència de Catalunya caixa. En total som 11 persones, 4 participants del programa Joves i Ciència, 6 persones amb el treball de recerca, i dues més que fan una estada al CRG sense relació amb cap dels programes anteriors.

Una estona més tard de les presentacions hem anat a una sala on ens han fet una xer-rada sobre riscos laborals al laboratori, com també les recomanacions d’us de les instal-lacions i la roba més adequada per a treballar en un laboratori.

Després d’això, hem anat al Teaching Lab que ha habilitat el centre per a procedir en les nostres tasques d’investigació. Majoritàriament, el que farem en aquest laboratori els propers deu dies serà extreure el DNA de diverses mostres i realitzar les proves adients per a obtenir resultats específics per a cada treball de recerca. Com que ha estat el primer dia, els participants al programa Joves i Ciència ens han estat ajudant amb l’extracció i els protocols, jo m’he familiaritzat amb l’àmbit informàtic del laboratori i també he ajudat en els protocols. Per familiaritzar-nos amb els protocols i el Barcoding, l’Annick ens ha proposat un exercici en què havíem d’aplicar un protocol a una mostra de DNA (concre-tament de mandonguilles i de DNA de ratolí) i obtenir-ne la seqüència, i així comprovar que sabem com hem de treballaren aquesta activitat de laboratori.

Dia 2

DIMARTS 09 DE JULIOL

Avui he arribat a les 9.30 del matí al CRG i he anat directament al laboratori, allà he estat ajudant els companys de laboratori amb l’activitat que vam començar ahir, treballant amb els protocols d’extracció de DNA i alhora buscant informació relativa al meu treball de recerca. Gairebé al final de la jornada, sobre les 13.30, hem posat les mostres de DNA obtingudes a la màquina de PCR, per seguir la feina demà al matí. Després de dinar, a les 15 h, hem tingut una xerrada sobre l’estudi de l’expressió gènica en els embrions de la mosca del vinagre Drosophyla Melanogaster.

Page 70: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

69CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Protocol 1:

1. Tallar gel -> en un tub, pesar.2. Afegir Buffer QU (3 cops el volum).3. Afegir QIAEX II -> fer vòrtex, retirar 30 microlitres de DNA.4. Escalfar a 50ºC durant 10’ cada 2’ fer vòrtex.5. Comprovar el PH (veure que és groc).6. Centrifugar durant 30”.7. Extreure el líquid.8. Afegir 500 microlitres de Buffer QX1.9. Fer vòrtex.10. Centrifugar durant 30”.11. Extreure el líquid.12. Incubar durant 10-15’ a 50º.13. Afegir 20 microlitres H2O.14. Fer vòrtex.15. Escalfar durant 5’ a 50ºC.16 Fer vòrtex durant 30”.17. Extreure 1microlitre líquid i posar-lo en un Eppendorf de 5 microlitres.

Figures 36 i 37. Fotografies del gel utilitzat en l’experiència i la màquina de PCR amb les mostres.

Page 71: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

70CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Dia 3

DIMECRES 10 DE JULIOL

Aquest matí hem tret les mostres de DNA de la màquina de PCR i hem utilitzat un pro-tocol per a purificar i extreure’n el material genètic obtingut i així poder portar les pos-tres al laboratori de seqüenciació, propietat de la Universitat Pompeu Fabra, però, com que és un procediment costós i car, hem posat les mostres extretes en una màquina que compta la densitat el material genètic en la mostra, per així determinar que si el material no té prou densitat, no surt a compte de portar-lo a seqüenciar, ja que no s’obtindrien resultats, només s’haurien perdut temps i diners.

Encara que el resultat no ha estat l’espera’t, hem decidit portar les mostres al laboratori de seqüenciació, per així tenir les seqüències l’endemà.

Protocol 2: PCR Clean-up purification

1. Agafar 10 microl de DNA I 10microl d’H2O I afegir-los a un Eppendorf.2. Afegir-hi 2 microl d’EDTA, 2microl de NaOH i 50micol d’Etanol.3. Remenar amunt i avall.4. Esperar 15’.5. Centrifugar a 14.000 rpm durant 20’.6. Extreure tot el líquid excepte 2microl + o -.7. Afegir 200microl d’Etanol al 70%.8. Centrifugar durant 2’.

Figura 38. Protocol de la PCR clean-up purification al Teaching Lab del CRG.

Page 72: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

71CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Dia 4

DIJOUS 11 DE JULIOL

Aquest matí han arribat els resultats de les mostres que vam enviar ahir al laboratori de seqüenciació de la UPF, i l’Annick m’ha demanat que analitzés les seqüències obtingudes per veure si els resultats obtinguts eren els esperats i si es corresponien amb els resultats “correctes” de l’exercici d’introducció al Barcoding. (Exercici 1 seqüències)

Però el resultat ha estat negatiu, cap de les seqüències mostrava similituds amb ratolins o carn de vedella, així que hem revisat tot el protocol i aplicat canvis en les temperatures dels cicles de la màquina de PCR.

Fet això hem tornat a començar el protocol amb mostres sobrants que vam guardar a la nevera del laboratori, fins a deixar les mostres a la màquina de PCR per a l’endemà.Després de dinar hem assistit a una conferència sobre reprogramació neuronal i rege-neració a la retina de ratolí, on ens han explicat com han aconseguit, amb una cèl·lula somàtica reprogramada in vivo a un estadi anterior, curar ferides i fins i tot malalties retinals regenerant-ne el teixit retinal.

Dia 5

DIVENDRES 12 DE JULIOL

Hem extret les mostres de DNA de la màquina de PCR, utilitzat el protocol nº2 per pu-rificar el DNA obtingut, i mesurat la densitat, i com que el resultat no ha estat satisfac-tori, hem desestimat l’opció d’enviar les mostres al laboratori de seqüenciació durant el cap de setmana.

Després de dinar hem assistit a una sessió en què antics participants del projecte Joves i Ciència, que, de fet, actualment segueixen col·laborant amb el CRG, ens han explicat la seva experiència amb el programa, els seus estudis actuals, la tria dels quals va estar influïda per la seva estada al centre, i ens han respost qualsevol pregunta que ens vingués al cap, tant si era relacionat amb el centre com amb les seves tries d’estudis universitaris.

Page 73: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

72CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Dia 6

DILLUNS 15 DE JULIOL

Després de discutir-ho, hem decidit deixar l’exercici introductori al Barcoding una mica apartat, per centrar-nos en el tema pel qual la majoria hem vingut aquí, la part pràctica del nostre treball de recerca, així que cada un dels meus companys de laboratori ha portat una mostra de l’organisme de què volien observar el material genètic, una noia ha portat les seves papallones, una altra ha portat surimi de peix, i un altre un estómac de peix de la costa de Barcelona, i han començat a utilitzar diferents variants del protocol 1, cadascun aplicat a l’organisme seleccionat. L’Annick m’ha demanat que busqués els primers per als protocols del Barcoding de peix i insectes.

Dia 7

DIMARTS 16 DE JULIOL

Aquest matí hem acabat el protocol 2 en totes les mostres i ho hem enviat al laboratori de seqüenciació veient que el resultat de la densitat era més o menys satisfactori.

A la tarda, ens ha visitat el Dr. Roderic Guigó, que amablement ha contestat a les meves preguntes per a l’entrevista que havia preparat per formar part del meu treball de recerca i ens ha aclarit dubtes i contestat preguntes referents a la genòmica, a la seva formació, al CRG i a d’altres dubtes que s’han presentat.

Dia 8

DIMECRES 17 DE JULIOL

Aquest matí, només arribar, hem anat a visitar el laboratori de seqüenciació de l’UPF, on en aquell moment estaven seqüenciant les mostres que havíem enviat el dia anterior, i ens han ensenyat les màquines de seqüenciació i el seu funcionament.

Després hem anat al laboratori a esperar que arribessin els resultats de la seqüenciació, que, un cop han arribat, han resultat no ser els esperats, ja que ninguna de les seqüències es relacionava amb l’organisme del qual s’havia analitzat el DNA (Barcoding 2 seqüèn-cies), així que ens hem tornat a posar amb el protocol 1, i l’Annick m’ha tornat a demanar que busqués primers més correctes i programes més adients per a la màquina de PCR.

Page 74: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

73CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Dia 9

DIJOUS 18 DE JULIOL

Aquest matí hem reprès el Barcoding de les mostres de DNA dels treballs de recerca dels companys de laboratori, amb el Protocol 2, la purificació del DNA després de la PCR. Aquest cop els resultats de la prova de la densitat de material genètic han estat més con-vincents, i fet això hem enviat les mostres al laboratori de seqüenciació, esperant aquesta vegada obtenir els resultats desitjats.

Dia 10

DIVENDRES 19 DE JULIOL

En el meu últim dia d’estada al CRG, han arribat els resultats de la segona seqüenciació de les mostres de material genètic relatives al treball de recerca dels meus companys. A l’hora de veure si eren o no les desitjades, no ho han estat (Barcoding 3 seqüències), i això ens ha fet replantejar alguna part del protocol i la PCR, buscant errors que ens hagin fet obtenir aquests resultats o recordant si en algun moment no hem seguit el protocol al peu de la lletra.

Malgrat que els resultats del Barcoding no han estat els esperats, me’n vaig del CRG sa-bent que el més probable és que hi torni, i que aquests dies no han estat dies de fracassos, sinó dies d’aprendre a fer ciència.

Page 75: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

74CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

8.3 Estudi filogenètic comparatiu de la GH entre humans i altres mamífers

Com hem vist, la bioinformàtica en general, i les seves eines en particular, ens ajuden a estudiar, conjuntament amb la genòmica, la seqüència d’aminoàcids que ens caracteritza i explica com som i com serem. Aquesta ciència també és aplicable a d’altres espècies d’ani-mals, així com a gens específics.

L’objectiu d’aquest apartat del treball és posar en un punt comú tots els apartats d’aquest, realitzant un estudi filogenètic amb eines bioinformàtiques de l’evolució de la proteïna de l’hormona del creixement (somatotropina) en l’ésser humà i altres mamífers.

Els mamífers estudiats s’han separat en els grups següents:

-L’ésser humà (Homo Sapiens)

-Homínids més propers a l’ésser humà: Ximpanzé comú (Pan troglodytes), Goril·la de les planes occidental (Gorilla gorilla gorilla), Orangutan de Sumatra (Pongo abelii) i el Macaco Rhesus (Macaca mulatta).

-Primats propers a l’ésser humà:Panda gegant asiàtic (Ailuropoda melanoleuca), Callithrix jacchus (Callithrix jacchus) i el Lèmur de cua anellada (Lemur catta).

-Altres mamífers:Bou (Bos taurus), Gos (Canis lupus familiaris), Gat (Felis catus) i Elefant Africà (Lo-xodonta Africana)

-Mamífers llunyans:Armadillo (Dasypus novemcinctus) i Pica (Ochotona princeps)

Per a realitzar aquest estudi he utilitzat algunes de les eines dels exercicis d’introducció a la bioinformàtica, i d’altres amb les quals he entrat en contacte al CRG, gràcies a Cedrik Magis, que m’ha assistit durant la realització de l’estudi en els dubtes que se’m presentaven.

Figura 39. Seqüència d’aminoàcids de la somatotropina humana, on es mostren els seus exons, i introns..

Page 76: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

75CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

El primer pas de l’estudi va ser escollir els animals a estudiar per poder obtenir la seqüència de la seva proteïna de l’hormona del creixement (somatotropina) respectiva. Per a obtenir-la he utilitzat la base de dades Ensembl, una base de dades de genomes que conté la seqüen-ciació completa dels genomes de 78 animals (que són constantment revisats, i el nombre de genomes seqüenciats no para de créixer). Això ens permet observar diverses regions del genoma, seqüències de DNA i aminoàcids (el cas de les proteïnes), així com la possibilitat de comparar gens o seqüències entre espècies mitjançant arbres filogenètics i observant els gens homòlegs entre elles.

També he utilitzat el software de Blast per a verificar que les seqüències obtingudes d’En-sembl fossin realment les que necessitava, ja que és una base de dades de seqüències de proteïnes, és més especifica i, per tant una eina fiable per a comparar resultats.

Un cop obtingudes les seqüències, i abans de fer l’arbre filogenètic, s’ha de realitzar un ali-neament per tal d’observar els canvis (insercions o delecions realitzades durant el transcurs de l’evolució) entre elles. Per a realitzar aquest alineament de seqüències he utilitzat un programa creat pel laboratori d’en Cedric Notredame, cap del grup d’investigació del grup on treballa en Cedrik Magis, el T-Coffee (Tree-based Consistency Objective Function For Alignment Evaluation), un conjunt d’eines per a realitzar alineaments múltiples de seqüèn-cies i observar d’estructures de DNA, RNA i proteïnes, desenvolupant nous algorismes per a aquestes comparacions. Que actualment es troba a la pàgina web i els servidors del CRG.Després de realitzar aquest alineament he utilitzat el software de Phyml, un software gràfic realitzat per la plataforma bioinformàtica del sud de França, utilitzat per a dur a terme anàli-sis filogenètics com alineaments i edició gràfica d’arbres filogenètics, per a obtenir l’estructura de l’arbre filogenètic de la somatotropina. Per a reconstruir l’arbre s’ha d’adjuntar l’alineament en un document de text en format Phylip (PHYLogeny Inference Package, un conjunt de programes filogenètics per inferir arbres filogenètics. Les dades es llegeixen com un docu-ment de text que l’usuari pot preparar utilitzant qualsevol editor de text, un cop llegit i inferit l’arbre, el resultat és un text en un format especial per a la visualització d’arbres filogenètics.

(Gorilla:0.00000001,Pongo:0.00000001,((Callithrix:0.11283982,(Macaca:0.06802514,(Homo:0.00092939,Pan:0.00431848)0.855000:0.01503996)0.833000:0.0152155-8)0.707000:0.01514698,(((Felis:0.00971049,(Loxodonta:0.01646238,(Canis:0.00000080,Ailuropoda:0.03956190)0.000000:0.00329076)0.000000:0.00151128)0.8880-00:0.01923268,(Dasypus:0.31051284,Bos:0.07753413)0.266000:0.02378981)0.706000:0.00885001,(Ochotona:0.18434730,Lemur:0.02941749)0.708000:0.00960607)1.0-00000:0.35080010)0.999000:0.14422994)

Figura 39. Format en text de la reconstrucció de l’arbre filogenètic.

Page 77: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

76CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Figura 40. Alineament múltiple amb T-Coffe de les seqüències d’aminoàcids de la somatotropina dels diferents animals utilitzats en l’estudi.

Page 78: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

77CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Un cop hem obtingut aquest text referent a l’arbre ens queda l’últim pas abans de la visu-alització. El software utilitzat en aquest cas és el de Phylowidget.org. El text s’ha de copiar en l’espai buit corresponent, i escollir una de dues opcions, visualitzar l’arbre amb Phylow-Phylow-idget Full o Lite, el primer ens permet desar el fitxer de l’arbre en formats com .pdf o .png i modificar-ne la forma, mentre que Lite és més ràpid, però és més bàsic i menys funcional.

8.3.1 Conclusions

Els resultats d’aquest estudi mostren l’evolució i especiació de la somatotropina dels dife-rents animals, la qual cosa ens ensenya també l’evolució de les diferents espècies estudiades, i la seva proximitat o llunyania evolutiva en aquesta.

Gràcies a aquests resultats i mirant les comparacions de les seqüències podem saber com ha anat evolucionant al llarg del temps. Gràcies a aquest arbre i l’alineament de seqüències he pogut veure que Loxodonta Africana és l’animal amb l’hormona del creixement més diferent a la humana, pel que és la més allunyada en l’evolució d’aquesta. En canvi Pan Tro-glodytes (Ximpanzé comú) és el més proper en relació a l’evolució de la somatotropina als éssers humans.

Figura 41. Arbre filogenètic de la somatotropina en els mamífers i la seva evolució fins a la de l’ésser humà.

Page 79: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

78CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

9. Conclusions

Una vegada acabat el treball, després d’uns mesos de fer recerca i aplicar tècniques i mè-todes científics sobre la relació entre el meu tractament d’hormones de creixement i la genòmica, he pogut arribar a una sèrie de conclusions: el genoma és una de les claus per entendre tant el nostre organisme com la nostra història. El nostre passat i el nostre futur es troben escrits en aquesta seqüència que, a mesura que creixem i canviem, canvia amb nosaltres i adquireix mutacions del nostre entorn. Aquesta clau tot just es va començant a visualitzar, i en un futur, serà la que donarà pas a nous descobriments i avenços de la humanitat. La genòmica i la bioinformàtica, ciències amb què he entrat en contacte durant aquest treball,seran les bases de les ciències del futur, i gràcies a elles es podrà interpretar aquest genoma, cosa que molt segurament repercutirà tant en la nostra visió del món i de la nostra espècie com en totes les altres ciències, i obrirà nous camps d’investigació tot generant nous interrogants als investigadors.

Gràcies a la recerca he pogut respondre a la hipòtesi inicial i m’he adonat que un producte com un medicament és la punta d’un iceberg:només en veiem una part. Un medicament és una substància que ha estat possible gràcies al treball conjunt de metges que realitzen un di-agnòstic, genetistes (en el cas del dèficit de l’hormona del creixement humana)que estudien conjuntament amb informàtics i biòlegs la solució d’aquest problema a nivell seqüencial, mi-crobiòlegs i químics que es concentren a obtenir seqüències de la proteïna per poder-la uti-litzar com a principi actiu del medicament, i farmacèutics que fan realitat aquest concepte de medicament en un producte apte per al tractament, com també s’hi ha de tenir en compte la participació de molts altres investigadors no necessàriament vinculats al camp de la biologia.La interdisciplinarietat és també un dels pilars d’aquest treball. Gràcies a l’amabilitat del CRG, he pogut endinsar-me en un ambient científic i d’investigació, des d’on m’ha estat possible observar des de la meva experiència fins a quin punt s’arriben a establir ponts entre diferents branques científiques per a un sol subjecte d’estudi. He tingut ocasió d’observar informàtics treballant conjuntament amb físics i biòlegs en un laboratori.

Aquest treball també ha estat un repte positiu per la dedicació que m’ha suposat: la recerca d’informació, la preparació de la presentació del projecte al CRG, les entrevistes i la seva poste-rior transcripció, l’estada al centre al mes de juliol, les pràctiques al laboratori, les conferències, la redacció d’un article per a la revista del Parc de Recerca Biomèdica de Barcelona... Però també per la dedicació desinteressada de tants científics de prestigi internacional que m’han volgut mostrar aquest camí apassionant i amb l’ajuda de la tutora, sempre disposada a donar un cop de mà i a resoldre qualsevol dubte. Tots ells m’han fet veure el significat real de fer recerca.

Per últim, he pogut concloure que la ciència és col·laborativa en la funció en la recerca, estimulant i exigent en els objectius, generosa en el trasllat del coneixement científic als estudiants, altruista en la manera de compartir els resultats amb la societat... La ciència és una via per a un canvi, no només de la salut, sinó de la societat.

Page 80: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

79CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11. Referències bibliogràfiques

CLAVERIE, Jean-Michel and Cedric Notredame. Bioinformatics for Dummies, Wiley Publishing Inc., 2003.

GELONCH, Núria i M. Mercè Serra. Biologia Humana, Castellnou, 1999.

GUIGÓ, Roderic. Opinió crítica: Ciència i Universitat a Catalunya, projecció de futur a Ciència i universitat a Catalunya, Projecció de futur. David Bueno i Torrens (ed.), 2013, pàgina 102.

HENDERSON, Mark. 50 cosas que hay que saber sobre genética, Ariel, 2000.

JIMENO, A. i L. Ugedo. Biologia 1 Batxillerat, Santillana, 2008.

PURROY, Jesús. La Era del genoma: claves para orientarse en un mundo transformado por la genética, Salvat, cop. 2001.

RODRÍGUEZ-TARDUCHY, Gemma. Hablamos de Gen...o...Mas?, Ed. Hélice, 2007

TAMARIN, Robert H. Principios de Genética, Ed. Reverté, 1996

VENTER, Craig. La vida descodificada: Crónica de una apasionante aventura científica: la interpretación del genoma humano, Espasa, cop. 2008.

LOPEZ-GRADO SALINAS, Guillem, «Ressenya: Bioinformatics for Dummies» Revista El·lipse, Parc de Recerca Biomèdica de Barcelona, 67 (setembre de 2013), p. 6.

Page 81: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

80CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Webgrafia

Fonts sobre el Genoma Humà (apartat 2)

U.S. National Library of Medicine –

http://ghr.nlm.nih.gov

La web de la Biblioteca Nacional de Medicina dels EUA ofereix una guia per a comprendre les Genetic Conditions anomenada Genetics Home Reference. En aquest cas un apartat referent al Projecte Genoma Humà: descripció, objectius...

http://ghr.nlm.nih.gov/handbook/hgphttp://ghr.nlm.nih.gov/handbook/hgp/descriptionhttp://ghr.nlm.nih.gov/handbook/hgp/goalshttp://ghr.nlm.nih.gov/handbook/hgp/accomplishmentshttp://ghr.nlm.nih.gov/handbook/hgphttp://ghr.nlm.nih.gov/handbook/hgp/genome

National Center for Biotecnology Information –

http://nccbi.nlm.nih.go

Un recurs web del govern dels EUA que facilita l’accés a informació biomèdica i genómica a la xarxa. Apartat del Genetics Home Reference sobre el genoma i el seu funcionament.

http://ghr.nlm.nih.gov/handbook/howgenesworkhttp://ghr.nlm.nih.gov/handbook/howgeneswork/makingproteinhttp://ghr.nlm.nih.gov/handbook/mutationsanddisorders/mutationscausedisease

National Human Genome Research Institute –

http://www.genome.gov

Pàgina del National Institutes of Health dedicada íntegrament al Projecte del Genoma Humà.

Fonts sobre DNA i transcripció del material genètic (apartat 3)

Universietet i Oslo –(Universitat d’Oslo)

http://www.uio.nohttp://www.uio.no/studier/emner/matnat/ifi/INF4350/h10/undervisningsmateriale/F1a-Intro-NCBI.pdf

Page 82: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

81CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Pàgina de la Universitat d’Oslo, amb recursos per àmbits de la biotecnologia, la genòmica: farma-genòmica, filogenètica. En aquest cas, sobre la definició de genoma segons el National Center for Biotecnology Information.

National Human Genome Research Institute –

http://www.genome.govhttp://ghr.nlm.nih.gov/handbook/mutationsanddisorders/mutationscausedisease

Pàgina del Handbook (un tipus de reference work, que proporciona referències directes d’un subjecte en especial) del Genetics Home Reference referent als gens.

The University of Arizona-

http://www.biology.arizona.edu/default.htmlhttp://www.biology.arizona.edu/human_bio/human_bio.htmlhttp://www.biology.arizona.edu/molecular_bio/molecular_bio.html

Recurs interactiu en línia de la Universitat d’Arizona adreçada a estudiants universitaris de Bio-logia, amb un programa específic anomenat The Biology Project.

McGraw-Hill Science & Technology Encyclopedia

-http://www.answers.com/topic/ribosomes

Portal amb enllaç a McGraw-Hill Science & Technology Encyclopedia sobre: Ribosomes.

Fonts sobre RNA i síntesi de les proteïnes (apartat 4)

National Human Genome Research Institute –

http://www.genome.govhttp://www.genome.gov/Glossary/index.cfm?id=198 sobre Transfer RNA (tRNA)http://www.genome.gov/glossary/index.cfm?id=180 sobre RNA (Ribonucleic Acid)http://www.genome.gov/glossary/index.cfm?id=123 sobre Messenger RNA (mRNA)

National Human Genome Research Institute –

http://www.genome.gov

Dins de Genetics Home Reference:

http://ghr.nlm.nih.gov/glossary=rna

Page 83: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

82CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Fonts sobre proteïnes (apartat 5 )

National Human Genome Research Institute –

http://www.genome.govhttp://ghr.nlm.nih.gov/handbook/howgeneswork?show=all

Dins de Genetics Home Reference: informació sobre el funcionament del gen.

http://www.genome.gov/glossary/index.cfm?id=169

Informació sobre el funcionament de la proteïna.

http://www.genome.gov/glossary/index.cfm?id=200

Informació sobre el procés de traducció (de RNA a proteïna).

Fonts sobre Bioinformàtica (apartat 6)

U.S. National Library of Medicine –

http://ghr.nlm.nih.govhttp://ghr.nlm.nih.gov/glossary=bioinformatics

Dins de Genetics Home Reference: Informació sobre bioinformàtica.

National Human Genome Research Institute –

http://www.genome.govhttp://www.genome.gov/glossary/index.cfm?id=17

Definició de bioinformàtica.

Blast (Basic Local Allignment Search Tool )-

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Eina de localització de similituds entre seqüències de DNA, RNA i proteïnes en una base de dades de seqüències.

Clustal Omega-

http://www.ebi.ac.uk

Programa de alineament múltiple de seqüències que permet la creació d’arbres filogenètics.

Page 84: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

83CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

TCOFFE-

http://tcoffee.crg.cat/

Un programa creat pel laboratori d’en Cedric Notredame, cap del grup d’investigació del CRG. El T-Coffee (Tree-based Consistency Objective Function For Alignment Evaluation), un con-junt d’eines per a realitzar alineaments múltiples de seqüències i observar estructures de DNA, RNA i proteïnes, desenvolupant nous algorismes per a aquestes comparacions. Que actualment es troba a la pàgina web i els servidors del CRG.

Fonts sobre hormona del creixement (apartat 7)

U.S. National Library of Medicine –

http://ghr.nlm.nih.govhttp://ghr.nlm.nih.gov/condition/isolated-growth-hormone-deficiency

Dins de Genetics Home Reference: informació sobre dèficit d’hormona de creixement.

U.S. Department of Health & Human Servvices-

http://www.fda.govhttp://www.fda.gov/Drugs/DrugSafety/PostmarketDrugSafetyInformationforPatientsandProvi-ders/ucm237839.htm.

Pàgina d’informació sobre substàncies: informació sobre la somatropina.

IES Monturiol-

http://www.iesmonturiol.net/web/html/estudis/recerca/alexrigall.pdf

Rigall Prat, Àlex, I jo…perquè no creixo? Treball de recerca de 2on de batxillerat. 2011.

National Human Genome Research Institute –

http://www.genome.govhttp://www.genome.gov/glossary/index.cfm?id=209.

Informació sobre las patologies lligades al cromosoma X.

Page 85: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

84CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Fonts i eines utilitzades en l’apartat pràctic del treball

Ensembl

http://www.ensembl.org/

Base de dades de 78 genomes animals, completament seqüenciats ens permet observar diver-ses regions del genoma, seqüències de DNA i aminoàcids, així com el mapa genòmic de cada espècie.

Blast –

http://blast.ncbi.nlm.nih.gov/Blast.cgi

TCoffee –

http://tcoffee.crg.cat/

Uniprot –

http://www.uniprot.org/

Base de dades de seqüències de proteïnes, provinent de Swissprot.

Phyml -

http://www.atgc-montpellier.fr/phyml/

Software gràfic utilitzat per a dur a terme anàlisis filogenètics com alineaments i edició gràfica d’arbres filogenètic.

Page 86: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

Annexos

Page 87: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

86CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Índex Annexos

11.1 Sóc Genòmic, presentació del treball i les possibles preguntes per a l’entrevista al doctor Roderic Guigó al CRG. (Abril de 2013)

11.2. Exercicis d’introducció a la bioinformàtica per Cedrik Magis. (Maig 2013)

11.2.1 Exercici 111.2.1.1 Seqüències Exercici 1

11.2.2 Exercici 2

11.2.3 Exercici 4

11.3. Entrevista amb Annick Labeeuw i Cedrik Magis (CRG) (Maig 2013)

11.4. Entrevista amb el doctor Roderic Guigó. (Juliol 2013)

11.5. Ressenya sobre el llibre Bioinformatics for Dummies a la revista El·lipse del PRBB

11.6 Glosario de Términos Genéticos del National Human Genome Research Institute (NHGRI)

87

96

96102

103

107

114

123

126

127

Page 88: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

87CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Annex 11.1 Sóc Genòmic

Presentació de la proposta de seguiment que vaig fer al maig del 2013 al CRG, on exposava la idea i marc teòric d’aquest treball de recerca, per a què valoressin si aquesta proposta els era escaient i estaven disposats a realitzar aquest seguiment, i també incorporava una altre proposta per a la realització de la part pràctica del treball i una entrevista al doctor Roderic Guigó.

Page 89: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

88CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Motivació de la proposta de seguiment al centre, en aquest document pretenia exposar el què i el perquè havia a realitzar aquesta proposició.

Page 90: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

89CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Abstract del treball de recerca en anglès que vaig escriure per a donar una idea global de perquè havia escollit realitzar aquest treball de recerca i quins eren els seus continguts i objectius.

Page 91: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

90CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Índex inicial del treball, que donava una primera idea de com aquest estaria dividit i quines serien les seves parts i estructura.

Page 92: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

91CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Page 93: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

92CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Page 94: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

93CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Preguntes formulades per a la entrevista proposada amb el doctor Roderic Guigó, tant relatives a la recerca en general, al treball en si com a la seva experiència en el camp de la genòmica. En la reunió de presentació del treball, Annick Labeeuw i Cedrik Magis es van ocupar de respondre’n la majoria.

Page 95: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

94CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Page 96: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

95CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Page 97: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

96CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.2 Exercicis d’introducció a la Bioinformàtica.

Un cop realitzada l’entrevista de presentació del treball al CRG,Cedrik Magis va proposar-me una sèrie d’exercicis per a introduïr-me en l’àmbit de la bioinformàtica i la genòmica, i n’adquirís els coneixements bàsics.

11.2.1 Exercici 1

En aquest exercici es pretén iniciar en l’ús d’una eina bioinformàtica bàsica anomenada BLAST, utilitzada per a cercar en bases de dades de proteïnes.

a. Assassinat a l’aeroport

b. El cas

Heu estat cridats per assessorar en una investigació a l’escena d’un crim: el cos sense vida d’un turista americà que va ser trobat a l’aeroport. Sembla que ha patit fortes convulsions i una hemorràgia interna. Els investigadors a l’escena del crim han trobat un envàs de beguda on encara resta una mica de líquid que sembla llet. Això podria ser una pista. El líquid va ser enviat al laboratori i rebeu una llista dels components de la beguda. Algunes molècules petites com sucres són trobades, però també són detectades quatre proteïnes. És la vostra feina analitzar aquestes proteïnes per veure si podeu ajudar a esbrinar com va morir el turista. Utilitzeu el vostre ordinador per buscar i analitzar informació d’aquestes proteïnes. Algunes de les potents eines i bases de dades utilitzades en bioinformàtica us ajudaran durant la vostra investigació.

c. Identificació de les proteïnes sospitoses

La llista que conté la seqüència d’aminoàcids de les 4 proteïnes (anomenades sospitosa 1 a 4) estan a l’arxiu sequencies.fa.

Les seqüències d’aminoàcids de les 4 proteïnes són donades amb el codi d’una lletra que la majoria de científics utilitzen, si no coneixeu el codi podeu consultar aquest article de la Viquipèdia a l’apartat “Codificació dels aminoàcids proteïnogènics”.

Ara ja teniu prou informació per començar la vostra investigació. Per cadascuna de les proteïnes sense identificar heu de contestar les següents cinc preguntes:

a. De quina proteïna es tracta?b. De quin organisme prové?c. Quina és la funció d’aquesta proteïna?d. És aquesta proteïna “culpable”? Pot ser responsable de la mort del turista? Per què o per què no?e. Té la proteïna cap característica remarcable?

Nota: Disposeu d’una plantilla per anotar les respostes.

Page 98: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

97CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

BLAST és un programa usat per la comparació d’una determinada seqüència de proteïna contra totes les proteïnes presents en una de les bases de dades biològiques proteiques disponibles. En el nostre cas utilitzarem la “SwissProt database”, que és una base de dades amb proteïnes anotades manualment de les que es coneix la funció, l’estructura, els canvis post-traduccionals i que ens serà útil per conèixer la funció de les nostres proteïnes. Hi ha diferents tipus de blast en el nostre cas utilitzarem el blastp (cerca de bases de dades proteiques mitjançant una seqüència proteica) que trobarem al servidor del “The National Center for Biotechnology” (NCBI).

Per ajudar en la vostra cerca agafarem la proteïna sospitosa 1 i us guiarem durant el pro-cés. Així després podreu continuar amb la resta de proteïnes.

Pas 1:

Obriu la pàgina del BLAST i trieu l’opció protein blast. Arribareu a una pàgina com aquesta:

Pas 2:

Copieu ara la seqüència des de l’arxiu al requadre on indica “Enter accession numbers...”. Sota aquestes línies trobareu l’exemple que conté la proteïna sospitosa 1, la primera línia sempre ha de començar amb aquest símbol >, seguida del nom de la proteïna (l’anomenat format FastA).

A l’apartat “Choose Search Set”, al camp “Database” trieu l’SwissProt database “Swissprot protein sequences (swissprot)”

Ja esteu preparats per llençar el vostre primer blast. Premeu el botó BLAST situat a l’apartat inferior esquerra.

Page 99: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

98CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Sereu enllaçats a una pàgina d’espera mentre que es carreguen els vostres resultats, heu de pensar que molta gent utilitza el BLAST a la mateixa vegada i que treballeu amb una base de dades que conté cents de milers de seqüències proteiques, així doncs, potser heu d’esperar per veure el vostre resultat.

Pas 3

Un cop la cerca hagi acabat veureu una finestra amb els resultats, sigueu tafaners i moveu-vos per tota la pàgina, es plena de informació. Si mireu la taula de resultats veureu això:

Page 100: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

99CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

En aquesta taula són llistades proteïnes que tenen una seqüència d’aminoàcids similar a la sospitosa 1, el que en anglès s’anomena “hit list”.

Accession: És un codi que identifica a la proteïna (pot ser utilitzar per fer la cerca enlloc de la seqüència)

Description: Una petita descripció de la proteïna

Max score, Total score i E value: El número sota E-value ens indica com de bo és el resultat. Quan més petit (com és el cas del primer hit 5 x 10-114 ), això vol dir que podem confiar en aquest resultat. Els resultats surten ordenats per ordre de rellevància. El Max score i el Total score també serveixen per donar una idea de quant ens podem refiar del nostres resultats.

Links: Diferents links que ens porta a altres recursos, en el nostre cas en algunes de les proteïnes podem entrar a l’Entrez Gene per veure el gen que codifica la proteïna.

Si baixem a la part de la pàgina que es troba sota la taula, podrem veure l’alineament de la nostra seqüència problema, amb cadascun dels resultats i informació d’aquest alineament.

Pas 4:

Cliqueu sobre l’accession number de la primera seqüencia de la llista, com podreu veure us sortiran llistades moltes de les característiques de la proteïna, com el nom, els noms al-ternatius, l’organisme al que pertany la seqüència, la pròpia seqüència, on en quins articles (“papers”) va ser publicada.

De totes maneres aquesta forma de veure la informació en un principi potser no us és gaire familiar, així doncs, si voleu visualitzar la informació més entenedora, caldria que aneu a l’apartat “DBSOURCE” (base de dades de la que prové) i cliqueu sobre l’accession number de l’UniProt.

Page 101: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

100CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

D’aquesta manera els resultats veureu les característiques de la proteïna en la interfície de l’UniProt que té un disseny en forma de taula.

Page 102: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

101CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Ara ja teniu la informació davant vostre sobre el registre de la casa1_bovin i podeucontestar a les preguntes que us plantejàvem al principi.

a. De quina proteïna es tracta?

b. De quin organisme prové?

c. Quina és la funció d’aquesta proteïna?

d. És aquesta proteïna “culpable”? Pot ser responsable de la mort del turista? Per què o per què no?

e. Té la proteïna cap característica remarcable?

Si encara no teniu clar on trobar la resposta a cadascuna de les preguntes a qui teniu una petita ajuda:

• Quina informació dóna el camp “protein names”

• Mireu a “Organism”, sinó teniu clar de quin organisme es tracta no dubteu en copiar el nom i googlejar-lo

• Potser us pot ajudar el que trobareu a “General annotation (Comments)” a saber quina és la funció de la proteïna, si pot ser responsable de la mort del turista o si té cap característica remarcable.

Què penseu és la proteïna sospitosa de la mort del turista?

Pas 5

Utilitzeu el BLAST per fer el mateix amb la resta de les seqüències problema i contesteu a les preguntes.

Quina és la vostra conclusió final en relació a l’assassinat? Com va morir la víctima?

Page 103: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

102CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.2.1.1 Seqüències Exercici 1

>sospitosa1

RPKHPIKHQG LPQEVLNENL LRFFVAPFPE VFGKEKVNEL SKDIGSESTE DQAMEDIKQMEAESISSSEE IVPNSVEQKH IQKEDVPSER YLGYLEQLLR LKKYKVPQLE IVPNSAEERLHSMKEGIHAQ QKEPMIGVNQ ELAYFYPELF RQFYQLDAYP SGAWYYVPLG TQYTDAPSFSDIPNPIGSEN SEKTTMPLW

>sospitosa2

QYSSNTQQGR TSIVHLFEWR WVDIALECER YLAPKGFGGV QVSPPNENVA IHNPFRPWWERYQPVSYKLC TRSGNEDEFR NMVTRCNNVG VRIYVDAVIN HMCGNAVSAGTSSTCGSYFNPGSRDFPAVP YSGWDFNDGK CKTGSGDIEN YNDATQVRDC RLSGLLDLALGKDYVRSKIAEYMNHLIDIG VAGFRIDASK HMWPGDIKAI LDKLHNLNSN WFPEGSKPFI YQEVIDLGGEPIKSSDYFGN GRVTEFKYGA KLGTVIRKWN GEKMSYLKNW GEGWGFMPSDRALVFVDNHDNQRGHGAGGA SILTFWDARL YKMAVGFMLA HPYGFTRVMS SYRWPRYFENGKDVNDWVGPPNDNGVTKEV TINPDTTCGN DWVCEHRWRQ IRNMVNFRNV VDGQPFTNWYDNGSNQVAFGRGNRGFIVFN NDDWTFSLTL QTGLPAGTYC DVISGDKING NCTGIKIYVS DDGKAHFSISNSAEDPFIAI HAESKL

>sospitosa3

QQNLPQRYIE LVVVADHRVF MKYNSDLNTI RTRVHEIVNF INGFYRSLNI HVSLTDLEIWSNEDQINIQS ASSDTLNAFA EWRETDLLNR KSHDNAQLLT AIELDEETLG LAPLGTMCDPKLSIGIVQDH SPINLLMGVT MAHELGHNLG MEHDGKDCLR GASLCIMRPGLTKGRSYEFSDDSMHYYERF LKQYKPQCIL NKP

>sospitosa4

LIVTQTMKGL DIQKVAGTWY SLAMAASDIS LLDAQSAPLR VYVEELKPTP EGDLEILLQKWENGECAQKK IIAEKTKIPA VFKIDALNEN KVLVLDTDYK KYLLFCMENSAEPEQSLACQCLVRTPEVDD EALEKFDKAL KALPMHIRLS FNPTQLEEQC HI

Page 104: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

103CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.2.2 Exercici 2

Aquest exercici posa en relació la bioinformàtica i la filogènia, la ciència que estudia l’evo-lució i les relacions evolutives entre les espècies.

Construcció d’un arbre filogenètic dels primats

En aquesta activitat es construirà un arbre filogenètic usant 5 seqüències homòlogues d’ADN provinents de primats. Aquestes seqüències han estat fetes per l’exercici, és per això que no es pot deduir cap estimació real de distància genètica a partir d’elles, crear un arbre filogenètic a partir de dades reals, requeriria de seqüències molt més llargues. Tanmateix, les seqüències fictícies (taula 1) han estat triades per donar una visió raonablement acura-da de les relacions entre primats.

Taula 1: Cinc seqüències d’ADN de primats

Primat Seqüència

Neanderthal (n) TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCC

Humà (h) TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCC

Ximpanzé (c) TGATCCTGCAGTCCTCTTCTGGCGCCCTGGGCGCGTGCGGTTGTCC

Goril·la (g) TGGACCTGCAGTCATCTTCTGCCCGCCCGAGCGCTTGCCGATGTCC

Orangutan (o) ACAACCTGCACTCCTATTCTGCCGAGCCGGGCGCGTGGCAAAGTCC

1. Compteu el nombre de diferències entre cada parell de seqüències, i anoteu-les a la taula 3, com a l’exemple que apareix sota aquestes línies.

Nota: al material suplementari trobareu tots els exercicis per tal de que els pugueu utilitzar durant aquesta pràctica.

Taula 2a: Comparació de les seqüències de Neanderthal i humà

n TGGTCCTGCAGTCCTCTCCTGGCGCCCCGGGCGCGAGCGGTTGTCCh TGGTCCTGCTGTCCTCTCCTGGCGCCCTGGGCGCGAGCGGATGTCC

Diferències: 3

Page 105: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

104CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Taula 2b: Comparació de les seqüencies de ximpanzé i goril·laà

c TGATCCTGCAGTCCTCTTCTGGCGCCTGGGCGCGTGCGGTTGTCCg TGGACCTGCAGTCATCTTCTGCCCGCCGAGCGCTTGCCGATGTCC

Diferències: 11

Taula 3: Diferències entre les seqüències de primats

Neanderthal Humà Ximpanzé Goril·la OrangutanNeanderthal 0 3Humà 3 0Ximpanzé 0 11Goril·la 11 0Orangutan 0

El número de nucleòtids diferents dividit pel nombre total de nucleòtids de cada seqüèn-cia (en aquest cas, 46) ens donarà com a resultat la distància proporcional entre dos se-qüències.

2. Considereu les dos espècies amb les seqüències més similars: Neanderthal i humà. La seva diferència entre parells de nucleòtids és 3 i per tant la seva distància proporcional serà (3/46 = 0.065). Escriu els resultats a la taula 4.

Taula 4: Distàncies evolutives entre els ancestres primats i els primats

Diferències Diferència proporcional

Neanderthal i humà 3 3/46 = 0.065Neanderthal/humà i ximpanzéNeanderthal/humà/ximpanzé i goril·laNeanderthal/humà/ximpanzé/goril·la i orangutan

Es considera que la seqüència consens de dos espècies és el seu ancestre. En aquest exer-cici, no calcularem directament la seqüència consens de per exemple els Neanderthals i els humans, el que farem serà calcular la distància evolutiva entre l’ancestre Neanderthal/humà i tota la resta de primats en el grup.

Page 106: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

105CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

3. Calculeu la distància entre la seqüència consens dels Neanderthal i humans, i tota la resta de les espècies de primats i anoteu les dades a la taula 5a.

Hi ha quatre diferències entre Neanderthal i el ximpanzé i cinc entre els humans i el xim-panzé. D’aquesta manera la distància mitja entre el Neanderthal/humà i el ximpanzé és 4.5.

Hi ha 11 diferències entre el Neanderthal i el goril·la, i dotze entre l’humà i el goril·la. Així doncs, la distància mitja entre Neanderthal/humà i ximpanzé és 11.5.

Taula 5a: Diferències entre les seqüències de l’ancestre Neanderthal/humà i la resta de primats

Neanderthal/Humà Ximpanzé Goril·la Orangutan

Neanderthal/Humà

0 (4+5)/2= 4.5 (11+12)/2= 11.5

Ximpanzé (4+5)/2= 4.5 0Goril·la (11+12)/2= 11.5 0Orangutan 0

4. Com abans, aquestes distàncies es poden transformar en diferències proporcionals, dividint el nombre de nucleòtids de cada seqüència (46). Calcula la distància proporci-onal entre la seqüència mitja de Neanderthal/humà i tota la resta d’espècies de primats. Anoteu les dades a la taula 4.

En el cas del ximpanzé, la distància proporcional respecte l’ancestre Neanderthal/humà és 4.5/46 = 0.98.

Qüestions

Un cop tingueu construït l’arbre, podreu contestar algunes preguntes.

d. En el vostre arbre filogenètic, quant temps fa que els goril·les i els humans van diver-gir d’un ancestre comú? I els orangutans respecte als humans?

e. Podríeu saber si aquestes i les altres estimacions del vostre arbre són correctes?

f. Per què podria ser que els arbre filogenètics construïts a partir de diferents regions d’ADN donin com a resultats arbres amb distàncies diferents?

g. Quines regions d’ADN utilitzaríeu per comparar organismes que són propers evo-lutivament entre ells?

h. Quins tipus de gens hauríeu de fer servir per comparar organismes que es troben evolutivament allunyats?

Page 107: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

106CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

i. Què hauríeu de fer en el cas de trobar seqüències que quan són comparades mostren gaps (forats), deguts a insercions o delecions?

j. Per quina raó aquest mètode de simplement comparar el nombre de diferències po-dria no funcionar si comparéssiu organismes que són molt diferents? Recordeu que hem assumit que tots els nucleòtids de la seqüència mutarien en 20 milions d’anys.

k. Podríeu pensar en altres raons per les quals potser aquest mètode per calcular dis-tàncies evolutives no és tan bo? Quines simplificacions hem fet?

l. Per què quan estem estudiant dos organismes que són molt distants evolutivament, és millor comparar seqüències d’aminoàcids, què no pas seqüències d’ADN?

m. En aquest exercici, ens hem concentrat en trobar quan les 5 espècies de primats van divergir entre elles (l’escala de l’arbre). Sovint, però, no sabem l’ordre en que les espècies van divergir entre elles (forma de l’arbre). Com sabem per exemple que els humans i els ximpanzés estan més a prop evolutivament que els goril·les i els xim-panzés? Si l’última hipòtesis fos certa com serien les diferències de seqüència a la taula 3?

Page 108: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

107CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.2.3 Exercici 4

Aquest exercici tracta temes relacionats amb la genòmica bàsica i la bioinformàtica, com l’alineament per a buscar diferències entre seqüències.

Pèrdua de visió

En Marc i la Maria estan esperant un nen. Des de fa poc el Marc pateix Retinitis Pigmen-tosa, una enfermetat dels ulls. Sempre ha tingut problemes amb la seva visió nocturna, i en els últims anys això ha anat empitjorant. Hi ha una gran probabilitat que en 20 anys es quedi completament cec. La mare d’en Marc també té aquesta malaltia: és una malaltia hereditària. La Maria i en Marc volen saber si el seu fill també tindrà la malaltia.Retinitis pigmentosa es el nom que es dona a un grup de malalties hereditaries que afecten la retina. Els pacients no poden veure bé en la foscor i amb el temps la retina es va dete-riorant i el camp de visió del pacient es redueix. Encara no es coneix un tractament eficaç per a la malaltia.

La Maria i el Marc demanen ajuda al científic Dr. Van Steveninck, que comença a invers-tigar la malaltia i el risc que corre el nen. El pots ajudar contestant les següents preguntes.

Pas 1:

La Retinitis Pigmentosa es produeix degut a canvis en l’ADN. L’ADN es troba en pràctica-ment totes les cèl·lules del cos i codifica per nombroses proteïnes.

Page 109: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

108CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

A.- Ordena els següents passos que porten a la síntesis de proteïnes:

1.- Després del plegament dels amino àcids: una proteïna

2.- TTATCCGGGCTGATGGATGATCAT

3.- Metionina – Isoleucina – Isoleucina – Histidina – Glutamina – Prolina – Glicina 4.- AUGAUCAUCCAUCAGCCCGGAUAA

El mRNA es llegeix en forma de codons. Un codó o triplet està format per tres bases. Per exemple AUG.

B.- Per quin amino àcid codifica AUG? Utilitza la següent taula:

El doctor van Steveninck sap que la Retinitis Pigmentosa sovint és causada per una mu-tació en el gen de la rodopsina. La rodopsina és una proteïna fotosensible que es troba a l’ull. En una base de dades especial a internet es pot trobar la seqüència de la rodopsina. Té aquest aspecte:

>RodopsinaEstandard

augaauggcacagaaggcccuaacuucuacgugcccuucuccaaugcgacgggugugguacgcagccccuucgaguacccacaguacuaccuggcugagccauggcaguucuccaugcuggccgccuacauguuucugcugaucgugcugggcuuccccaucaacuuccucacgcucuacgucaccguccagcacaagaagcugcgcacgccucucaacuacauccugcucaaccuagccguggcugaccucuucaugguccuagguggcuucaccagcacccucuacaccucuc

Page 110: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

109CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

ugcauggauacuucgucuucgggcccacaggaugcaauuuggagggcuucuuugccacccugggcggugaaauugcccugugguccuuggugguccuggccaucgagcgguacguggugguguguaagcccaugagcaacuuccgcuucggggagaaccaugccaucaugggcguugccuucaccugggucauggcgcuggccugcgccgcacccccacucgccggcugguccagguacauccccgagggccugcagugcucguguggaaucgacuacuacacgcucaagccggaggucaacaacgagucuuuugucaucuacauguucgugguccacuucaccauccccaugauuaucaucuuuuucugcuaugggcagcucgucuucaccgucaaggaggccgcugcccagcagcaggagucagccaccacacagaaggcagagaaggaggucacccgcauggucaucaucauggucaucgcuuuccugaucugcugggugcccuacgccagcguggcauucuacaucuucacccaccagggcuccaacuucggucccaucuucaugaccaucccagcguucuuugccaagagcgccgccaucuacaacccugucaucuauaucaugaugaacaagcaguuccggaacugcaugcucaccaccaucugcugcggcaagaacccacugggugacgaugaggccucugcuaccguguccaagacggagacgagccagguggccccggccuaa

La seqüència té una longitud de 1047 bases.

El doctor van Steveninck vol comparar la seqüència de la rodopsina del fill de la Maria i el Marc amb la seqüència estandard. El doctor seqüencia especificament aquest gen i n’obté la següent seqüència:

>RodopsinaNen

augaauggcacagaaggcccuaacuucuacgugcccuucuccaaugcgacgggugugguacgcagccccuucgaguacccacaguacuaccuggcugagccauggcaguucuccaugcuggccgccuacauguuucugcugaucgugcugggcuuccccaucaacuuccucacgcucuacgucaccguccagcacaagaagcugcgcacgccucucaacuacauccugcucaaucuagccguggcugaccucuucaugguccuagguggcuucaccagcacccucuacaccucucugcauggauacuucgucuucgggcccacaggaugcaauuuggagggcuucuuugccacccugggcggugaaauugcccugugguccuuggugguccuggccaucgagcgguacguggugguguguaagcccaugagcaacuuccgcuucggggagaaccaugccaucaugggcguugccuucaccugggucauggcgcuggccugcgccgcacccccacucgccggcugguccagguacauccccgagggccugcagugcccguauggaaucgacuacuacacgcucaagccggaggucaacaacgagucuuuugucaucuacagguucgugguccacuucaccauccccaugauuaucaucuuuuucugcuaugggcagcucgucuucaccgucaaggaggccgcugcccagcagcaggagucagccaccacacagaaggcagagaaggaggucacccgcauggucaucaucauggucaucgcuuuccugaucugcugggugcccuacgccagcguggcauucuacaucuucacccaccagggcuccaacuucggucccaucuucaugaccaucccagaguucuuugccgagagcgccgccaucuacaacccugucaucuauaucaugaugaacaagcaguuccggaacugcaugcucaccaccaucugcugcggcaagaacccacugggugacgaugaggccucugcuacaguguccaagacggagacgagccagguggccccggccuaa

També aquesta seqüència té 1047 bases.

Page 111: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

110CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Pas 2.-

A.- Aquestes dues seqüències codifiquen per la proteïna de la rodopsina. Son seqüències d’ADN or de mARN? Com ho pots saber?

B.- Per a quin amino àcid codifica el primer codó? I l’últim? Pots fer servir la taula pro-porcinada anteriorment.

A simple vista no és facil veure si hi han diferències entre les dues seqüències de rodopsi-nes. Però amb l’ajuda de l’ordinador és senzill comparar les dues seqüències. Aquest procés és conegut amb el nom d’aliniar. Un dels programes que es poden utilitzar és ClustalW.

Segueix els següents passos:

1.- Ves a la pàgina web de EMBL-EB (http://www.ebi.ac.uk/). Ves al menu anomenat Tools que es troba a la part superior de la pàgina i busca Sequence analysis. En el sub- menú que s’obre apreta sobre ClustalW.

2.- Tots els paràmetres es poden deixar per defecte, l’únic que farem servir és el requadre blanc. Copia els dos gens proporcionats en el fitxer rodopsina.txt en el requadre.

3.- Apreta el botó “Submit” i espera a que el programa et retorni els resultats.

En la pagina de resultats que s’obre automàticament apreta el botó: Show colors.

Pas 3.-

En l’aliniament hi han grups de tres linies. La primera linia conté la seqüència de la ro-dopsina estàndard. La segona conté la rodopsina del nen i la tercera mostra, per a cada posició, la similitud entre les bases de les dues seqüències. Un asterisc indica que les dues bases són iguals. Mentre que si són diferents veureu un espai en blanc.

A.- Quantes diferències ets capaç de trobar entre les dues seqüències?

B.- Troba la segona diferència. Quin és el codó de la rodopsina estandard? I quin és el codó del nen? (Cada linia comença amb un nou codó)

C.- Per a quin amino àcid codifica aquest codó en la rodopsina estàndard?

D.- I en la del nen?

E.- Les altres diferències entre les dues seqüències les pots trobar en el full de respostes. Troba per a cada codó diferent la base que els diferencia i per a quin aminoàcid codifiquen.

Pas 4.-

A.- Sota l’aliniament podeu veure que les dues seqüències tenen 1047 bases. Tres bases codifiquen per a un amino àcid. Quants amino àcids conté la proteïna de la rodopsina?

Page 112: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

111CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

B.- En quina posició trobem el primer amino àcid mutat?

C.- Completa la taula del full de respostes. Aquesta taula la necessitarem després per a la visualització de les mutacions.

Yasara és un visualitzador d’estructures protèiques tridimensionals.Segueix els passos:

1.- Inicia Yasara.

2.- Carrega el fitxer de la rodopsina. Al menú superior segueix els links: File > Load > PDB file. Tria el fitxer anomenat rhodopsin.pdb i apreta OK.

3.- Si mous el cursor cap a la part inferior de la pantalla de Yasara, veuràs que apareix la taula de la seqüència. Aqui veuràs els amino àcids de la proteïna.

4.- Si apretes sobre un dels amino àcids de la taula de seqüència, veuràs que l’àtom de carboni central d’aquest aminoàcid comença a brillar. Si apretes Ctrl a la vegada que un amino àcid de la taula, l’estructura es mourà fins a centrar-se en aquest amino àcid.

5.- Amb el ratolí pots moure la proteïna mantenint apretat els botóns. Botó esquerre: Fa girar la proteïnaBotó central: Mou l’estructura de lloc.Botó dret: fa un zoom.

Pas 5.-

A.- Quins elements de la taula periòdica estan representats per les diferents boles de colors (verd, blau, vermell, ...) ?

Apreta el botó F6. L’estructura es veu ara representada d’una altra manera. Les hèlix (espi-rals) que pots veure són estructures secundaries que es troben en les proteïnes. En aquest cas s’encarreguen d’anclar la proteïna a la membrana. Entre les hèlix trobem una petita molècula: el retinal.

Page 113: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

112CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

El retinal canvia de forma al trobar-se exposat a la llum. El retinal inactiu (estructura cor-vada) no dona cap senyal al cervell. El retinal actiu (estructura recta) si que dona senyal al cervell.

B.- El retinal que veieu a la proteïna està actiu o inactiu ?

Mutacions en la rodopsina:

Quan un amino àcid canvia, no vol dir imediatament que la proteïna perdi la seva funció. Per saber quan una mutació realment afecta la funció de la proteïna els científics investi-guen l’estructura tridimensional de la proteïna.

Per poder distingir correctament els diferents llocs on hi han hagut mutacions, pintarem tota la proteïna de blanc. Podeu observar aquesta imatge carregant un nou fitxer (File > Load > Complete scene i escollin el fitxer rhodopsin.sce. Apreteu sobre OK). En la nova imatge veureu tres colors:

n. Taronja: Marca el grup retinal. La molècula en si està rodejada d’una capa taronja que indica el tamany real de les molècules que formen el retinal.

o. Verd: El retinal està unit a la rodopsina amb l’amino àcid lisina 296, pintada en verd en la imatge.

p. Blau: Son els aminoàcids mutats en el nen d’en Marc i la Maria.

Ara anirem marcant les mutacions que hem apuntat en el pas 3 sobre la imatge:

1.- Escolleix l’amino àcid Lys, situat a la posició 296, en la llista d’amino àcids que trobes a la part inferior de la pantalla. Veuràs que un atom comença a brillar. Aquest atom uneix el retinal amb la proteïna.

2.- Ara apreta amb el botó dret sobre l’atom brillant. Del menú escolleix: Swap > Residue. De la llista d’amino àcids que s’obre escolleix l’amino àcid Glu.

Page 114: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

113CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

3.- El nou aminoàcid ja no es pot veure tant bé. Torna a seleccionar l’aminoàcid (si no el veus torna a la llista i selecciona Glu 296, recorda que apretant Ctrl a la vegada que apretes sobre l’amino àcid de la llista centrarà la imatge sobre ell). Ara selecciona la bola brillant altra vegada amb el botó dret del ratolí i escolleix: Show atoms > Residue sidechain & CA. Ara l’estructura de l’amino àcid ve indicada amb línies. Pots veure que l’amino àcid ja no està unint la proteïna i el retinal. I aquesta és la causa per la qual la rodopsina és incapaç de transmetre la senyal al cervell.

Page 115: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

114CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.3 Entrevista amb Annick Labeeuw i Cedrik Magis (CRG)

El primer cop que vaig anar al CRG, vaig tenir una reunió juntament amb la meva tu-tora i en Cedrik Magis i Annick Labeeuw per part del centre per tal d’orientar-me en el seguiment del treball per part seva, en aquesta trobada ambdós van respondre la majoria de preguntes proposades a Sóc Genòmic, la presentació d’aquest treball, per a realitzar al doctor Roderic Guigó.

15 Com accedeixen al CRG els estudiants de beques, Màsters i Doctorats?

Annick: Ho fan de manera espontània, en algun moment el cap del CRG té diners o una beca per adjudicar, i fa una sèrie d’entrevistes. Tot i que també hi ha un moment a l’any en el que rebem moltes trucades, per aplicar per un Màster o Doctorat, això està obert a tothom, tots els estudiants independentment d’on siguin, no fem segregacions dient “vo-lem x% de catalans, x% de belgues, x% de frances...” El major problema que tenim és amb els alumnes de la UPF, que creuen que és massa dificil entrar, així que no envien els seus currículums. El que passa es que, amb la crisi, el pressupost públic s’ha reduït, però hem pogut trobar més beques, per exemple als països emergents...

Cedrik: Qatar foundation amb tot els diners que no saben que fer.

Annick: Per l’ambient que es viu a Espanya, estem be, de moment hem crescut

Cedrik: estem be, per exemple en bioinformàtica necessitem menys recursos, ja que po-dem arribar a treballar amb ordinadors portàtils, en canvi en el cas dels laboratoris expe-rimentals, la maquinària es compra per a tothom, forma part d’un pressupost global del centre, al contrari del que passa a moltes universitats, on cadascú ha de jugar amb el seu pressupost, en centres així, la gestió de l’equipament es més fàcil.

16- Una pregunta que tots ens fem, aquest temps de crisi econòmica, com es gestionen els recursos?

Annick: Podríem dir que ens gestionem molt bé, els diners del CRG són en un 40% diner públic (procedents tant de Catalunya com de Madrid) i el 60% de beques, ja siguin públi-ques d’Europa, Espanya i França com d’empreses farmacèutiques.

17-Com es financen aquests projectes científics?

Depèn, la majoria amb beques publiques, tot i que ara mateix no és el cas, ara tenim un nou projecte de còpia de la base de dades de l’EBI, que es un projecte europeu, la beca Severo Ochoa... Aqui hi tenim gent que es dedica a buscar beques (el tema es buscar fi-nançament, però els projectes s’han de presentar, a Europa per exemple, cada any hi ha diferents projectes oberts, i hi poden haver laboratoris en 7 països diferents, per això te-nim gent treballant en això, es molt de papereig, s’han d’omplir informes... A vegades es

Page 116: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

115CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

proposen contractes a grups farmacèutics, en que nosaltres fem part de la investigació que ells no volen gastar els diners, que significa pagar algú durant bastant de temps, pagar tot l’equipament... Per això els és més fàcil i barat fer col·laboracions, per tenir pocs diner dedicat a això.

Preguntes genèriques sobre genòmica:

18-Que s’estudia al CRG?

Annick: Doncs moltes coses, hem participat en la publicació de mes de 1000 articles en 10 anys (el 2012 a 192), el punt comú és l’estudi del genoma, com funciona la cèl·lula...

Cedrik: És biologia a un altre nivell, intentar fer un pas endavant, integrar més informació, usant el genoma, les eines, per intentar estudiar l’organisme, intentem comparar amb el genoma... Intentar fer la investigació que es feia abans però a una escala més petita perquè no hi havia la quantitat de persones ni la tecnologia necessàries, ara tenim les dues coses, aleshores intentem entendre la manipulació del genoma en tots els aspectes.

19-Com interaccionen la informàtica i la genòmica?

Cedrik: la genòmica, com sabem, són 3x10^6 parells de bases, es pot posar en un disc dur, però si s’ha de llegir tot això no es pot fer, el primer genoma seqüenciat va ser als anys 60, d’un bacteri, molt petit, ara si volem fer el que s’anomena metanàlisi, intentar entendre tot, treure els gens... la quantitat d’informació que es pot generar amb un genoma, i ara a sobre que en tenim tants centenars, és impossible de manipular ni llegir a escala humana. Aleshores, sense la informàtica, la genòmica té un futur sense existència perquè a la ve-gada s’han desenvolupat la informàtica, la capacitat de càlcul, d’emmagatzematge, perquè de moment hi ha uns límits, ara passem a Petabit d’emmagatzematge i creixent, ja hi ha centres que no poden emmagatzemar les dades... Aleshores, sense la informàtica, no hi pot haver genòmica.

20- Quins tipus de projectes se’n deriven, d’aquesta interacció?

Annick: Ara mateix gairebé tots els de la biologia.

Cedrik: Sempre es poden utilitzar eines d’ informàtica i bioinformàtica en qualsevol pro-jecte. A partir del moment en que s’analitza DNA, RNA, proteïnes... tot el que deriva de la informació genètica, el que deriva de seqüencies de la informació que tenim, es pot aplicar.

Annick: Tots els projectes del CRG tenen bioinformàtica

Page 117: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

116CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

21- Quins son els objectius d’aquests projectes?

Annick: Tots els objectius dels projectes del CRGCedrik: La idea bàsica es entendre la biologia, quan la entenem proposem un model, que a vegades quan tenim mes coneixement es modifica, després es corregeix i si afegim més informació podem afinar els models, així com ara es simula una explosió termonuclear sense fer-la ja que hi ha models físics que expliquen com passarà, aleshores es el mateix, no podem caracteritzar cada proteïna, no es pot tenir tota la informació d’aquesta, per això hi ha tant sovint compenetració entre grups experimentals i grups de bioinformàtica, per veure com ens equivoquem.

23- Els Parcs Científics seran la solució al futur en la investigació en general?

Annick: Bé, es un model, aquí a part del CRG, que té un model de funcionament de finan-çament públic i funcionament privat, hi ha altres centres que comparteixen uns serveis cientifico-tècnics, per exemple l’estabulari, que està disponible per a tothom, els micros-copis, en què tenen preferència els investigadors del CRG i després per la resta de gent de l’edifici, el Cluster també és compartit.

Cedrik: Els superordinadors com aquest són compartits, i també tenim accés al Super-computing Centre de Barcelona, que està disponible per a tots els grups d’investigació de Barcelona, fet que és únic.

Annick: La idea del Parc, a part de compartir, és poder ajuntar gent que fa recerca bàsica (entendre per entendre) amb gent d’investigació aplicada (fàrmacs tractaments...) la idea és combinar els dos tipus.

Cedrik: També tenim coses senzilles i després aplicades, així com serveis de patents. Tot i això, no crec que sigui la solució del futur, el que es necessita són universitats, es fan coses bones, però disposen de pocs diners, i el que fan allà que aqui no fem és el tema de la for-mació, sempre he fet estades a universitats a França, cosa que aquí no he pogut fer, ales-hores és més complementari, aquí no fem més que ciència ciència ciència i ens quedem autistes, per això hi existeix el departament de comunicació, que pretén obrir-nos, perquè també comuniquen i comparteixen la informació

Annick: és complementari, la solució és...

Cedrik: La inversió en el tema de microestat (gran estat petit estat), és complementari, a vegades en carda domini la gent es coneix, així la gent de la Universitat de Barcelona i de la Universitat Autònoma de Barcelona no es coneixen, només col·laboren, aquí, en canvi, ens coneixem com a persones, i no pas per on treballem.

Page 118: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

117CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

24-Què és el projecte ENCODE? Quins objectius planteja? Quins han estat els resultats mes rellevants del projecte?

Annick: Aquesta resposta l’obtindràs tu amb el teu treball.

25-Un cop obtinguda la seqüència el genoma humà, què ha significat aquest projecte en l’estudi del genoma en els treballs que es desenvolupen a l’actualitat?

Cedrik: De res, segurament em criticaran per això, però és el mateix que si jo demà et dono El Quixot en alemany, no el podràs llegir. Gràcies al projecte tenim la informació bàsica, té la seva importància, com tenir un llibre, pero en so mateix no ha donat res més, sinó s’hagués fet, els demés estats com ara els EUA no haguessin invertit tant en aquesta investigació, se sabia que era el primer pas, però tot el que s’ha fet després és obtenir el dic-cionari, el lèxic, si et dic una paraula i no tens un traductor que t’ajudi a saber si es un verb, un adjectiu... S’ha d’extreure això; ara hem passat al projecte 1000 genomes, per trobar la variació a la població, de la que no en tenim ni idea, potser tindrem moltes sorpreses, ENCODE, per exemple, és la enciclopèdia dels elements del DNA, ara s’ha passat a veure on es trobava a nivell de seqüència tot el que es sabia que existia, com els RNA no codifi-cants, i no es troba més que del que ens pensàvem. Per si mateixa la seqüència, de la qual en tenim moltes, per ella mateixa no ens diu res, és a dir, per exemple, tenim la seqüència del VIH, però, en tenim la cura? No. Per tant, depèn del nivell, que va després, aquí entra la medicina personalitzada, però estem en el pas de veure el genoma i com funciona.

26-Com es treballa metodològicament aquest projecte?

Això també ho veuràs en la teva estada al CRG.

27- Podria breument detallar-me quins mètodes d’anàlisi i les tecnologies que con-flueixen en un estudi ? De totes les dades que s’obtenen, com es quantifiquen i qui les analitza, per treure’n conclusions?

En el teu cervell no hi ha res planificat, tu ho planifiques segons el que vols veure, vols veu-re allò? Doncs ho veuràs o t’ajudarem, perquè tenim una visió mes ample. A vegades ens sortim del camí (podria ser això o això altre...) no hi ha una fitxa, es treball d’investigador, pensar, per això es considera que entre el 10 i el 15% del temps setmanal d’un investigador és la recerca bibliogràfica, perquè si ja s’ha fet, no cal refer-ho. A vegades també es pot in-vestigar publicacions antigues, quan encara es tenia poca informació i corregir-ne errors.

28-Com s’aconsegueix el material genètic a utilitzar en les investigacions projectades ?

Annick: La bioinformàtica son dades informatitzades, el material genètic, quan tenim un estudiant li traiem (riuen)... és variable, a vegades, en el cas de l’lBM, es treballa amb teixits de pacients reals de l’hospital que tenen el mateix tipus de càncer, es recuperen les mostres

Page 119: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

118CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

de càncer per a comparar-les, això és live, amb teixit humà. A vegades si són cèl·lules de-pèn de l’animal, normalment s’utilitzen mosques, fan una cura i recuperen l’RNA i DNA. També hi ha molta recerca que es pot fer perquè tenim les dades, el que falta és cervell, a vegades si es vol treballar amb teixits també es fa, al laboratori o amb la informació dispo-nible, i obtenim informació, i qui la té la posa en bases d’informació, així ja esta disponibleHi ha bases d’informació, tot el que es fa públic roman públic, en el cas d’empreses queda en privat. Però tenim accés a milers i milers de bases.

Cedrik: Si, però ells tenen informació específica que no es coneix, però és molt important en quantitat, cada cop que proven molècules, tot els resultats que són negatius per a ells, tota aquesta informació la tenen perquè han pagat, aquesta informació d’estructures de proteïnes per exemple, no se sap quina és. De vegades, però, hi ha acords d’intercanvi d’informació.

29-Quina part de l’ investigació representa una avenç per l’estudi del genoma , quan es pot valorar el seu interès, com si arriba i com es transvasà els resultats a les seves funcions en els organismes?

Cedrik: Hi ha moltes coses que poden ser, no a nivell d’investigació, hi ha tecnologia, hi ha programació, persones que ho han fet gratuïtament, la gent se’n recorda d’ Steve Jobs, que feia material bo pero per negoci, però no de gent que revoluciona un domini, la tecnologia dels seqüenciadors, la gent que ha revolucionat el sistema. En un principi era tecnologia química, tallar el DNA afegir-lo d’un en un... ara el mètode és més ràpid, i hi ha altres tec-nologies, també es necessitaven models matemàtics, per recuperar i multiplicar material genètic, ara amb una cèl·lula es pot seqüenciar, perquè els biòlegs han trobat gracies als bacteris totes les eines de biologia. Aquestes venen de microorganismes, gràcies a les pro-teïnes de bacteris tenim les PCR, aleshores és un conjunt a nivell de seqüenciar, sintetitzar, analitzar, després de aplicar l’estadística, per saber si ens hem equivocat...

30-Quines poden les aplicacions dels resultats d’aquest projecte ENCODE tant en el camp de la recerca com en les aplicacions tècniques en biologia i medicina?

Cedrik: Jo crec que se li hauria de preguntar a Roderic, el problema és que ENCODE és encara molt, encara provoca controvèrsia a la comunitat, el fet que existeixi una enciclo-pèdia no es nega, la quantitat i proporció no es coneixen, encara s’han de fer experiments, investigar, veure quin és realment el projecte d’aquestes coses, i si tenen funció, potser fan coses o potser no. Ara mateix és una porta oberta a més anàlisis, es per anar pas a pas, cap endavant, realment se sap que hi ha trossos del genoma que són RNA que no codifica, però potser si hi ha mutacions que modifiquen malalties conegudes, potser hi ha malalties conegudes que són degudes a canvis aquí i no pas als gens. Això es pot utilitzar en biologia per modificar teràpies, entendre què significa, és com ara fa 20 anys el debat dels gens del genoma, hi havia gent que deia que n’hi havia 1000, 5000, 30000... Bé, doncs encara no

Page 120: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

119CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

hi ha un nombre precís, perquè ha canviat la noció de gen, ara es diu que poden ser entre 20000 i 22000. Hi ha molts debats, gent que diu que no podem tenir la mateixa cuantitat de gens que el llevat... i aleshores ENCODE és valent encara, és un pas, encara no s’ha acabat el projecte (s’ha publicat molt, i vegades quan hi ha controvèrsia (grups que no es-tan d’acord) s’avança més ràpidament, “no estic d’acord amb això, doncs aviam qui ho diu abans, es un repte, es sà, el fet de criticar treballs científics es bo, no dir que tot el que està escrit és veritat, no s’ha de donar res per absolut.

31-Què implica que els resultats d’una investigació com el Projecte ENCODE, modifi-quin la idea prèvia que la comunitat científica te sobre què són els gens i què fan?

Pregunta ja contestada

33-Què és el DNA escombraria?

Cedrik: Abans quan es contaven els gens es deia que acabaven i començaven, i es veia que corresponien al 15% del genoma, i el que no corresponia a proteïnes era el 2%, exons i introns, aleshores quedava més del 90% del DNA del qual no se sabia res, s’anomenava DNA escombraria, personalment no m’agrada aquest nom, perquè hi ha regions que tenen funció estructural, histones... No perquè no correspongui a un gen ha de ser escombraria, hi ha altres fragments, més categories d’RNA, abans quan jo estudiava només n’hi havia 3, ara n’hi ha moltes més.

Preguntes específiques relatives al Treball de Recerca

M’agradaria fixar el tema del meu Treball de Recerca en la Hormona del Creixement Humà, des de la seva localització en el genoma, com s’estudien les anomalies que pro-voca el dèficit d’aquesta. En la consideració de que aquest dèficit pot estar provocat per algun tipus d’ error a l’hora de la transmissió de la informació genètica o bé en la traducció d’aquesta:

34-Poden els resultats del Projecte ENCODE donar llum a aquest tema?

Cedrik: No ho se, a veure... El gen és conegut, així que es pot mirar, mirar on es troba el gen de l’HGH i comparar-ne el locus amb el que s’ha vist a ENCODE, que de fet és només un mapa dels punts del DNA que no són gens, el que abans era “escombraria” i que estigui transcrit i pugui tenir una activitat. Mirar el gen a veure si hi ha alguna cosa al costat que pugui tenir una influència en el nivell d’expressió o inhibició d’aquest.

Page 121: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

120CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

35-Com creu que els resultats i investigacions tant del Projecte del Genoma Humà com del projecte ENCODE poden ajudar en el tractament de dèficits en pacients amb HGhD?

Cedrik: Això depèn dels resultats de la pregunta 34, però de moment no crec que s’estigui a punt de trobar quelcom en la modificació de la regulació que pugui ser important, però en el tractament no crec que es pugui canviar res, potser més aviat seria actuar millor, però modificar un fetus és un punt complicat, aquí entrem en ètica, apart d’això, no s’hi fa mai un anàlisi genètic, ja que s’ha de recuperar teixit, i per a una dona menor de 35 anys, el risc d’avortament espontani es més alt que el de trobar una malaltia, aleshores arriscar a tenir un avortament en 3%, un de 10000 o 50000 casos per trobar una deficiència no important no és viable, no es pot fer. 36-Quin tipus d’anàlisi informàtic s’ha d’utilitzar/es l’adequat per estudiar els HGhD?

Això ho veuràs en la teva part pràctica.

37-Algun cop ha treballat en algun projecte en l’àmbit relacionat amb l’hormona del creixement humà?

Cedrik: Si, a nivell de proteïnes, de disseny, la utilitzava com a referència per veure perquè un cop tenim l’estructura hi ha altres eines informàtiques per a veure propietats fisicoquí-miques, aleshores es pot veure el potencial elèctric, no nomes les càrregues, es com actua, ho utilitzàvem per a veure amb quines proteïnes interaccionava per saber com interactu-en, és més aviat biofísica.

Consideracions finals

38-Quin és el seu consell per algú es vulgui dedicar a fer investigació, ara, en aquest país?

Annick: El mateix consell que per a qualsevol altre país del món; fer el que t’agrada i estar motivat, i escollir la carrera que més t’interessi, perquè la investigació tracta de coses no-ves, avui treballen físics, matemàtics, veterinaris, psicòlegs, químics, bioquímics, informà-tics, de tot. Han escollit la carrera que els agradava, coneixen les eines i les poden aplicar a la pregunta.

Cedrik: A vegades s’ha de vigilar la feina feta, no s’ha de ser massa ingenu, s’ha de publicar, si no publiquem, ens en anem al carrer, fa poc han negat la beca Ramon y Cajal a un físic espanyol perquè el seu currículum no era bo, però fa poc va rebre el premi al millor inves-tigador de física d’Europa, i ara ve Espanya i li nega la Ramon y Cajal. S’ha de fer una part fonamental i s’ha saber vendre els resultats, per publicar, és igual el país, només pensar en trobar el que t’agrada, així es dirigeix a una àrea que li agrada més.

Page 122: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

121CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

39-Quin es el perfil que es demana per a la investigació en el camp de la genòmica?

Cedrik: Busquen persones especialitzades en una àrea, per exemple, si t’agrada el DNA, a vegades s’ha de manejar i trobar un nivell, si escrius un treball sobre l’RNA no codificant, tens un laboratori però potser d’aquí 5 anysdesapareixerà, en el meu temps va ser l’RNA amb activitat enzimàtica, pero al cap de 5 anys, fora, per això s’ha de ser flexible.

40-Quin àmbit de la recerca és el que té més reconeixement social, científic, mediàtic en aquests moments? Per contra, quin és el que creu que necessita més impuls?

Annick: Ara mateix, les cèl·lules mare, a nivell mediàtic no s’entén res, no se sap el que és, però és el que aixeca més expectació.

Cedrik: És l’últim, abans hi havia el tema d’entendre un organisme sencer, el de les cèl·lules mare és per la capacitat de curar, teòricament es recupera una cèl·lula, així que ens inte-ressa en relació als trasplantaments, no genera rebuig, no cal esperar que la gent mori per obtenir els seus òrgans, així com per moltes coses més, com la reprogramació, perquè no tenim més cèl·lules mare, però no en podem donar. Les proteïnes, perquè són el meu cas, però depèn de modes (on es pot publicar millor).

Annick: El joc és publicar a les millors revistes, és com un reconeixement, les revistes Nature, Science... Per exemple, quan Nature rep un article, el 90% dels cops el llença a la paperera directament, no té interès suficient per a la comunitat científica, així que després de correccions, publicar és com un premi, un reconeixement.

Cedrik: El que necessita impuls serien coses que encara no hem solucionat per proble-mes pràctics, de finançament, per exemple les malalties genètiques rares, que toquen poca quantitat de persones al móm, o també temes que en temes que es creu que es coneixen bé, però que encara es podria investigar.

41-És la genòmica veritablement la biologia del segle XXI?

Cedrik: Crec que la biologia seguirà sent la biologia, bio significa vida, aleshores la ge-nòmica es només una part, la bioquímica per exemple, és una part de la química. És una extensió, una evolució de la biologia, és pel que crec que el domini seguirà sent la biologia.

42-Quines poden ser les conseqüències de fer de lliure accés els resultats de les seves investigacions?

Annick: Aquí tota la informació generada és de lliure accés, ja que el finançament es públic.

Cedrik: Un cop publicat, és de lliure accés.

Annick: Una conseqüència és que aquestes dades poden ser utilitzades per altres persones, que poden arribar a una conclusió diferent

Cedrik: Si, i sempre es gratuït ja que no es pot patentar el Genoma Humà.

Page 123: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

122CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

43- Com es regula la divulgació ?

Annick: Ara es demana, els programes europeus demanen, per atorgar la beca, que el programa tingui una part de divulgació, i el departament de comunicació s’ocupa d’això, el que pot passar és que tinguem projectes i obtinguem beques, però també pot ser que un investigador demani finançament per ell mateix per a un projecte, però és un objectiu important del CRG, fer les coses públiques.

44-Quina és la motivació per divulgar a nivell de població ? S’entén a nivell de la soci-etat tot allò que es diu ?

Annick: És per donar a conèixer el que fem que duem a terme activitats com el Cafè ci-entífic, conferències de Ciència fàcil, activitats per a primària i ESO, batxillerat, activitats per a casals d’estiu, les zones universitàries, portes obertes... El nostre objectiu és arribar al màxim nombre de persones.

Cedrik: A nivell del CRG el que es fa per ensenyar el que fem és, per exemple, jo tinc amics que intenten col·laborar fent xerrades temàtiques. La pregunta és realment el desconei-xement del món a nivell no solsament de biologia, gent que després s’espanta, que vota sense saber, té por de si podrà menjar... El problema és que vivim moltes evolucions, que són difícils d’ingerir, per exemple el debat pel microones, l’escalfament global, que hi ha científics que diuen que no augmenta tant i la gent diu que no cal donar-li importància, la gent està desinformada, es necessita coneixement a la societat.

Annick: Ara, però, el programa europeu H2020 el que farà és que les empreses, els inves-tigadors i la societat treballin conjuntament, no solsament ensenyar a la societat, sinó que aquesta pot preguntar i ensenyar també, interactuar.

Page 124: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

123CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.4. Entrevista amb el doctor Roderic Guigó

Durant la meva estada per a la realització de la part pràctica del treball al centre, vaig tenir la possibilitat de fer-li unes preguntes a Roderic Guigó, contingudes a la presentació del treball.

1.-Què et va moure a treballar en l’àmbit de la biologia i, més concretament, en el de la genòmica?

Què em va moure a treballar en l’àmbit de la biologia? Doncs que quan era molt petit m’agradaven molt els animals, m’agradaven les plantes, tenia molt d’interès en la vida. Però a l’hora de començar la carrera no ho tenia gens clar, perquè també m’agradaven les lletres, de fet, als últims moments del batxillerat em van agradar més les lletres que les ciències, i vaig estar a punt de fer història, enlloc de biologia, però vaig acabar fent biologia.Quan vaig començar biologia, la genòmica encara no existia, així com la bioinformàtica, el que va passar va ser que quan vaig fer biologia em va començar a interessar més aviat la part teòrica, més que no la de laboratori, i vaig aprendre a programar, a fer servir progra-mes i a fer servir els ordinadors, que eren molt diferents dels d’ara. I aleshores vaig fer la tesi, de coses que tenien a veure amb biologia i informàtica, i quan vaig anar a estats units, cap a l’any 1988, allà hi començava a haver les primeres persones que treballaven amb els nous ordinadors i el DNA, jo vaig anar amb un d’aquests grups, a Boston, i allà va ser on vaig aprendre tot el que te a veure amb l’anàlisi computacional etc. i des d’aleshores he estat treballant en aquest camp. Però, que jo decidís quan tenia 17 anys que faria genòmica o bioinformàtica... Quan jo tenia 17 anys, primer, no es podia seqüenciar el DNA, no existia la genòmica, els ordinadors es feien servir per coses molt diferents, no hi havia Internet... era impossible d’ imaginar que el genoma existís. 2.- I va ser allà als EUA on va entrar en contacte amb Craig Venter i CELERA Geno-mics?

No va ser exactament així, jo vaig anar a Boston a un laboratori, i després de dos anys allà vaig anar a Los Álamos, el laboratori que es troba a Nou Mèxic, allà és famós per la bomba atòmica i tot el laboratori súper secret, però després es va iniciar una unitat de biologia, principalment per estudiar els efectes de la radiació sobre els éssers vius, i més tard va ser allà on es va fundar la primera base de dades del DNA, i on vaig continuar amb l’estudi i la recerca, no del genoma, perquè encara no se’n sabia, però si que hi havien certes se-qüències. (4:04) Quan vaig tornar aquí, el camp en el que vaig treballar va ser en el de fer programes (ja sabeu la seqüència del DNA es molt llarga, té moltes lletres en té milions) i només hi ha unes poques regions que es troben en els gens, es creia que vora el 2%, hi ha regions aquí aquí aquí... que contenen els gens, doncs el que jo feia eren programes d’ordinador per observar les composicions de les lletres i per saber on es podien trobar els

Page 125: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

124CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

gens, aleshores això va ser el que vam estar fent durant els anys 94-95. Durant aquets anys vam fer això, i hi va haver un moment en què vam fer un programa amb en Pep Abril, que en aquell temps estava fent la tesi i treballava en una pizzeria, és a dir, que acabava més o menys a les 2 de la matinada i venia a treballar des de les 2 de la matinada a les 8 del matí, i era molt bo en el llenguatge que s’anomena Post-Script, que és el llenguatge que es fa servir, i aleshores ell va fer un programa molt bo per visualitzar el genoma. Era l’únic pro-grama que existia que permetia visualitzar tot el genoma humà, i va resultar que en Craig Venter es va assabentar de la seva existència i ens va demanar si podíem anar a CELERA genomics per adaptar-lo, i així va ser com nosaltres vem entrar en contacte amb en Craig Venter, gràcies a la feina que varem fer aquí després que tornés d’Estats Units.

3.- I quan vas tornar, en aquell moment la situació de la investigació era molt diferent que no pas la d’ara?

No era molt diferent la veritat, estava igual, però a la vegada era molt diferent, en els últims 10 anys (jo vaig arribar l’any 94) des del 94 fins al 2000 era molt diferent dels EUA, era molt pitjor, els sous eren molt baixos, els recursos eren relativament petits, tot i que jo no em puc queixar de la feina que nosaltres fèiem en aquell moment ja que, al ser computacional, no requeria tanta inversió, amb un ordinador i poc més podies treballar més o menys bé. En Pep va estar diversos anys treballant a la pizzeria i després venint amb nosaltres, van passar diversos anys fins que vaig aconseguir una beca, treballant , i al final en Pep es va decidir a deixar el restaurant i treballar amb nosaltres. Després les coses van canviar, vam tenir més inversió a Espanya com també a Catalunya, amb els nous centres de recerca, el programa ICREA... i les condicions eren bones, ara però estan una mica pitjor, però esperem que sigui “momentani”. El que és cert es que tant aquí al CRG com a altres llocs podem fer recerca molt competitiva ara mateix.

4.- És a dir, que la situació actual, el nivell actual de Catalunya, comparat amb altres centres, és bastant igualat, és a dir hi ha bastant nivell?

Bé, el nivell és igual aquí que a EUA, a nivell d’espècie la intel·ligència se suposa que és la mateixa aquí que la dels americans, els suïssos , però també és cert que l’entorn hi fa molt, i aquí tenim uns centres molt bons, però són uns centres que estan una mica aïllats, no és el mateix un arbre en un bosc que un arbre en un desert, un arbre en un bosc té moltes més probabilitats de sobreviure, de ser més alt, que un arbre que està aïllat, hi ha molts llocs que estan molt bé i que estaria bé tenir un bosc que hi creixés al voltant, per ser més alts. Aquest centre (el CRG) és molt bo, però, evidentment, això no es Boston ni l’MIT, aquí tenim uns recursos, no solament nostres sinó també de l’entorn, de gent que s’hi dedica, que està motivada. Ara bé, comparativament amb la resta del país i fins i tot dins d’Europa, el CRG, el PRBB, el parc en general, Barcelona en general, és una ciutat que no està mal situada.

Page 126: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

125CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

5.- Com s’organitza el temps per exercir d’investigador, gestionar els equips d’investi-gadors, els projectes internacionals , escriure els articles...?

Doncs malament, no m’organitzo gens bé, aquest és un dels problemes amb els que ens trobem quan arribem a un determinat “estatus”, jo per exemple, cada dia tinc conferencies telefòniques internacionals amb els Estats Units, avui per exemple, a les 5 en tinc una altra, ahir en vaig tenir 3 o 4,una part del meu temps és anar coordinant la recerca que es fa aquí i la que es fa allà, la característica del nostre grup es que es un grup que esta treballantparal·lelament amb altres grups dels Estats Units, aleshores necessitem aquesta coordina-ció, i això em treu molt de temps. I els articles, els escric molt lentament, per això és bona idea que vosaltres aprengueu a escriure els articles, perquè si heu d’esperar a que els escri-gui el vostre cap podeu esperar molt de temps, saber escriure bé i tenir capacitat d’ escriure entenedorament és molt important, tant important com tenir bones idees.

Page 127: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

126CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.5 Ressenya sobre el llibre Bioinformatics for Dummies a la revista El·lipse del PRBB

Uns cop acabada la meva estada al CRG, des del mateix centre se’m va demanar la meva col·laboració amb la revista El·lipse del PRBB escrivint una ressenya sobre el llibre que vaig estar utilitzant per a la realització de la part pràctica del meu treball; Bioinformatics for Dummies, l’autor del qual, Cedric Notredame, amb l’autor del qual, actualment treballant al CRG, vaig tenir la possibilitat de coincidir en una xerrada al Palau Robert de Barcelona.

Revista El·lipse. PRBB, Setembre de 2013, NÚM. 67, pàgina 6.

Page 128: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

127CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

11.6 Glosario de Términos Genéticos del National Human Genome Research Institute (NHGRI)

ACGTACGT es el acrónimo para los cuatro tipos de bases nitrogenadas que se encuentran en la molécula del ADN: adenina (A), citosina (C), guanina (G) y timina (T). Una molécula de ADN está formada por dos hebras enrolladas una con la otra, formando una doble hélice. Las dos hebras se mantienen unidas por las interacciones que se forman entre las bases nitrogenadas. La adenina forma un puente o interacción con la timina de la otra hebra, y la citocina con la guanina. La secuencia de bases en una porción de la molécula de ADN se denomina gen y contiene las instrucciones necesarias para construir una proteína.

Ácido nucleicoLos ácidos nucleicos son un tipo importante de macromoléculas presentes en todas las células y virus. Las funciones de los ácidos nucleicos tienen que ver con el almacenamien-to y la expresión de información genética. El ácido desoxirribonucleico (ADN) codifica la información que la célula necesita para fabricar proteínas. Un tipo de ácido nucleico rela-cionado con él, llamado ácido ribonucleico (ARN), presenta diversas formas moleculares y participa en la síntesis de las proteínas.

ADN (Ácido Desoxirribonucleico)ADN es el nombre químico de la molécula que contiene la información genética en todos los seres vivos. La molécula de ADN consiste en dos cadenas que se enrollan entre ellas para formar una estructura de doble hélice. Cada cadena tiene una parte central formada por azúcares (desoxirribosa) y grupos fosfato. Enganchado a cada azúcar hay una de de las siguientes 4 bases: adenina (A), citosina (C), guanina (G), y timina (T). Las dos cadenas se mantienen unidas por enlaces entre las bases; la adenina se enlaza con la timina, y la cito-sina con la guanina. La secuencia de estas bases a lo largo de la cadena es lo que codifica las instrucciones para formar proteínas y moléculas de ARN.

ADN mitocondrialEl ADN mitocondrial es el pequeño cromosoma circular que se encuentra en la mitocon-dria. Las mitocondrias son orgánulos celulares donde se produce energía. Las mitocondri-as, y por tanto el ADN mitocondrial, solo se heredan de la madre.

Page 129: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

128CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

ADN no codificanteLas secuencias no codificantes de ADN no codifican para aminoácidos. La mayor parte del ADN no codificante se encuentra entre los genes en el cromosoma y no tiene función conocida. Otras secuencias de ADN no codificantes, llamadas intrones, se encuentran dentro de los genes. Parte del ADN no codificante desempeña un papel en la regulación de la expresión génica.

ADN recombinante (rADN)El ADN recombinante (rADN) es una tecnología que utiliza enzimas para cortar y unir secuencias de ADN de interés. Las secuencias de ADN recombinado se pueden colocar en unos vehículos llamados vectores que transportan el ADN hacia el lugar adecuado de la célula huésped donde puede ser copiado o expresado.

AdeninaLa adenina (A) es una de las cuatro bases nitrogenadas que se encuentran en el ADN, junta-mente con las otras tres bases: la citosina (C), la guanina (G) y la timina (T). En la molécula del ADN, las bases adenina que se encuentran en una hebra interaccionan con las bases timina de la hebra opuesta, formando así la doble hélice del ADN. La secuencia de las cuatro bases del ADN proporciona las instrucciones genéticas de la célula. Una forma de la adenina llamada ‘adenosina trifosfato’ (ATP) sirve como molécula de reserva energética, y propor-ciona energía para que puedan tener lugar muchas reacciones químicas dentro de la célula.

Alelo

Un alelo es cada una de las dos o más versiones de un gen. Un individuo hereda dos alelos para cada gen, uno del padre y el otro de la madre. Los alelos se encuentran en la misma posición dentro de los cromosomas homólogos. Si los dos alelos son idénticos, el indivi-duo es homocigoto para este gen. En cambio, si los alelos son diferentes, el individuo es heterocigoto para este gen. Aunque el término alelo fue usado originariamente para des-cribir variaciones entre los genes, ahora también se refiere a las variaciones en secuencias de ADN no codificante (es decir, que no se expresan).

AminoácidoLos aminoácidos son un conjunto de 20 tipos distintos de moléculas y constituyen las piezas básicas para construir proteínas. Las proteínas constan de una o más cadenas de aminoácidos; estas cadenas se llaman polipéptidos. La secuencia de la cadena de ami-noácidos determinará cómo se pliega tridimensionalmente el polipéptido, pues la forma que adquiera es muy importante para que sea biológicamente activo. De forma general, la secuencia de aminoácidos que forma una proteína está codificada en un gen.

Page 130: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

129CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

AnticodónUn anticodón es la secuencia de tres nucleótidos complementaria a una secuencia de otros tres nucleótidos que se encuentran en el ARN mensajero (ARNm), siendo esta última el codón. El anticodón, en cambio, forma parte de un extremo de una molécula de ARN de transferencia (ARNt). Durante la síntesis de proteínas, para añadir un nuevo aminoácido a la proteína en construcción, el ARNt que se corresponde con este aminoácido forma pareja complementaria con la secuencia específica de la molécula de ARNm. Este meca-nismo de reconocimiento de secuencias asegura que se inserta el aminoácido apropiado a la proteína.

ARN (ácido ribonucleico)El ácido ribonucleico (ARN) es una molécula similar a la de ADN. A diferencia del ADN, el ARN es de cadena sencilla. Una hebra de ARN tiene un eje constituido por un azúcar (ribosa) y grupos de fosfato de forma alterna. Unidos a cada azúcar se encuentra una de las cuatro bases adenina (A), uracilo (U), citosina (C) o guanina (G). Hay diferentes tipos de ARN en la célula: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARN de transferencia (ARNt). Más recientemente, se han encontrado algunos ARN de pequeño tamaño que están involucrados en la regulación de la expresión génica.

ARN de transferencia (ARNt)El ARN de transferencia (ARNt) es una pequeña molécula de ARN que participa en la sín-tesis de proteínas. Cada molécula de ARNt tiene dos áreas importantes: una región de tri-nucleótidos denominada anticodón y una región donde se une un aminoácido específico. Durante la traducción, cada vez que un aminoácido se añade a la cadena en crecimiento, se forma una molécula de ARNt cuyos pares de bases tienen una secuencia complementa-ria con la molécula del ARN mensajero (ARNm) , asegurando que el aminoácido adecu-ado sea insertado en la proteína.

ARN mensajero (ARNm)El ARN mensajero (ARNm) es una molécula de ARN de cadena simple, complementaria a una de las cadenas de ADN de un gen. El ARNm es una versión del ARN del gen que sale del núcleo celular y se mueve al citoplasma donde se fabrican las proteínas. Durante la síntesis de proteínas, un orgánulo llamado ribosoma se mueve a lo largo del ARNm, lee su secuencia de bases, y utiliza el código genético de traducir cada triplete de tres bases o codón, en su aminoácido correspondiente.

Page 131: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

130CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

BioinformáticaLa Bioinformática es una subdisciplina de la biología y las ciencias computacionales que se encarga de adquirir, almacenar, analizar y diseminar la información biológica, en gran parte correspondiente a las secuencias de ADN y aminoácidos. La Bioinformática usa programas informáticos que tienen muchas aplicaciones, como por ejemplo: determinar las funciones de genes y proteínas, establecer relaciones evolutivas y predecir la conforma-ción tridimensional de las proteínas.

CariotipoUn cariotipo es la colección de cromosomas de un individuo. El término también se re-fiere a una técnica de laboratorio que produce una imagen de los cromosomas de un in-dividuo. El cariotipo es utilizado para buscar números o estructuras anormales de los cromosomas..

Células somáticasUna célula somática es cualquier célula del cuerpo excepto los espermatozoides y óvulos. Las células somáticas son diploides, es decir, que contienen dos juegos de cromosomas, uno heredado de cada padre. Las mutaciones en las células somáticas pueden afectar al individuo, pero no se transmiten a la descendencia.

CentrosomaEl centrosoma es una estructura celular involucrada en el proceso de división celular. An-tes de la división celular, el centrosoma se duplica y entonces, cuando la división empieza, los dos centrosomas se mueven hacia los polos opuestos de la célula. Unas proteínas lla-madas microtúbulos se ensamblan para formar un eje entre los dos centrosomas y ayudar a separar los cromosomas replicados en las células hijas.

CitosinaLa Citosina (C) es una de las cuatro bases del ADN, siendo las otras tres la adenina (A), guanina (G) y timina (T). Dentro de la molécula de ADN, las bases de citosina se encuen-tran localizadas en una cadena formando enlaces químicos con las bases de guanina de la cadena opuesta. La secuencia de las cuatro bases del ADN es lo que codifica las instrucci-ones genéticas de la célula.

ClonaciónLa clonación consiste en hacer copias idénticas de un organismo, célula o secuencia de ADN. La clonación molecular (de ADN) es un proceso que usan los científicos para am-plificar una secuencia concreta de ADN (es decir, obtener muchas copias de ella). Para ha-

Page 132: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

131CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

cerlo, primero se aísla la secuencia diana; después se inserta este fragmento dentro de otra molécula de ADN (conocida con el nombre de ‘vector’) y, finalmente, se introduce en una célula huésped adecuada. Cada vez que esta célula huésped se divide, se replica también la secuencia de ADN foráneo insertado, como si fuera una parte más de su propio ADN. También hablamos de clonación para referirnos a la reproducción asexual.

CodónUn codón es una secuencia de tres nucleótidos de ADN o ARN que corresponde a un ami-noácido específico. El código genético describe la relación entre la secuencia de bases del ADN (A, C, G y T) en un gen y la secuencia correspondiente de la proteína que codifica. La célula lee la secuencia del gen en grupos de tres bases. Existen 64 codones diferentes: 61 son específicos de aminoácidos, mientras que los tres restantes se utilizan como señales de parada.

Codón de paradaUn codón de parada es una secuencia de trinucleótidos de la molecula del ARN mensa-jero (ARNm) que señala un alto en la síntesis de proteínas. El código genético describe la relación entre la secuencia de bases del ADN (A, C, G y T) en un gen y la secuencia de la proteína correspondiente que se codifica. La célula lee la secuencia del gen en grupos de tres bases. De las 64 combinaciones posibles de tres bases, 61 especifican un aminoácido, mientras que las otras tres combinaciones son codones de parada.

CromatinaLa cromatina es la sustancia que forma un cromosoma y consiste en la combinación de ADN con proteínas. El ADN lleva consigo las instrucciones genéticas de la célula. Respec-to a las proteínas, la mayoría de las que componen la cromatina son las histonas, la cuales ayudan a empaquetar el ADN en una forma compacta que cabe dentro del núcleo celular. Los cambios en la estructura de la cromatina se producen cuando el ADN se duplica y durante la expresión génica.

CromosomaUn cromosoma es un paquete ordenado de ADN que se encuentra en el núcleo de la célu-la. Los diferentes organismos tienen diferentes números de cromosomas. Los humanos tenemos 23 pares de cromosomas - 22 pares autosómicos, y un par de cromosomas sexu-ales, X e Y. Cada progenitor contribuye con un cromosoma de su par de autosomas y uno del par sexual, de manera que la descendencia obtenga la mitad de sus cromosomas de su madre y la mitad de su padre.

Page 133: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

132CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Cromosoma artificial bacteriano (BAC)Un cromosoma artificial bacteriano (BAC) es una molécula de ADN utilizada para clonar secuencias de ADN en las células bacterianas (por ejemplo, E. coli). Los BAC se suelen utilizar en la secuenciación del ADN. Los segmentos de ADN de un organismo, que van de 100.000 a cerca de 300.000 pares de bases, se pueden insertar en BACs. Los BACs, con su ADN insertado, son entonces introducidos en células bacterianas. A medida que las células bacterianas crecen y se dividen, amplifican también el ADN de los BACs, que des-pués pueden ser aislados y utilizados en la secuenciación del ADN.

Cromosoma XEl cromosoma X es uno de los dos cromosomas sexuales. Los seres humanos y la mayoría de los otros mamíferos tiene dos cromosomas sexuales, el X y el Y. Las hembras tienen dos cromosomas X en sus células somaticas, mientras que los machos tienen un X y un Y. Todos los óvulos, sin embargo, contienen solo un cromosoma X, mientras que los esper-matozoides pueden contener un cromosoma X o uno Y. Esta disposición significa que es el macho el que determina el sexo de la descendencia cuando se produce la fertilización.

Cromosoma YEl cromosoma Y es uno de los dos cromosomas sexuales. Los seres humanos y otros ma-míferos tienen dos cromosomas sexuales, el X y el Y. Las hembras tienen dos cromosomas X en sus células somaticas, mientras que los machos tienen un X y un Y. Todos los óvulos, sin embargo, contienen solo un cromosoma X, mientras que los espermatozoides pueden contener un cromosoma X o uno Y. Este sistema implica que es el macho el que determina el sexo de las crías.

DeleciónUna deleción es un tipo de mutación genética en la cual se pierde material genético, desde un solo par de nucleótidos de ADN hasta todo un fragmento de cromosoma.

DiploideDiploide es una célula u organismo que tiene cromosomas emparejados, uno de cada progenitor. En los humanos, todas las células aparte de las sexuales son diploides y tienen 23 pares de cromosomas. Las células sexuales humanas (óvulos y espermatozoides) conti-enen un solo juego de cromosomas y se conocen como haploides.

Page 134: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

133CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

Doble héliceLa doble hélice es la descripción de la estructura de una molécula de ADN. Una molé-cula de ADN consiste en dos cadenas que serpentean una alrededor de la otra como una escalera de caracol. Cada cadena tiene una espina dorsal en la cual se alternan un azúcar (desoxirribosa) y un grupo fosfato. A cada azúcar se une una de las cuatro bases: adenina (A), citosina (C), guanina (G) o timina (T). Las dos cadenas se mantienen unidas por enlaces entre las bases nitrogenadas, adenina formando enlaces con la timina, y citosina con la guanina.

DominanteDominante se refiere a la relación entre dos versiones de un gen. Cada individuo recibe dos versiones de cada gen, conocidas como alelos, una de cada padre. Si los alelos de un gen son diferentes, el alelo que se expresa es el gen dominante. El efecto del otro alelo, denominado recesivo, queda enmascarado.

ElectroforesisLa electroforesis es una técnica que emplean los cientificos en el laboratorio utilizada para separar el ADN, el ARN, o moléculas o proteínas en base a su tamaño y carga eléctrica. Se utiliza una corriente eléctrica para mover las moléculas y que se separen a través de un gel. Los poros del gel actúan como un colador, permitiendo que las moléculas más pequeñas se muevan más rápido que las grandes. Las condiciones utilizadas durante la electroforesis se pueden ajustar para separar moléculas en el rango de tamaño que se desee.

EnzimaUna enzima es un catalizador biológico. Es una proteína que acelera la velocidad de una reacción química específica en la célula. La enzima no se destruye durante la reacción y se utiliza una y otra vez. Una célula contiene miles de diferentes tipos de moléculas de enzi-mas específicos para cada reacción química particular

ExónUn exón es la porción de gen que codifica aminoácidos. En las células de plantas y ani-males, la mayoría de las secuencias de genes son alternadas por una o mas secuencias de ADN llamadas intrones. Las partes de la secuencia de genes que contienen la información para producir las proteínas se llaman exones, ya que se expresan, mientras que las partes de la secuencia del gen que no codifican se llaman intrones, porque están en medio o in-terfieren con- los exones.

Page 135: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

134CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

GenEl gen es la unidad física básica de la herencia. Los genes se transmiten de los padres a la descendencia y contienen la información necesaria para precisar sus rasgos. Los ge-nes están dispuestos, uno tras otro, en estructuras llamadas cromosomas. Un cromosoma contiene una única molécula larga de ADN, sólo una parte de la cual corresponde a un gen individual. Los seres humanos tienen aproximadamente 20.000 genes organizados en sus cromosomas.

GenomaEl genoma es el conjunto de instrucciones genéticas que se encuentran en una célula. En los seres humanos, el genoma está formado por 23 pares de cromosomas, que se encuen-tran en el núcleo, así como un cromosoma más pequeño que se encuentra en la mitocon-dria. En conjunto, la secuencia de ADN de los cromosomas contiene aproximadamente 3.100 millones de pares de bases

GenómicaLa genómica se refiere al estudio del genoma completo de un organismo, mientras que la genética se refiere al estudio de un gen en concreto.

GuaninaLa guanina (G) es una de las cuatro bases químicas del ADN, siendo las otras tres la adeni-na (A), la citosina (C), y la timina (T). Dentro de la molécula de ADN, las bases de guani-na localizadas en una hebra forman puentes químicos con la citosina de la hebra opuesta. Las instrucciones genéticas de la célula están codificadas por la secuencia compuesta por las cuatro bases.

HaploideHaploidia se refiere a una célula u organismo con un único conjunto de cromosomas. Los organismos que se reproducen asexualmente son haploides. Los organismos con repro-ducción sexual son diploides (con dos juegos de cromosomas, uno de cada progenitor). En los seres humanos, sólo los óvulos y los espermatozoides son haploides.

HereditarioUn rasgo hereditario es aquel que está determinado genéticamente. Los rasgos heredados se transmiten de padres a hijos según las reglas de la genética mendeliana. La mayoría de

Page 136: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

135CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

los rasgos no están estrictamente determinados por los genes, sino más bien se ven influi-das tanto por los genes como por el ambiente.

HibridaciónLa hibridación es un proceso por el cual se combinan dos cadenas complementarias sim-ples de ácidos nucleicos (ADN o ARN) y se permite que formen una única molécula de doble cadena por apareamiento de sus bases. Y el proceso inverso, una doble cadena de moléculas de ADN (o ARN o ADN/ARN) puede ser calentada para romper el apareami-ento de las bases y separar las dos hebras. La hibridación es parte de muchas técnicas im-portantes en el laboratorio como la reacción en cadena de la polimerasa y la hibridación de Southern.

HistonaUna histona es una proteína que proporciona soporte estructural a un cromosoma. Para que las larguísimas moléculas de ADN quepan en el núcleo celular, se envuelven alrededor de complejos de histonas, dando al cromosoma una forma más compacta. Algunas vari-antes de las histonas están asociadas con la regulación de la expresión génica.

IntrónUn intrón es una parte del gen que no codifica ningún aminoácido. En las células vegetales y animales, la mayoría de las secuencias que codifican para los genes están partidas por uno o más intrones. Las zonas de la secuencia del gen que se expresan en las proteínas se llaman exones porque se expresan, mientras que aquellas que no lo hacen se denominan intrones por encontrarse entre los exones.

Ligado al XLigado al cromosoma X es un rasgo en el cual un gen se encuentra localizado en el cromo-soma X. Los seres humanos y otros mamíferos tienen dos cromosomas sexuales, el X y el Y. En las enfermedades ligadas al cromosoma X, o sea ligadas al sexo, por lo general son los varones los que se ven afectados porque tienen una sola copia del cromosoma X que porta la mutación. En las mujeres, el efecto de la mutación puede estar enmascarado por la segunda copia sana del cromosoma X.

MeiosisLa meiosis es la formación de óvulos y espermatozoides. En organismos con reproducción sexual, las células del cuerpo son diploides, es decir, que contienen dos juegos de cromo-

Page 137: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

136CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

somas (uno de cada progenitor). Para mantener este estado, el óvulo y el espermatozoide que se unen durante la fecundación debe ser haploides, lo que significa que cada uno debe contener un único conjunto de cromosomas. Durante la meiosis, las células diploides replican su ADN, seguido de dos rondas de división celular, produciendo cuatro células sexuales haploides.

Membrana plasmáticaLa membrana plasmática, también llamada membrana celular, se encuentra en todas las células y separa el interior de la célula del ambiente exterior. En bacterias y en células de plantas, hay también una pared celular que se une a la membrana plasmática en la super-ficie exterior. La membrana plasmática se compone de una bicapa lipidia que es semiper-meable. La membrana plasmática regula el transporte de materiales que entran y salen de la célula.

MitosisMitosis es el proceso celular por el cual se producen dos núcleos idénticos en preparaci-ón para la división celular. En general, la mitosis va seguida inmediatamente del reparto equitativo del núcleo celular así como del resto del contenido celular en dos células hijas.

MutaciónUna mutación es un cambio en la secuencia del ADN. Las mutaciones pueden ser el resul-tado de errores en la copia del ADN durante la división celular, la exposición a radiaciones ionizantes o a sustancias químicas denominadas mutágenos, o infección por virus. Las mutaciones de la línea germinal se producen en los óvulos y el esperma y puede transmi-tirse a la descendencia, mientras que las mutaciones somáticas se producen en las células del cuerpo y no se pasan a los hijos.

NucleótidoUn nucleótido es la pieza básica de los ácidos nucleicos. El ARN y el ADN son polímeros formados por largas cadenas de nucleótidos. Un nucleótido está formado por una molé-cula de azúcar (ribosa en el ARN o desoxirribosa en el ADN) unido a un grupo fosfato y una base nitrogenada. Las bases utilizadas en el ADN son la adenina (A), citosina (C), guanina (G) y timina (T). En el ARN, la base uracilo (U) ocupa el lugar de la timina

Page 138: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

137CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

ProteínaLas proteínas son una clase importante de moléculas que se encuentran en todas las célu-las vivas. Una proteína se compone de una o más cadenas largas de aminoácidos, cuya secuencia corresponde a la secuencia de ADN del gen que la codifica. Las proteínas de-sempeñan gran variedad de funciones en la célula, incluidas estructurales (citoesqueleto), mecánicas (músculo), bioquímicas (enzimas), y de señalización celular (hormonas). Las proteínas son también parte esencial de la dieta.

RecesivoRecesivo se refiere a la relación entre dos versiones de un gen. Los individuos reciben una versión de un gen, llamada alelo, de cada padre. Si los alelos son diferentes, el alelo dominante se expresa, mientras que el efecto del otro alelo, denominado recesivo, queda enmascarado. En el caso de un trastorno genético recesivo, un individuo debe haber here-dado las dos copias del alelo mutado para que la enfermedad esté presente.

Secuenciación shotgunSecuenciación (shotgun) es una técnica de laboratorio para determinar la secuencia del ADN del genoma de un organismo. El método consiste en romper el genoma en una colección de pequeños fragmentos de ADN que se ordenan de forma individual. Un pro-grama de computadora busca coincidencias en las secuencias de ADN y las utiliza para colocar los fragmentos individuales en el orden correcto para reconstruir el genoma.

Tecnología de microarrays (chips de ADN o ARN)La tecnología de microarrays es una tecnología en desarrollo para estudiar la expresión de muchos genes a la vez. Consiste en colocar miles de secuencias génicas en lugares deter-minados sobre un portaobjetos de vidrio llamado chip. Una muestra que contiene ADN o ARN se pone en contacto con el chip. El apareamiento de las bases complementarias entre la muestra y las secuencias de genes en el chip produce una cantidad de luz que se puede medir. Las áreas del chip que producen luz identifican los genes que se expresan en esa muestra.

TiminaTimina (T) es una de las cuatro bases químicas del ADN, los otros tres son adenina (A), ci-tosina (C) y guanina (G). Dentro de la molécula de ADN, las bases de timina se encuentra en una línea que forma enlaces químicos con las bases de adenina en la cadena opuesta. La secuencia de cuatro bases del ADN codifica las instrucciones genéticas de la célula.

Page 139: Cercant el genoma: estudi filogenètic de l'hormona del creixement humà

138CERCANT EL GENOMA / Guillem Lopez-Grado Salinas

TraducciónLa traducción es el proceso de traducir la secuencia de una molécula de ARN mensajero (ARNm) a una secuencia de aminoácidos durante síntesis de proteínas. El código genético se describe la relación entre la secuencia de pares de bases en un gen y la secuencia cor-respondiente de aminoácidos que codifica. En el citoplasma de la célula, el ribosoma lee la secuencia del mRNA en grupos de tres bases para ensamblar la proteína.

TranslocaciónTranslocación es un tipo de anomalía cromosómica en la que un cromosoma se rompe y una parte de ella vuelve a unir a un cromosoma diferente. translocaciones cromosómicas se pueden detectar mediante el análisis de cariotipos de las células afectadas.

UraciloUracilo (U) es una de las cuatro bases químicas que forman parte del ARN. Las otras tres bases son la adenina (A), citosina (C) y guanina (G). En el ADN, la base timina (T) se encuentra en lugar del uracilo.