ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne +...

46
ì Bazy danych i biologia Biologiczne Aplikacje Baz Danych Politechnika Poznańska dr inż. Anna Leśniewska [email protected]

Transcript of ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne +...

Page 1: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ìBazydanychibiologiaBiologiczneAplikacjeBazDanych

PolitechnikaPoznańska drinż.AnnaLeśniewska [email protected]

Page 2: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

„Biological databases play a central role inbioinformatics. They offer scientists theopportunity to access a wide variety ofbiologically relevant data, including thegenomicsequencesofanincreasinglybroadrangeoforganisms.”…………………………....

Andreas D. Baxevanis „The importance ofBiological Databases in BiologicalDiscovery” (1, sep 2009)………………………

BiologiczneAplikacjeBazydanych

Wprowadzenie

Page 3: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Oczymbędziemymówićnawykładach?

ì  Planwykładów:ì  Wprowadzeniedoświatabiologicznychbazdanychì  Schodzimygłębiejczylibazydanychodpodszewki:użytkownik,

autoryzacja,uwierzytelnianie,struktura,tabela,sekwencjeetc.ì  Relacyjnymodeldanychimodelowaniezwiązkówencjiì  Transformacjadomodelurelacyjnegoiindeksywbaziedanychì  Transakcjewbaziedanychì  Tworzenieaplikacjiiinterfejsydobazy(jdbc,pdo,R,Apex)ì  BazydanychnurtuNoSQLnaprzykładziebazMongoDB,Redisi

Cassandraì  Prezentacje–BiologiczneBazyDanychì  Zaliczenie:testkońcowy

Page 4: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Laboratoria

ì  Planlaboratoriów:ì  Uczymysiękorzystaćzgotowychbiologicznychbazdanych

(BioMartetc.)ì  Autoryzacjawbaziedanych(uprawnieniawbaziedanych)ì  OracleDataModelerizadaniazmodelowaniaitworzenia

diagramówzwiązkówencjiì  Tworzymytabele,indeksyiinnestrukturywbaziedanychi

transformacjadomodelurelacyjnegoì  Transakcjewbaziedanychì  Tworzenieprostychaplikacji,tutorialeì  BazynurtuNoSQL-tutorialeì  Prezentacjagotowychprojektów

Page 5: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Zaliczenie-wykład

ì  Obecnośćnawykładachpromowananastępująco:>=12wykładów–bdb11wykładów–db+10wykładów–db9wykładów–dst+8wykładów–dst<7wykładówndstlubtest

ì  Testobejmującywiedzęzzakresuwiedzyprezentowanejnawykładach

Page 6: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Zaliczenie-laboratoria

ì  Projekt

ì  PrezentacjanatematwybranejBiologicznejBazyDanych

Page 7: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  Wygodnysposóbnapracęzogromnąilościądanych

ì  Umożliwiaefektywneprzechowywanie,wyszukiwanieiprzetwarzaniedanych

ì  Przedanaliząkoniecznejestzłożeniewjednoscentralizowaneźródłodanychiudostępnienieużytkownikom

Czymjestbazadanych?

Bazadanych

Page 8: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  Umożliwiaobsługęiudostępnianiedużychilościdanychrównieżbiologicznych

ì  Wspieraanalizęnadużąskalę

ì  Powoduje,żemamyłatwydostępdodanychrównieżaktualizacjędanych

ì  Łączywiedzęuzyskanązróżnychdziedzin–takjakwnaszymprzypadkunp.obszarówbiologiiimedycyny

Dlaczegobazydanych?

Page 9: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Corozumiemyprzezaplikacje?

ì  Aplikacja,programużytkowy–konkretny,zewzględunaoferowanąużytkownikomfunkcjonalność,elementoprogramowaniaużytkowego

raportaplikacjamobilna

aplikacjawww programwsadowy

formularz

Page 10: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Architekturasystemubazydanych

System Zarządzania Bazą Danych

Narzędzia SQL*Forms

Baza danych

Schemat

Narzędzia SQL*Report

Aplikacja raport

Aplikacja formatka 1

Aplikacja formatka 2

Użytkownicy końcowi (naiwni)

Administrator Użytkownik

zaawansowany

Programiści

SQL

4GL

Interfejs użytkownika

Dane

Narzędzia SQL*Plus

Serwer aplikacji

Aplikacja C/C++

Aplikacja J2EE

JDBC

OCI

Aplikacja WWW

Aplikacja iSQL*Plus

Page 11: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Bazadanych

ì  Oracle11g

ì  Adresserwera:admlab2-main.cs.put.poznan.pl

ì  Użytkownicy:ì  BINFnumer_indeksu,np.BINF12345ì  hasłopoczątkowe:BINFnumer_indeksuì  nazwabazydanych:dblab01

dblab01

Page 12: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Typbazydanych

ì  Bibliograficzne

ì  Taksonomiczne

ì  KwasówNukleinowych

ì  Genomowe

ì  Białkowe

ì  Enzymy/metabol.ścieżki

Typinformacji

ì  Literatura

ì  Klasyfikacje

ì  InformacjeDNA

ì  Informacjeogenach

ì  Strukturabiałkowa

ì  Ścieżkimetaboliczne

Biologicznebazydanych

Page 13: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  BournePE.,WestbrookJ,BermanHM(PDB,zał.1971)TheProteinDataBankandlessonsindatamanagement

ì  BairochA.,BoeckmannB,FerroS,GesteigerE(Swiss-Prot,zał.1986)Swiss-Prot:Jugglingbetweenevolutionandstability

ì  BirneyE.,ClampM.(ENSEMBL,zał.1999)Biologicaldatabasedesignandimplementation

ì  DwightSS,BalakrishnanRetal.(SGD,zał.1996)Saccharomycesgenomedatabase:Underlyingprinciplesandorganisation

ì  90tewww.ncbi.nlm.nih.govudostępnioneprzezInternetorazCDROMwww.rcsb.org

Trochęhistorii...

Page 14: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Tworzeniebiologicznychbazdanych

ì  Tworzeniebiologicznychbazdanychwniczymnieróżnisięodtworzeniabazdanychzinnychdziedzin

ì  Ale?

ì  Problemkomunikacjibiolog–informatykmożebyćproblemem

Page 15: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Problemykomunikacyjne

Biologiczne aplikacje baz danych. AŻ-W1

Page 16: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Tworzeniebiologicznejbazydanych

ì  Dobrabazadanych=wiedzaidoświadczenieinformatyczne+dogłębnezrozumienieproblemubiologicznego

ì  1osoba–ekspertwobudziedzinach

ì  2osoby–problemkomunikacji,odmiennepostrzeganieproblemówisposobówrozwiązań

Biologiczne aplikacje baz danych. AŻ-W1

Dobra baza danych = wiedza informatyczna + zrozumienie problemu biologicznego

1 osoba – czy ekspert w obu dziedzinach? 2 osoby – problem komunikacji, odmienne postrzeganie

wagi problemów i sposobów rozwiązań

Page 17: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Tworzeniebiologicznejbazydanych

ì  Prostotaisprawdzonerozwiązania

ì  Niemieszaćinnowacjibioiinformatycznychwjednymprodukcie

ì  Takzaprojektowaćabybyłamożliwośćrozbudowy

ì  Niezgubićbiologicznegoproblemuleżącegoupodstawprojektunarzecztechnologii

Page 18: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Tworzeniebiologicznejbazydanych

ì  Potrzebnaprzejrzystawizjaceluisposobudziałania

ì  DlawłaściwejfunkcjonalnościispełnieniazałożonejroliBBD,jejprojekt(interfejsużytkownikaorazorganizacjadanych)powinienpowstaćpoddyktandobiologii,nieinformatyki

ì  Zastosowanienarzuconegosłownictwa(ang.Controlledvocabulary),np.doopisówontologiigenów

Page 19: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Specyfikabiologicznychbazdanych

ì  Projektbazydanychmusiwyjśćnaprzeciwoczekiwaniomużytkowników–przewidziećiumożliwićokreślonysposóbprzeglądaniadanychprzezbiologów

ì  Jednązgłównychmotywacjitworzeniabazdanychjestodkrywanienowychzależnościpomiędzydanymiiwtórnainterpretacjadanych,aniesamoprzechowywaniedanych

ì  Narzędziadoporównywania,wizualizacjiorazanalizydanych

Page 20: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Specyfikabiologicznychbazdanych

ì  Interpretacjabiologicznychdanychprzechowywanychwbaziedanychmożeuleczmianiewczasienp.Adnotacjagenomureferencyjnego

ì  Nieostragranicapomiędzydaną„niezmienną”adaną„interpretowalną”np.Danezeksperymentówmikromacierzowychmożnatraktowaćjakopodstawoweinformacjeoekspresji,aledanetesąobrabianeprzezzdeponowaniemwbazachdanych

Page 21: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  Podziałzewzględunarodzajprzechowywanychdanychì  Pierwotne(Primarydatabases)ì  Wtórne(Secondarydatabases)ì  Złożone(Compositedatabases)

ì  Podziałzewzględunatreśćprzechowywanychdanychì  Sekwencjeì  Strukturyizwiązaneznimianotacje

Klasyfikacjabiologicznychbazdanych

Page 22: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Bazydanychsekwencji

DDBJ : http://www.ddbj.nig.ac.jp DNA Databank of Japan

NCBI : http://www.ncbi.nlm.nih.gov/ NCBI, at the NIH campus, USA

EMBL : http://www.embl-heidelberg.de/ European Molecular Biology Laboratory, UK

Page 23: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Międzynarodowawspółpraca

Page 24: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  ExPASy–ExpertProteinAnalysisSystemwww.expasy.ch

ì  BazaUniProtKnowledgebaseskładasięz:

ì  UniProtKB/SwissProt–proteinknowledgebase

ì  UniProt/TrEMBL–computer-annotatedsuplementdoSwiss-Prot–bezpośrednietłumaczeniezEMBLnaSwiss-Prot

ì  F

ì  F

ì  f

Serwisdoanalizysekwencjibiałkowych

Page 25: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

aSwiss-Protentry…overview

sequence

Accessionnumber

Entryname

Page 26: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ProteinnameGenename

Taxonomy

Page 27: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

References

Page 28: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Comments

Page 29: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Cross-references

Page 30: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Keywords

Page 31: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Featuretable(sequencedescription)

Page 32: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

NationalCenterforBiotechnologyInformation

http://www.ncbi.nlm.nih.gov

Page 33: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  http://www.ncbi.nlm.nih.gov/guide/all/#tools_

NCBI–narzędzia

Page 34: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  GlobalQueryCross-DatabaseSearchSystem

ì  http://www.ncbi.nlm.nih.gov/gquery

Entrez

Page 35: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ProjektEnsembl

Page 36: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Ensembl

Page 37: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Ensemblgenomebrowser

Page 38: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Ensembldane

Page 39: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Strukturabazdanych

Page 40: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Ilejestbiologicznychbazdanych?

Page 41: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

„database”wbaziePubMed

0

5000

10000

15000

20000

25000

30000

20182016201420122010200820062004200220001998199619941992199019881986198419821980197819761974

Page 42: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Katalogibiologicznychbazdanychhttp://www.oxfordjournals.org/nar/database/a

2000–ok.250bazdanych2018>1600bazdanych

Page 43: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Czasopisma„biobazodanowe”

Od1996–SpecjalnynumerNARTopoweBazyDanych,noweobiecującebazy,aktualizacje

Od2010– DatabaseTheJournalofBiologicalDatabasesandCurationPlatformawymianypomysłówiopiniidlatwórców,kuratoróworazużytkownikówbazdanych

Page 44: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  NucleicAcidResearch

DatabaseIssue

Page 45: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

Rolabazdanychwspołeczności(bio)naukowej

ì  Sposóborganizacjidanych

ì  Miejsceskładowaniawyników(bazypierwotne)

ì  Źródłodanych,np.Zinnychprojektówzestawytestowe,możliwośćporównaniawyników,weryfikacjadanych

ì  Sposóbnapozyskanienowychinformacji(integracjadanych)

ì  Identyfikacjadorobkunaukowegokonkretnejosoby

Page 46: ì Bazy danych i biologia · ì Dobra baza danych = wiedza i doświadczenie informatyczne + dogłębne zrozumienie problemu biologicznego ... (integracja danych)

ì  Istniejeogromnaliczbabiologicznychbazdanych,awnichcenneinformacje

ì  Nawetnajlepszebazydanychniemająwszystkichinformacji

ì  Wprzypadkuinformacjibiologicznejsekwencjastanowiczęstobardziejprecyzyjnyidentyfikatorniżnazwagenu