PD 00 Introducao

download PD 00 Introducao

of 41

description

oko

Transcript of PD 00 Introducao

  • Introduo Disciplina

    Francisco Couto

    Processamento de Dados

    2015/16

  • Pgina Disciplina

    http://moodle.ciencias.ulisboa.pt/course/view.php?id=2177

  • Quantidade Growth of entries in DNA-sequence databases

    Fonte: http://www.nature.com/nrg/journal/v5/n11/fig_tab/nrg1474_F1.html

  • 4

    Artigos cientficos

    MEDLINE

    over 21 million citations in total

    809,636 citations added in 2013

    reading 10 articles per day, takes more than 221 years to read those articles

    Fonte: http://www.nlm.nih.gov/bsd/medline_cit_counts_yr_pub.html

  • Variedade EBI: a data hub for bioinformatics in Europe

    Source: http://www.slideshare.net/saymaztoma/emblebi

  • Multidisciplinariedade

    Fonte: http://dbdmg.polito.it/twiki/bin/view/Public/Bioinformatics

  • Objetivo da Disciplina

  • Vantagens Extra

    An Explosion Of Bioinformatics Careers in Science of June 13, 2014 DOI

    http://dx.doi.org/10.1126/science.opms.r1400143

    Global Bioinformatics Market Will reach USD

    12,542.4 million in 2020 in Finances, December 31, 2014

    http://www.finances.com/analyses-and-opinions/analysis-opinions/49771-global-bioinformatics-market-will-reach-usd-12542-4-million-2020.htm

    Bioinformticos so muito requisitados e so

    poucos

  • Testemunhos

    Experts agree that the most successful bioinformaticians (and the ones

    who land the jobs) are those who have a multitude of skills

    At Roche, we offer continuous training in various areas and

    encourage our staff to attend conferences, publish, or pursue higher degrees

    In An Explosion Of Bioinformatics Careers in Science of June 13, 2014

  • Docentes

    Francisco Couto Cordenador, T12, T11, TP11, TP12, TP15, TP16, TP17a

    e TP17b Sala 6.3.23 Horrio de Dvidas: Quintas, 15h30 - 16h30 http://www.di.fc.ul.pt/~fjmc

    Joo Ferreira TP13, TP14, TP18 e TP110 Sala 6.3.33 Horrio de Dvidas: Segunda, 13h30 - 14h30 http://www.lasige.di.fc.ul.pt/user/55

  • Planeamento Tericas

    1. Manipulao de Texto

    2. Manipulao de Ficheiros

    3. Listas e Ciclos

    4. Condies

    5. Expresses Regulares

    6. Bases de dados

    7. Linguagens de Interrogao s Bases de Dados (SQL)

  • Planeamento TPs

    1. Dados de vias metablicas

    2. Seleo simples e guardar informao em disco

    3. UniProt como servio web

    4. Cruzamento de dados

    5. Seleo de informao com expresses regulares

    6. Criar uma base de dados SQL

    7. Inserir e consultar a informao na base de dados

  • Funcionamento das TPs

    Ter conta FCUL para aceder aos PCs

    podem usar portteis

    Os trabalhos so individuais

    Submeter todas as semanas um zip com o material produzido

    Faam os tutorias do Codecademy antes

    Ferramentas:

    Python e Access

  • Codecademy python

  • Bibliografia

    Livros Python for Biologists, by Dr. Martin Jones, 2013 Database Management Systems (third edition), R.

    Ramakrishnan and J. Gehrke, McGraw-Hill, 2007 Introduction to Bioinformatics by Arthur M. Lesk, 2008

    Tutorials: Python from scratch

    http://userpages.fu-berlin.de/digga/ W3Schools

    http://www.w3schools.com/ Codeacademy

    https://www.codecademy.com/

  • Avaliao

    Trabalhos nas TPs Peso 30% na nota final;

    Nota individual de 0 a 2 em cada TP.

    Avaliao periodica, ou seja no est disponvel na poca especial.

    Exame Escrito Peso 70% nota final;

    Nota individual de 0 a 20;

    Nota mnima 8,5

  • Exame

    Ideia

    Conjunto de perguntas (tericas e prticas) de resposta mltipla

    Mais um ou dois exerccios de desenvolvimento

  • PYTHON

  • 20

    O que o Python?

    Linguagem popular de programao

    Muito usada na bioinformtica

    Python (interpretador) tambm uma aplicao que se instala no computador:

    Freeware

    traduz as instrues do python para instrues que o computador entende e executa.

  • 21

    O que um programa?

    Conjunto de instrues escritas numa linguagem (python) que pode ser interpretada pelo computador

    Pode ser to simples como imprimir uma sequencia de DNA no ecr:

    print ('ACCTGGTAACCCGGAGATTCCAGCT');

  • 22

    O que uma linguagem de programao?

    Um conjunto de regras de como escrever programas de computador

    Semelhante s lnguas faladas (portugus)

    Mas mais bem definida sem ambiguidades

    Pode ser compilada ou interpretada

    Python interpretada

  • 23

    Vantagens do Python

    Linguagens de programao esto sobre-valorizadas se depois precisar de usar Perl a adaptao ser fcil

    os problemas mais simples de Biologia podem ser resolvidos em qualquer linguagem

    Fcil iniciao

    Syntax consistente

    Paragrafao obrigatria

    Biblioteca de funes extensa

    Tem uma forma obvia de se resolver

    Muito usada em biologia e no s

  • 24

    Instalar o Python

    https://www.python.org/getit/

    Verso 2.7

    Mac OSX e Linux

    Na maior parte dos casos j est instalado

    Editor de texto

    Notepad++

    No usar Word

    Usam caracteres especiais

  • DICAS DE PROGRAMAO

  • 26

    Edite Execute - Corriga

    como andar de bicicleta, s ir aprender a programao se tentar muitas vezes e apreender com os erros

    Comece com programa simples que funcione e v adicionando funcionalidades passo a passo

    Grave os programas e faa backups

    Os discos no duram para sempre

  • 27

    Erros sintticos

    Erros tipogrficos como esquecer de um

    Numa receita culinria: aroz em vez de arroz

    Simples de corrigir

    Leia as mensagem de erro com ateno e corrija

    Verifique apenas os primeiros erros deixe os outros para a prxima execuo

  • 28

    Erros Semnticos

    O interpretador consegue executar o programa mas no devolve o que estava espera

    Numa receita culinria: acar em vez de arroz

    Verifique os resultados intermdios at encontrar o erro

  • DADOS

  • Armazenamento de Dados

  • DBMS

    Uma base de dados uma coleco de dados

    SGBD (Sistema de Gesto de Base de Dados)

    DBMS (Database Management System)

    Aplicao que apoia a manuteno e acesso a grandes coleces de dados

    Bases de Dados Relacionais

    Classe dominante de SGBD

  • Vantagens do SGBD (1)

    Independncia dos dados

    Aplicaes no esto expostas aos detalhes de como os dados esto representados e armazenados

    SGBD disponibiliza uma viso abstracta dos dados

    Acesso Eficiente aos Dados:

    O SGBD utiliza uma variedade de tcnicas sofisticadas para armazenar e recolher dados de uma forma eficiente

  • SGBD Vantagens (2)

    Integridade dos Dados e Segurana

    O SGBD pode aplica restries de integridade durante o acesso aos dados

    Administrao dos dados:

    Profissionais experientes podem organizar a representao dos dados por forma a minimizar a redundncia e melhorar o armazenamento e recolha dos dados

  • SGBD Vantagens (3)

    Acesso Concorrente e Recuperao de Falhas Acesso aos dados como fosse acedido por um

    utilizador de cada vez Minimiza os efeitos de falhas no sistema

    Reduo do tempo de desenvolvimento de aplicaes Disponibiliza funes de acesso comuns Interface de alto nvel para os dados Mais robusto:

    Tarefas executadas pelo DBMS no precisam de ser verificadas

  • SGBD Desvantagens

    Aplicaes complexas de software

    Desempenho inaceitvel para algumas aplicaes

    Aplicaes de tempo-real

    No disponibiliza anlise flexvel dos dados em texto

    Nem sempre os benefcios dos SGBD so necessrias

  • Modelo Relacional

    Composto por relaes

    O esquema para uma relao especifica:

    O seu nome

    O nome de cada atributo (ou campo)

    O tipo de cada atributo

    Exemplo:

    Students( sid: string, name: string, login: string, age: integer, gpa: real)

    * Age est incorrecto usado apenas para no complicar

  • Instncia de uma relao

    Cada linha na relao Students um registo que descreve um aluno

    Cada linha segue o esquema da relao Students

  • Interrogaes ao SGBD

    Exemplo: Qual a fraco de estudantes na disciplina CS564 que

    obteve uma nota superior a B7?

    Traduo para a linguagem de interrogao do SGBD Nos SGBD relacionais usa-se o SQL

    DDL create, drop, alter o esquema conceptual

    DML insert, delete, update, select os dados

    O SGBD tenta executar as interrogaes da forma mais eficiente

  • EXCEL vs CSV

    EXCEL

    Formato proprietrio

    acesso restrito

    CSV

    Menos opes (formulas, formatao)

    Mas acesso universal (qualquer editor de texto)

    Converter de EXCEL para CSV e vice versa simples

  • Porqu o Microsoft Access

    Tem o SQL

    Est includo no Microsoft Office

    Interface fcil

    um SGBD muito limitado

  • ODBC (Open Database Connectivity) Fonte: https://commons.wikimedia.org/wiki/File:ODBC_Driver_Architecture.png