PROBABILIDADE E ESTATÍSTICA INFERÊNCIA...
Transcript of PROBABILIDADE E ESTATÍSTICA INFERÊNCIA...
-
Prof.ª Sheila Regina Oro
Projeto “Recursos Educacionais Digitais”
PROBABILIDADE E ESTATÍSTICA
INFERÊNCIA ESTATÍSTICA
-
TESTE DE HIPÓTESES
POPULAÇÃO
Amostra
Conjectura (hipótese), sobre o
comportamento das variáveis.
Resultados Reais Obtidos
Decisão sobre
admissibilidade
da amostra.
-
TESTE DE HIPÓTESES
• HIPÓTESE NULA:
É a hipótese aceita como verdadeira, até prova
estatística em contrário. Geralmente representa o
contrário do que queremos provar;
• HIPÓTESE ALTERNATIVA:
Geralmente é formulada em termos de
desigualdades, e comumente corresponde ao que se
quer provar.
-
TESTE DE HIPÓTESES
• As hipóteses podem ser:
a) Substituindo o processador A pelo
processador B, altera-se o tempo de resposta de um
computador;
H0: 𝜇𝐴 = 𝜇𝐵 e H1: 𝜇𝐴 ≠ 𝜇𝐵
b) Aumentando a dosagem de cimento,
aumenta-se a resistência do concreto;
H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1.
-
TESTE DE HIPÓTESES
• a)H0: 𝜇𝐴 = 𝜇𝐵 e H1: 𝜇𝐴 ≠ 𝜇𝐵
Onde:
• 𝜇𝐴 é o tempo médio de resposta com o processador A;e
• 𝜇𝐵 é o tempo médio de resposta com o processador B;
• b)H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1Onde:
• 𝜇2 é a resistência média do concreto com a dosagemd2 de cimento; e
• 𝜇1 é a resistência média do concreto com a dosagemd1 de cimento.
-
TESTE DE HIPÓTESES
c) Uma certa campanha publicitária produz
efeito positivo nas vendas;
H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1;
d) A implementação de um programa de
melhoria da qualidade em uma empresa prestadora
de serviços melhora a satisfação de seus clientes;
H0: 𝑝2 = 𝑝1 e H1: 𝑝2 < 𝑝1;
-
TESTE DE HIPÓTESES
• As hipóteses podem ser colocadas em forma de
parâmetros populacionais:
a) A média dos tempos de resposta do
equipamento com o processador A é diferente da
média dos tempos de resposta com o processador B;
b) A média dos valores de resistência do
concreto com a dosagem de cimento é maior do que
a média dos valores de resistência com a dosagem .
-
TESTE DE HIPÓTESES
• Ex.:
Suspeita-se que uma moeda não seja
perfeitamente equilibrada (probab. de cara ≠ probab.
de coroa ≠ 0,5)
• 𝑝 = probabilidade de cara;
H0: 𝑝 = 0,5;
H1: 𝑝 ≠ 0,5.
-
NÍVEL DE SIGNIFICÂNCIA
Representa a probabilidade tolerável de se
rejeitar H0 quando esta for verdadeira.
Os valores mais comuns para o nível de
significância são 5%, 10% e 1%.
-
TESTE DE HIPÓTESES
• Planejamento da amostra:
lançamentos imparciais e independentes da
moeda.
Resultado da amostra:
Situação 1: Valor obtido: y = 10 caras.
• Hipóteses:
H0: a moeda é honesta;
H1: a moeda é viciada;
• Qual seria a conclusão?
-
TESTE DE HIPÓTESES
• Distribuição binomial:
Valor esperado , sob H0.
-
PROBABILIDADE DE SIGNIFICÂNCIA OU
VALOR-P
• Probabilidade da estatística do teste acusar um
resultado tão (ou mais) distante do esperado
quanto o resultado ocorrido na amostra observada,
supondo H0 como a hipótese verdadeira;
-
TESTE DE HIPÓTESES
• SITUAÇÃO 1:
CaraCoroa
Valor 𝑝 = 0,002 ou 2%
-
TESTE DE HIPÓTESES
• CONCLUSÃO:
Valor 𝑝 = 0,002 é menor que o nível designificância, (probabilidade de uma moeda honesta
acusar um valor tão distante quanto ao que se
observou na amostra). Probabilidade muito
pequena!!!
• Qual é a conclusão?
O teste rejeita H0, ou seja, prova-se
estatisticamente que a moeda é viciada.
-
TESTE DE HIPÓTESES
• Situação 2:
Valor obtido: y = 7 caras.
• Qual seria a conclusão?
-
TESTE DE HIPÓTESES
-
TESTE DE HIPÓTESES
Valor 𝑝 = 0,344 maior que o nível designificância, (probabilidade de uma moeda honesta
acusar um valor tão distante quanto ao que se
observou na amostra). Não é muito pequeno!!!
• Qual é a conclusão?
O teste aceita H0, ou seja, não se pode afirmar
que a moeda é viciada.
-
NÍVEL DE SIGNIFICÂNCIA
• REGRA DE DECISÃO:
Rejeita H0.( Aceita-se
estatisticamente H1);
Aceita H0.(Os dados não
mostram evidências para
aceitar H1).
𝑝 ≤ 𝛼
𝑝 ≤ 𝛼
-
NÍVEL DE SIGNIFICÂNCIA
• EXEMPLO
Para testar se existe diferença entre dois
sistemas computacionais (A e B), observou-se o
desempenho com 12 cargas de trabalho. Em 3 casos
o sistema A apresentou melhor desempenho do que
o B. Nos demais, o sistema B foi melhor. Qual a
conclusão ao nível de significância de 5%?
-
NÍVEL DE SIGNIFICÂNCIA
• RESPOSTAS:
Hipóteses:
H0: 𝑝 = 0,5;H1: 𝑝 ≠ 0,5;
Onde:
• 𝑝 : probabilidade do sistema A apresentar melhor desempenho que o sistema B.
-
NÍVEL DE SIGNIFICÂNCIA
• Distribuição Binomial: (𝑛 = 12; p = 0,5);
Valor esperado (𝜇) sob H0.
-
NÍVEL DE SIGNIFICÂNCIA
𝑉𝑎𝑙𝑜𝑟 𝑝 = 𝑃{(𝑋 < 3) 𝑜𝑢 (𝑋 > 9)}:
𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0,146 𝑜𝑢 14,6%
-
NÍVEL DE SIGNIFICÂNCIA
• O teste aceita H0, ao nível de significância de 5%.
Não se pode afirmar (ao nível de significância de 5%)
que existe diferença entre os dois tipos de sistemas,
em termos de desempenho.
𝑉𝑎𝑙𝑜𝑟 − 𝑝 = 14,6 > 5% (𝛼 = 5%);
-
TIPOS DE ERROS
-
ABORDAGEM CLÁSSICA:
Constrói a regra de decisão antes de observar a
amostra;
Retomando o experimento de lançar 10 vezes
a moeda, a regra de decisão para α = 0,05 é
construída com base na equação:
𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 | 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎) = 𝛼 = 0,05
TIPOS DE ERROS
-
TIPOS DE ERROS
ABORDAGEM CLÁSSICA:
Regra de decisão em termos de Y = número
de caras em 10 lançamentos da moeda, com 𝛼= 0,05.
Aceita H0 Rejeita H0Rejeita H0
-
• Mas, existem situações em que queremos rejeitar
H0 em apenas um dos sentido. Por exemplo, se
suspeitamos tende a dar mais caras do que
coroas. Neste caso o teste pode ser formulado da
seguinte maneira:
H0: 𝑝 = 0,5 (a moeda é honesta); e
H1: 𝑝 > 0,5 (a moeda tende a dar mais caras do quecoroas).
TESTES UNILATERAIS
-
TESTES UNILATERAIS
𝑉𝑎𝑙𝑜𝑟 𝑝 = 𝑝(7) + 𝑝(8) + 𝑝(9) + 𝑝(10) = 0,172
-
TESTES PARA PROPORÇÃO
VARIÁVEIS DISCRETAS
• H0: 𝑝 = 𝑝0 e H1: 𝑝 ≠ 𝑝0 (𝑝0 é um valor dado);
• No caso de teste unilateral, a hipótese alternativa
seria H1’: 𝑝 > 𝑝0 (unilateral à direita) ou H1’’:𝑝 < 𝑝(unilateral à esquerda).
• Suponha amostra suficientemente grande para
aproximação da binomial à normal:
𝑛. 𝑝0 ≥ 5 𝑒 𝑛. (1 – 𝑝0) ≥ 5.
-
TESTES PARA PROPORÇÃO
• Sejam:
𝑝 =𝑦
𝑛=
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑐𝑜𝑚 𝑜 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
𝑛𝑦’ = 𝑦– 0,5 𝑠𝑒 𝑦 > 𝑛. 𝑝0; ou
𝑦’ = 𝑦 + 0,5 𝑠𝑒 𝑦 < 𝑛. 𝑝0 (correção de continuidade).Onde:
• 𝑝 : é a proporção de elementos com atributo deinteresse na amostra.
-
TESTES PARA PROPORÇÃO
• Cálculo da estatística do teste:
𝑧 =𝑦′ − 𝑛. 𝑝0
𝑛. 𝑝0(1 − 𝑝0)
Onde:
• 𝑝0: valor da proporção, segundo H0;• 𝑛 : tamanho da amostra;• 𝑦′: correção de continuidade.
-
TESTE PARA PROPORÇÃO
ABORDAGEM DO VALOR -P
Amostra Cálculo de z
Obtenção de p
pela tabela da
normal
Se bilateral: Se unilateral à
direita:
Se unilateral
à esquerda:
𝑧 =𝑦′ − 𝑛. 𝑝0
𝑛. 𝑝0(1 − 𝑝0)
-
TESTE PARA PROPORÇÃO
ABORDAGEM DO VALOR -P
Aceita H0
Rejeita H0
-
EXEMPLO 8.6 BARBETTA
• Uma empresa retira periodicamente amostras
aleatórias de 500 peças de sua linha de produção
para analise de qualidade. As peças da amostra
são classificadas como defeituosas ou não, sendo
que a politica da empresa exige que o processo
produtivo seja revisto se houver evidência de mais
que 1,5% de peças defeituosas. Na ultima amostra
foram encontradas 9 peças defeituosas. Usando
um nível de significância de 1%, o processo
precisa ser revisto?
-
RESULTADO
• H0: 𝑝 = 0,015; H1: 𝑝 > 0,015; Usar 𝛼 = 0,01;
• Amostra: 𝑦 = 9 em 𝑛 = 500;
𝑝 =9
500= 0,018
𝑧 =𝑦′ − 𝑛. 𝑝0
𝑛. 𝑝0(1 − 𝑝0)=
8,5 − 500 ∗ (0,015)
500 ∗ 0,015 ∗ (1 − 0,015)=
1
2,718≈ 0,37
-
RESULTADOS
Aceita-se H0 ao nível de significância de 1%.
-
TESTE PARA PROPORÇÃO
ABORDAGEM CLÁSSICA
Obtenção do valor
crítico pela tabela
normal
Nível de
significância α ...
-
TESTE PARA PROPORÇÃO
ABORDAGEM CLÁSSICA
-
TESTE PARA PROPORÇÃO
ABORDAGEM CLÁSSICA
Se bilateral:
Nível de
significância α
Obtenção do
valor crítico pela
tabela normalCálculo do
valor z
Aceita H0 RejeitaH0Rejeita H0
-
TESTE PARA PROPORÇÃO
ABORDAGEM CLÁSSICA
Se unilateral a direita:
Nível de
significância α
Obtenção do
valor crítico pela
tabela normal
Cálculo do
valor z
Aceita H0 Rejeita H0
-
EXEMPLO 8.6 BARBETTA
• H0: 𝑝 = 0,015; e H1: 𝑝 > 0,015. Usar α = 0,01
Regra de decisão:
Aceita H0 Rejeita H0
-
• Da amostra temos:
• 𝑧 =𝑦′−𝑛.𝑝0
𝑛.𝑝0(1−𝑝0)= 0,37
Portanto, chegamos a conclusão de que não há
provas estatísticas suficientes para recomendar a
revisão do processo produtivo.
RESULTADO
-
TESTE PARA MÉDIA
VARIÁVEIS CONTÍNUAS
• É aplicável em situações que queremos verificar se
uma variável na população pode ser considerada,
em média, igual a certo valor .
Para teste bilateral:
• H0: 𝜇 = 𝜇0 e H1: 𝜇 ≠ 𝜇0
• Para teste unilateral:
Para este caso a hipótese alternativa seria:
H1’: 𝜇 > 𝜇0 (unilateral à direita); ouH1’’:𝜇 < 𝜇0 (unilateral à esquerda).
-
TESTE PARA MÉDIA
CASO DE VARIÂNCIA CONHECIDA
• Cálculo da estatística do teste:
𝑧 = 𝑥 − 𝜇0 ∗ 𝑛
𝜎
Onde:
• 𝑥: média da amostra;• 𝜇0: valor da média segundo H0;• 𝑛 : tamanho da amostra;• 𝜎 : variância populacional;
O teste é feito com a distribuição normal,
análogo ao da proporção.
-
TESTE PARA MÉDIA
CASO DE VARIÂNCIA DESCONHECIDA
• Cálculo da estatística do teste:
𝑡 = 𝑥 − 𝜇0 ∗ 𝑛
𝑠
Onde:
• 𝑥: média da amostra;• 𝜇0: valor da média segundo H0;• 𝑛 : tamanho da amostra;• 𝑠 : variância populacional.Uso da distribuição t com 𝑔𝑙 = 𝑛 – 1 (supondopopulação com distribuição normal).
-
EXEMPLO 8.8 (BARBETTA pg. 220)
• O tempo para transmitir 10 MB determinada rede de
computadores varia segundo um modelo normal, com
média 7,4 s e variância 1,3 s². Depois de algumas
mudanças na rede, acredita-se numa redução no
tempo de transmissão de dados, além de uma possível
alteração na variabilidade. Foram realizados 10 ensaios
independentes com um arquivo de 10 MB e foram
anotados os tempos de transmissão, em segundos: 6.8,
7.1, 5.9, 7.5, 6.3, 6.9, 7.2, 7.6, 6.6, 6.3;
• Existe evidência suficiente de que o tempo médio de
transmissão foi reduzido? Use nível de significância de
1%.
-
RESULTADOS
H0: 𝜇 = 7,4 𝑠;H1: 𝜇 < 7,4 𝑠;
Amostra:
• N=10;
• Média da amostra=6,82;
• Desvio padrão da amostra=0,551;
𝑡 =6,82 − 7,4 ∗ 10
0,551= −3,33
-
RESULTADOS
• Uso da tabela t para obter o valor p:
-
RESULTADOS
• Uso da tabela t para obter o valor p:
-
RESULTADOS
Como observado na tabela t, a área apontada
é entre 0,0025 < 𝑣𝑎𝑙𝑜𝑟 𝑝 < 0,005 , então o testeestatístico rejeita H0 em favor de H1.
Portanto, com este resultado, podemos afirmar
que houve redução no tempo de transmissão de
dados com as alterações nas redes de
computadores.
-
COMPARAÇÃO ENTRE TRATAMENTOS
AMOSTRAS INDEPENDENTES
Para realizar este tipo de experimento, divide-
se as unidades experimentais em g grupos,
submetendo cada grupo a um tratamento. Dessa
forma temos g amostras independentes.
Podemos construir também h blocos de
unidades experimentais semelhantes similares,
sorteando os tratamentos em cada bloco.
-
AMOSTRAS INDEPENDENTES
• Ex. 9.1(BARBETTA)
Considere o problema de comparar dois
materiais (A e B), para sola de tênis, em termos do
grau de desgaste após um certo período de uso.
Seguem dois projetos de experimentos alternativos:
• Projeto I – Um grupo de indivíduos usa tênis com
solas feitas com o material A; e outro grupo usa
tênis com solas feitas com o material B.
-
AMOSTRAS INDEPENDENTES
Mensuração do grau de
desgaste
Mensuração do grau de
desgaste
-
AMOSTRAS PAREADAS (se g>2)
• Projeto II – Fabricam-se, para a realização do
experimento, pares de tênis com os dois tipos de
sola, isto é, um dos pés com o material A e o outro
pé com o material B. Em cada par, o material
usado em cada pé (direito ou esquerdo) é decidido
por sorteio
Mensuração do grau de desgaste
Alocação aleatória de A e B em cada par;
-
AMOSTRAS PAREADAS
• Importância de considerar os pares na análise:
Indivíduo (par de unidades experimentais)
-
TESTE T PARA DUAS AMOSTRAS
• H0: 𝜇1 = 𝜇2 e H1: 𝜇1 ≠ 𝜇2;
Onde:
• 𝜇1: valor esperado da resposta sob o tratamento 1;• 𝜇2: valor esperado da resposta sob o tratamento 2;
• Na abordagem unilateral, a hipótese alternativa é
do tipo:
• H1’: 𝜇1 > 𝜇2 ou H1”: 𝜇1 < 𝜇2.
-
TESTE T PARA DUAS AMOSTRAS
• Caso os dados na amostra possuam um nível de
mensuração qualitativo (ordinal ou nominal),
mensuração quantitativa com indícios de que a
distribuição não é normal ou quando há interesse
em realizar inferência sobre outras características
da população, usa-se os testes não paramétricos.
• No caso do teste t para duas amostras
independentes, o teste não paramétrico substituto
é o teste Mann-Whitney. Para duas amostras
pareadas o teste indicado é o de Wilcoxon.
-
EXEMPLO 9.2(Barbetta, pg 235)
• Seja o problema de verificar se um novo algoritmo
de busca em um banco de dados é mais rápido
que o algoritmo atualmente usado. Para se fazer a
comparação dos dois algoritmos, planeja-se
realizar uma amostra aleatória de 10 buscas
experimentais (ensaios). Em cada ensaio, uma
dada busca é realizada pelos dois algoritmos e o
tempo de resposta de cada algoritmo anotado.
Observamos que em cada ensaio os dois
algoritmos são usados em condições idênticas,
caracterizando 10 pares de observações.
-
EXEMPLO
• H0: em média, os dois algoritmos são igualmente
rápidos; e
• H1: em média, o algoritmo novo é mais rápido do
que o algoritmo em uso;
Ou:
• H0: 𝜇1 = 𝜇2 e H1: 𝜇1 < 𝜇2;Onde:
• 𝜇2 é o tempo esperado de resposta do algoritmonovo; e
• 𝜇1 é o tempo esperado de resposta do algoritmoantigo.
-
EXEMPLO
-
EXEMPLO
• Como os dados são pareados, pode ser verificado
em cada ensaio a diferença entre os dois
tratamentos(algoritmo):
𝐷 = 𝑋2 − 𝑋1
• Em termos da variável diferença, as hipóteses
ficam:
• H0: 𝜇𝐷 = 0 e H1: 𝜇𝐷 > 0.
-
EXEMPLO
A estatística do teste será calculada da
seguinte maneira:
𝑡 = 𝑑 ∗ 𝑛
𝑠𝑑
Onde:
• 𝑑: é a média das diferenças observadas;• 𝑛 : é o tamanho da amostra(número de pares);• 𝑠𝑑 : é o desvio padrão das diferenças observadas.
-
EXEMPLO
• Supondo populações de distribuição normal, usa-
se a distribuição t de Student, com 𝑔𝑙 = 𝑛 − 1graus de liberdade.
• Dos dados apresentados anteriormente temos:
Valores de D: 3, 7, -2, 6, -1, 6, 2, 9, -1, 5:
• 𝑑 = 3,4;• 𝑛 = 10
𝑠𝑑 =1
𝑛 − 1∗
𝑖
𝑑𝑖2 − 𝑛 ∗ 𝑑2 =
246 − (10)(3,4)²
9= 3,81
-
EXEMPLO
A estatística fica da seguinte forma:
𝑡 = 𝑑 ∗ 𝑛
𝑠𝑑=
3,4 ∗ 10
3,81= 2,82
Conferindo na tabela t com 𝑔𝑙 = 10 − 1 = 9:
-
EXEMPLO
• O valor calculado, 𝑡 = 2,82, está bem próximo de2,821 apresentado na tabela de distribuição t, o
que nos fornece um valor para 𝑝 = 0,01 , menorque o nível de significância adotado, de 5%(0,05).
• Portanto, podemos afirmar que o algoritmo de
busca novo é, em média, mais rápido que o antigo,
rejeitando assim H0: 𝜇𝐷 = 0.
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
Exemplo 9.3(Barbetta, pg 238)
Desejamos verificar se os catalisadores A e B
têm efeitos diferentes no rendimento de uma certa
reação química. As hipóteses são:
• H0: em média, os dois catalisadores são iguais em
termos de rendimento;
H0: 𝜇1 = 𝜇2; e• H1: em média, os dois catalisadores são diferentes
em termos de rendimento.
H1: 𝜇1 ≠ 𝜇2.
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• Rendimentos (%) de uma reação química em
função do catalisador utilizado.
45 42 45 45
51 53 35 41
50 50 43 43
62 48 59 49
43 55 48 39
Catalisador A Catalisador B
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• Diagrama de pontos dos resultados do
experimento:
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• Estatística do teste:
𝑠𝑎2 =
𝑠12 + 𝑠2
2
2
Onde:
• 𝑠12: variância da amostra 1;
• 𝑠22: variância da amostra 2;
• 𝑠𝑎2: variância agregada das duas amostras.
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• Estatística do teste:
𝑡 = 𝑥1 − 𝑥2 ∗𝑛
2 ∗ 𝑠𝑎2
Onde:
• 𝑥1: média da amostra 1;• 𝑥2: média da amostra 2;• 𝑛 : tamanho da amostra em cada grupo.
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• Usa-se para o cálculo a distribuição t de Student
com graus de liberdade (supondo populações com
distribuição normal).
• Continuação(ex. 9.3):
Amostra 1: 𝑛 = 10; 𝑥1 = 49,9; 𝑒 𝑠12 = 35,656;
Amostra 2: 𝑛 = 10; 𝑥2 = 44,7; 𝑒 𝑠22 = 42,233;
Variância Agregada: 𝑠𝑎2 =
35,656+42,233
2= 38,945;
𝑡 = 49,9 − 44,710
2 ∗ 38,94= 1,86
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
Graus de Liberdade: 𝑔𝑙 = 2𝑛 − 2 = 2 ∗ 10 − 2 = 18;
Abordagem do valor p:
-
TESTE T PARA DUAS AMOSTRAS
INDEPENDENTES
• O valor de t obtido pelo cálculo aponta para uma
região entre 0,025 e 0,05, mas como o teste é
bilateral, a área deve ser dobrada para se obter o
valor correto:
• Portanto, 0,05 < 𝑝 < 0,1 , aceitamos H0 ao nívelde significância de 5%, afirmando que os dados
não comprovam uma diferença entre os dois
catalisadores.
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• AMOSTRAS INDEPENDENTES:
A análise estatística para a comparação de g
grupos independentes é feita geralmente por análise
de variância ANOVA, acompanhada por um teste F,
que supõe:
• as observações devem ser independentes;
• as variâncias populacionais devem ser iguais nos g
grupos;
• a distribuição das observações em cada grupo
deve ser normal.
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• Ex. 9.4(Barbetta, pg. 252)
Considere o problema de comparar 3 tipos de
rede de computadores, C1, C2 e C3, em termos do
tempo médio de transmissão de pacotes de dados
entre duas máquinas.
Experimento (projeto completamente
aleatorizado com um fator): 8 replicações com cada
tipo de rede, aleatorizando a ordem dos 24 ensaios e
mantendo fixos os demais fatores controláveis.
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• Ex. 9.4;
• Projeto do experimento:
Seqüência número Uso da
dos testes do ensaio rede
1 16 C2
2 14 C2
3 24 C3
4 6 C1
... ... ...
24 11 C3
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• Ex. 9.4;
Perguntas a serem respondidas pela análise
estatística:
• Existe diferença real (significativa) entre os 3 tipos
de rede?
• Qual é a estimativa do tempo de resposta para
cada tipo de rede?
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• Ex. 9.4;
Hipóteses para o problema:
• H0: os tempos esperados de transmissão são
iguais para os três tipos de rede;
• H1: os tempos esperados de transmissão não são
todos iguais (dependem do tipo de rede);
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• Dados do experimento:
Replicação Tipo de Rede
C1 C2 C3
1 7,2 7,8 6,3
2 9,3 8,2 6
3 8,7 7,1 5,3
4 8,9 8,6 5,1
5 7,6 8,7 6,2
6 7,2 8,2 5,2
7 8,8 7,1 7,2
8 8 7,8 6,8
Soma 65,7 63,5 48,1
Média 8,21 7,94 6,01
-
MODELO ANOVA:
• 𝑔 = 3 𝑔𝑟𝑢𝑝𝑜𝑠;• 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗
Onde:
• 𝑦𝑖𝑗: observação;
• 𝜇 : média global;• 𝜏𝑖: efeito do tratamento i;• 𝑒𝑖𝑗: erro aleatório;
• 𝜇𝑖 = 𝜇 + 𝜏𝑖 = média do fator i.
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
Tratameto
(1) (2) (3)
𝑦11 𝑦21 𝑦31
𝑦12 𝑦22 𝑦32
… … …
𝑦1𝑛 𝑦2𝑛 𝑦3𝑛 Média Global
Média 𝑦1. 𝑦2. 𝑦3. 𝑦..
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• HIPÓTESES:
H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 ou 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔;
H1: 𝜏𝑖 ≠ 0 ou 𝜇𝑖 ≠ 𝜇𝑗
As observações:
Sob H1: Sob H0:
𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• HIPÓTESES E MODELO SUBJACENTE:
𝐻0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0
𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗
-
COMPARAÇÃO ENTRE VÁRIOS
TRATAMENTOS
• HIPÓTESES E MODELO SUBJACENTE:
Sob H1: 𝜏𝑖 ≠ 0 para algum 𝑖:𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗
-
Análise de variância (ANOVA), com um fator
-
Análise de variância (ANOVA), com um fator
Soma de quadrados totais:
𝑆𝑄𝑇𝑜𝑡 =
𝑖=1
𝑔
𝑗=𝑖
𝑛
(𝑦𝑖𝑗 − 𝑦..) ²
Onde:
• 𝑔 : grupos;• 𝑛 : repetições;Graus de Liberdade:
𝑔𝑙 = 𝑁 − 1𝑁 = 𝑛 ∗ 𝑔
Onde:
• 𝑁 : tratamentos;
-
Análise de variância (ANOVA), com um fator
Soma de Quadrados do Tratamento:
𝑆𝑄𝑇𝑟𝑎𝑡 =
𝑖=1
𝑔
𝑗=1
𝑛
𝑦𝑖. − 𝑦..2 = 𝑛
𝑖=1
𝑔
( 𝑦𝑖. − 𝑦..)²
Onde:
• 𝑔 : grupos;• 𝑛 : repetiçõesGraus de Liberdade:
𝑔𝑙 = 𝑔 − 1
-
Análise de variância (ANOVA), com um fator
• Soma de quadrados do erro:
𝑆𝑄𝐸𝑟𝑟𝑜 =
𝑖=1
𝑔
𝑗=1
𝑛
(𝑦𝑖𝑗 − 𝑦𝑖.)²
Onde:
• 𝑔 : grupos;• 𝑛 : repetições;• Graus de liberdade:
𝑔𝑙 = 𝑁 − 𝑔Onde:
• 𝑁 : tratamentos;
-
Análise de variância (ANOVA), com um fator
Fonte de
Variação
Soma de Quadrados gl Quadrados
Médios
Razão f
Entre
Tratamentos 𝑆𝑄𝑇𝑟𝑎𝑡 =
𝑖=1
𝑔𝑦𝑖.
2
𝑛−
𝑦..2
𝑁
𝑔 − 1𝑄𝑀𝑇𝑟𝑎𝑡 =
𝑆𝑄𝑇𝑟𝑎𝑡𝑔𝑙𝑇𝑟𝑎𝑡
𝑓 =𝑄𝑀𝑇𝑟𝑎𝑡𝑄𝑀𝐸𝑟𝑟𝑜
Dentro Trat.
(Erro) 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡
𝑁 − 𝑔𝑄𝑀𝐸𝑟𝑟𝑜 =
𝑆𝑄𝐸𝑟𝑟𝑜𝑔𝑙𝐸𝑟𝑟𝑜
Total𝑆𝑄𝑇𝑜𝑡 =
𝑖=1
𝑔
𝑗=𝑖
𝑛
𝑦𝑖𝑗2 −
𝑦..2
𝑁
𝑁 − 1
-
TESTE F
• Se H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 for verdadeira e
considerando as suposições anteriormente
enunciadas, a estatística f tem distribuição F com
(g - 1) graus de liberdade no numerador e (N - g)
graus de liberdade no denominador.
f
-
TESTE F
• Após calculada a estatística f, usa-se a tabela de
distribuição F de Snedecor, para encontrar (), com
graus de liberdade no numerador, e graus de
liberdade no denominador. A regra de decisão é
dada por:
• Se 𝑓 < 𝑓𝑐, então aceita H0;
• Se 𝑓 ≥ 𝑓𝑐, então rejeita H0;
-
Continuação Ex. 9.4
Soma global: 𝑦.. = 177,3;
𝑆𝑄:
𝑖=1
𝑔
𝑗=1
𝑛
𝑦𝑖𝑗2 = 7,2 2 + 9,3 2 + ⋯ =1344,25
𝑆𝑄𝑇𝑟𝑎𝑡 =67,6 2 + 63,5 2 + (48,1)²
8−
177,3 2
24= 22,99
𝑆𝑄𝑇𝑜𝑡 = 1344,25 −177,3 2
24= 34,45
𝑆𝑄𝐸𝑟𝑟𝑜 = 34,45 − 22,99 = 11,46
-
Continuação Ex. 9.4
Fonte de Variação SQ gl QM f
Entre Trat. 22,99 2 11,50 21,07
Dentro Trat. (Erro) 11,46 21 0,55
Total 34,45 23
-
REGRA DE DECISÃO
ABORDAGEM DO VALOR P
• Como regra de decisão, usa-se α=nível de
significância, usualmente 0,05(5%), que é
probabilidade tolerável de se rejeitar Ho quando
esta for verdadeira;Rejeita H0 (Prova-
se estatisticamente
H1)
Aceita H0 (Dados
não mostram
evidências para
aceitar H1)
-
ANÁLISE DOS RESÍDUOS
• Avaliação das suposições da ANOVA através de
gráficos dos resíduos:
-
ESTIMAÇÃO DAS MÉDIAS
• Intervalo de confiança para o valor esperado da
resposta sob o i-ésimo tratamento (nível de conf.
𝛾):
𝐼𝐶 𝜇𝑖 , 𝛾 = 𝑦𝑖. ± 𝑡𝛾𝑄𝑀𝐸𝑟𝑟𝑜
𝑛
Onde:• 𝑡𝛾: valor encontrado na tabela t;
• 𝛾 : nível de confiança;
-
ESTIMAÇÃO DAS MÉDIAS
• Ex. 9.4: Usando nível de confiança de 95% e 𝑔𝑙= 𝑁 − 𝑔 = 24 − 3 = 21, temos 𝑡95% = 2,08, então,para a rede C1 temos:
𝐼𝐶 𝜇𝑖 , 95% = 8,21 ± 2,080,55
8= 8,21 ± 0,55
-
ANOVA COM UM FATOR
• No caso em que as amostras não possuem
distribuição normal, ou que tenham um nível de
mensuração qualitativo, usa-se o teste Kruskal-
Wallis.
-
TESTE F PARA AMOSTRAS EM BLOCOS
• Notação para os dados:
-
TESTE F PARA AMOSTRAS EM BLOCOS
Modelo para os dados:
𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗
Onde:
𝜇 : é a média global da resposta;𝜏𝑖: é o efeito do i-ésimo tratamento;𝛽𝑗: é o efeito do j-ésimo bloco;
𝜀𝑖𝑗: é o efeito aleatório (𝑖 = 1, 2, … , 𝑛; 𝑗 = 1, 2, … , ℎ).
-
TESTE F PARA AMOSTRA EM BLOCOS
QUADRO ANOVA
Fonte de
VariaçãoSoma de Quadrados gl Quadrados
Médios
Razão f
Entre
Trat. 𝑆𝑄𝑇𝑟𝑎𝑡 = 𝑖=1
𝑔𝑦𝑖.
2
ℎ−
𝑦..2
𝑁
𝑔 − 1 𝑄𝑀𝑇𝑟𝑎𝑡 =𝑆𝑄𝑇𝑟𝑎𝑡𝑔𝑙𝑇𝑟𝑎𝑡
𝑓 =𝑄𝑀𝑇𝑟𝑎𝑡𝑄𝑀𝐸
Entre
Blocos 𝑆𝑄𝐵𝑙𝑜𝑐𝑜 = 𝑗=1
ℎ𝑦.𝑗
2
𝑔−
𝑦..2
𝑁
ℎ − 1 𝑄𝑀𝐵 =𝑆𝑄𝐵𝑔𝑙𝐵
Erro 𝑆𝑄𝐸 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡 − 𝑆𝑄𝐵 (𝑔 − 1)(ℎ − 1) 𝑄𝑀𝑇𝑟𝑎𝑡 =𝑆𝑄𝐸𝑔𝑙𝐸
Total𝑆𝑄𝑇𝑜𝑡 =
𝑖=1
𝑔
𝑗=𝑖
𝑛
𝑦𝑖𝑗2 −
𝑦..2
𝑁𝑁 − 1
-
Ex. 9.5(Barbetta, pg. 256)
• Seja o problema de comparar 3 algoritmos de busca em
um banco dedados. Realiza-se um experimento com 6
buscas experimentais, sendo que em cada uma é
sorteado um número aleatório que indica o registro do
banco de dados a ser localizado. Em cada um dos 6
processos de busca, são usados separadamente os três
algoritmos em estudo, mas sob as mesmas condições,
em termos dos fatores controláveis. São anotados os
tempos de resposta ao usuário.
• Hipóteses:
H0: em média, os três algoritmos são igualmente rápidos;
H1: em média, os três algoritmos não são igualmente
rápidos;
-
Ex. 9.5(Barbetta, pg. 256)
• Dados do exercício:
Ensaio
(Bloco)
Algoritmos de Busca
A1 A2 A3
1 8,3 8,1 9,2
2 9,3 8,9 9,8
3 9,1 9,3 9,9
4 9,9 9,6 10,3
5 8,2 8,1 8,9
6 10,9 11,2 13,1
Soma 55,8 55,2 61,2
Média 9,3 9,2 10,2
-
Ex. 9.5(Barbetta, pg. 256)
Soma de Quadrados
𝑆𝑄𝑇𝑟𝑎𝑡 =55,8 2 + 55,2 2 + (61,2)²
6−
172,2 2
18= 3,64
𝑆𝑄𝐵 =5007,98
3−
172,2 2
18= 21,95
𝑆𝑄𝑇𝑜𝑡 = 8,32 + 9,3 2 + 9,1 2 + ⋯−
172,2 2
18= 26,86
𝑆𝑄𝐸𝑟𝑟𝑜 = 26,86 − 21,95 − 3,64 = 1,27
-
Fonte de Variação SQ gl QM
Entre Trat. 3,64 2 1,82 14,29
Entre Blocos 21,95 5 4,39
Erro 1,27 10 0,13
Total 26,86 17
Ex. 9.5(Barbetta, pg. 256)
Tabela ANOVA:
Adotando 𝛼 = 0,05, com 𝑔𝑙 = 2 no numerador e 𝑔𝑙= 10 no denominador, temos o valor crítico 𝑓𝑐 = 4,10.O que podemos concluir?
-
Ex. 9.5(Barbetta, pg. 256)
• Como o valor calculado é superior ao valor crítico,
então o teste rejeita H0, provando estatisticamente
que há diferença entre os três algoritmos de busca
em termos do tempo médio de resposta.
-
ANOVA EM PROJETOS FATORIAIS
• Nos estudos experimentais, em geral procuramos
avaliar ou testar o efeito de mais de um fator sobre
uma resposta de interesse, por exemplo:• O engenheiro civil quer conhecer o quanto o tempo
de hidratação, a dosagem de cimento e o uso de
aditivos interferem na resistência a compressão de
um concreto;
• Um projeto é dito fatorial quando cada nível de um
fator é testado com todos os níveis dos outros
fatores, sem restrições.
-
ANOVA EM PROJETOS FATORIAIS
• As observações podem ser descritas pelo seguinte
modelo:
𝑌𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘
Onde:
• 𝜇 : é a média global da resposta;• 𝜏𝑖: é o efeito do i-ésimo nível do fator A;• 𝛽𝑗: é o efeito do j-ésimo nível do fator B;
• (𝜏𝛽)𝑖𝑗: é o efeito da interação entre 𝜏𝑖 e 𝛽𝑗;
• 𝜀𝑖𝑗𝑘: é o efeito aleatório ou erro experimental.
-
ANOVA EM PROJETOS FATORIAIS
• Notação para os dados:
-
ANOVA EM PROJETOS FATORIAIS
SOMAS DE QUADRADOS
• Somas das observações em cada célula:
𝑦𝑖𝑗. =
𝑘=1
𝑛
𝑦𝑖𝑗𝑘
• Soma de quadrados entre as células:
𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 =
𝑖=1
𝑔
𝑗=1
ℎ𝑦𝑖𝑗.
2
𝑛−
𝑦…2
𝑁
-
ANOVA EM PROJETOS FATORIAIS
Fonte de
Variação
Soma de Quadrados gl Quadrados
Médios
Razão f
Fator A𝑆𝑄𝐴 =
𝑖=1
𝑔𝑦𝑖.
2
ℎ𝑛−
𝑦…2
𝑁
𝑔 − 1𝑄𝑀𝐴 =
𝑆𝑄𝐴𝑔𝑙𝐴
𝑓 =𝑄𝑀𝐴
𝑄𝑀𝐸𝑟𝑟𝑜
Fator B𝑆𝑄𝐵 =
𝑗=1
ℎ𝑦.𝑗.
2
𝑔𝑛−
𝑦…2
𝑁
ℎ − 1𝑄𝑀𝐵 =
𝑆𝑄𝐵𝑔𝑙𝐵
𝑓 =𝑄𝑀𝐵
𝑄𝑀𝐸𝑟𝑟𝑜
Interação
A*B
𝑆𝑄𝐴𝐵 == 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 − 𝑆𝑄𝐴 − 𝑆𝑄𝐵
𝑔 − 1 ∗∗ (ℎ − 1)
𝑄𝑀𝐴𝐵 =𝑆𝑄𝐴𝐵𝑔𝑙𝐴𝐵
𝑓 =𝑄𝑀𝐴𝐵𝑄𝑀𝐸𝑟𝑟𝑜
Erro 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 ℎ𝑔(𝑛 − 1) 𝑄𝑀𝐸𝑟𝑟𝑜 =
=𝑆𝑄𝐸𝑟𝑟𝑜𝑔𝑙𝐸𝑟𝑟𝑜
Total𝑆𝑄𝑇𝑜𝑡 =
𝑖=1
𝑔
𝑗=1
ℎ
𝑘=1
𝑛
𝑦𝑖𝑗𝑘2 −
𝑦…2
𝑁
𝑁 − 1
-
EXEMPLO 9.6( Barbetta, pg. 260)
Considere o problema de comparar 3 topologias de
rede de computadores (C1, C2 e C3) e 2 protocolos (L1 e
L2), em termos do tempo de resposta ao usuário. Realizou-
se um experimento com 4 replicações em cada combinação
de topologia e protocolo. Deseja-se verificar se há diferenças
entre as topologias, entre os protocolos e eventual interação
entre topologia e protocolo. Então, quer-se testar as
seguintes hipóteses nulas:
𝐻0(𝐴)
:os tempos esperados de resposta são iguais para as
três topologias;
𝐻0(𝐵)
: os tempos esperados de resposta são iguais para os
dois protocolos;
𝐻0(𝐴𝐵)
: a mudança de protocolo não altera as diferenças
médias do tempo de resposta nas três topologias (ausência
de interação).
-
EXEMPLO 9.6( Barbetta, pg. 260)
• Dados do experimento:Protocolo Topologia Soma Média
C1 C2 C3
L1 6,2 5,9 5,9 𝑦.1. = 82,8 7,45
7,6 8,4 6,2
7,2 7,1 5,2
8,8 7,1 7,2
L2 9,0 7,1 6,2 𝑦.2. = 95,9 7,99
8,9 8,6 6,1
9,4 9,1 8,9
8,0 7,8 6,8
Soma 𝑦1.. = 65,1 𝑦2.. = 61,1 𝑌3.. = 52,5 𝑦... = 178,7 7,45
Média 8,1375 7,6375 5,5625
-
EXEMPLO 9.6( Barbetta, pg. 260)
𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 =5393,39
4−
31933,69
24= 17,77
𝑆𝑄𝑇𝑜𝑡 = 1365,49 −31933,69
24= 34,92
𝑆𝑄𝐴 =10727,47
8−
31933,69
24= 10,36
𝑆𝑄𝐵 =16052,65
12−
31933,69
24= 7,15
-
EXEMPLO 9.6( Barbetta, pg. 260)
• ANOVA:
Fonte de Variação SQ gl QM 𝑓 𝑓𝑐
Topologia 10,36 2 5,18 5,44 3,55
Protocolo 7,15 1 7,15 7,51 4,41
Interação 0,26 2 0,13 0,14 3,55
Erro 17,14 18 0,95
Total 34,92 23
-
EXEMPLO 9.6( Barbetta, pg. 260)
Conclui-se assim que tanto as diferentes
topologias C1, C2 e C3, (𝑓 = 5,44 > 𝑓𝑐 = 3,55) ,quanto os diferentes protocolos utilizados L1 e L2, (𝑓
-
EXEMPLO 9.6( Barbetta, pg. 260)
• Análise dos resíduos e do perfil das médias para
comprovar as suposições de normalidade e
variância constante dos dados.
• As médias são determinadas pela equação:
𝑦𝑖𝑗. =1
𝑛
𝑘=1
𝑛
𝑦𝑖𝑗𝑘
• Os resíduos são a diferença entre os valores
observados e a média dos subgrupos:𝑒𝑖𝑗𝑘 = 𝑦𝑖𝑗𝑘 − 𝑦𝑖𝑗.
-
EXEMPLO 9.6( Barbetta, pg. 260)
(a) Perfil das médias (b) Análise dos Resíduos
-
EXEMPLO 9.6( Barbetta, pg. 260)
Observando o perfil das médias podemos
observar diferenças entre os níveis dos dois fatores e
a ausência de interação.
Observando o perfil dos resíduos, observamos
que os resíduos se encontram distribuídos de forma
aleatória em torno da linha horizontal, associada ao
resíduo nulo, isso sugere também que as suposições
de normalidade e variância constantes são atendidas,
validando os resultados da ANOVA.
-
CORRELAÇÃO E REGRESSÃO
-
CORRELAÇÃO
• X e Y estão positivamente correlacionadas quando
elas caminham num mesmo sentido;
Ex. Quanto maior o nível de renda da população,
maior é a geração de resíduos;
• Estão negativamente correlacionadas quando elas
caminham em sentidos opostos;
Ex. Quanto menor a temperatura de um liquido,
maior é a presença de gases dissolvidos.
-
CORRELAÇÃO
• EXEMPLO 11.1 (BARBETTA, pg. 317):
No processo de queima da massa cerâmica
para pavimento, corpos de prova foram avaliados por
três variáveis: 𝑋1 = retração linear(%), 𝑋2 =resistência mecânica(MPa), 𝑋3 = absorção deágua(%).
-
CORRELAÇÃO
• EXEMPLO 11.1. Resultados dos ensaios:
Ensaio 𝑋1 𝑋2 𝑋3 Ensaio 𝑋1 𝑋2 𝑋3
1 8,70 38,42 5,54 10 13,24 60,24 0,58
2 11,68 46,93 2,83 11 9,10 40,58 3,64
3 8,30 38,05 5,58 12 8,33 41,07 5,87
4 12,0 47,04 1,10 13 11,34 41,94 3,32
5 9,50 50,90 0,64 14 7,48 35,53 6,00
6 8,58 34,10 7,25 15 12,68 38,42 0,36
7 10,68 48,23 1,88 16 8,76 45,26 4,14
8 6,32 27,74 9,92 17 9,93 40,70 5,48
9 8,20 39,20 5,63 18 6,5 29,66 8,98
-
CORRELAÇÃO
• EXEMPLO 11.1. Diagramas de dispersão:
Variável 𝑋1 (Retração Linear) e 𝑋2 (ResistênciaMecânica):
Resistência Mecânica
Re
tra
çã
o L
ine
ar
60555045403530
14
13
12
11
10
9
8
7
6
Correlação entre Retração Linear e Resistência Mecânica
-
CORRELAÇÃO
• EXEMPLO 11.1. Diagramas de dispersão:
Variável 𝑋1 (Retração Linear) e 𝑋3 (Absorção deÁgua):
Absorção de Água
Re
tra
çã
o L
ine
ar
1086420
14
13
12
11
10
9
8
7
6
Correlação entre Retração Linear e Absorção de Água
-
CORRELAÇÃO
• EXEMPLO 11.1. Diagramas de dispersão:
Variável 𝑋2(Resistência Mecânica) e 𝑋3 (Absorçãode Água):
Absorção de Água
Re
sis
tên
cia
Me
câ
nic
a
1086420
60
55
50
45
40
35
30
Correlação entre Resistência Mecânica e Absorção de Água
-
CORRELAÇÃO
Ideia de construção do Coef. de Correlação de
Pearson:
Padronização:
(𝑖 = 1, 2, … , 𝑛)
(𝑥𝑖 , 𝑦𝑖) (𝑥𝑖′, 𝑦𝑖
′)
𝑥𝑖′ =
𝑥𝑖 − 𝑥
𝑠𝑥𝑦𝑖
′ =𝑦𝑖 − 𝑦
𝑠𝑦
-
CORRELAÇÃO
• Padronização (Exemplo 11.1 a, Barbetta, pg. 317):
-
CORRELAÇÃO
• Padronização (Exemplo 11.1 a, Barbetta, pg. 317):
-
CORRELAÇÃO
• Ideia de construção do Coef. De Correlação de
Pearson:
• Considere os produtos dos valores padronizados:
𝑥𝑖′, 𝑦𝑖
′
𝑥𝑖′ =
𝑥𝑖 − 𝑥
𝑠𝑥𝑦𝑖
′ =𝑦𝑖 − 𝑦
𝑠𝑦(𝑖 = 1, 2, … , 𝑛)
-
CORRELAÇÃO
• Sinais dos produtos dos valores padronizados:
𝒚′
𝒙′
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
-
CORRELAÇÃO
• Sinais dos produtos dos valores padronizados:
𝑖
𝑥𝑖′𝑦𝑖
′ > 0
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
-
CORRELAÇÃO
• Sinais dos produtos dos valores padronizados:
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
𝑖
𝑥𝑖′𝑦𝑖
′ < 0
-
CORRELAÇÃO
• Sinais dos produtos dos valores padronizados:
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ negativos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
Quadrantes com
𝑥𝑖′, 𝑦𝑖
′ positivos
𝑖
𝑥𝑖′𝑦𝑖
′ ≈ 0
-
CORRELAÇÃO
• Ideia de construção do Coef. De Correlação de
Pearson:
• Padronização: (𝑥𝑖 , 𝑦𝑖) (𝑥𝑖′, 𝑦𝑖
′):
• Coeficiente de correlação de Pearson:
𝑟 = 𝑖=1
𝑛 (𝑥𝑖′𝑦𝑖
′)
𝑛 − 1
𝑥𝑖′ =
𝑥𝑖 − 𝑥
𝑠𝑥𝑦𝑖
′ =𝑦𝑖 − 𝑦
𝑠𝑦(𝑖 = 1, 2, … , 𝑛)
-
Valores possíveis de r e interpretação da
correlação
-
CORRELAÇÃO
• Exemplo 11.1, matriz de correlações:
Retração
Linear
Resistência
Mecânica
Absorção
de Água
Retração
Linear
1,00 0,75 -0,88
Resistência
Mecânica
0,75 1,00 -0,84
Absorção
de Água
-0,88 -0,84 1,00
-
CORRELAÇÃO
• Interpretando a matriz de correlações, observamos
que entre resistência mecânica e retração linear
temos correlação positiva de moderada a forte, e
entre retração linear e absorção de água temos
correlação negativa forte.
-
CORRELAÇÃO
• Outra forma de calcular a correlação r:
𝑟 =𝑛 (𝑥𝑖 ∗ 𝑦𝑖) − ( 𝑥𝑖)( 𝑦𝑖)
𝑛 𝑥𝑖2 − 𝑥𝑖
2 ∗ 𝑛 𝑦𝑖2 − ( 𝑦𝑖)
2
-
CORRELAÇÃO
• Coeficiente de correlação populacional:
𝜌 = 𝐶𝑜𝑟𝑟 𝑋, 𝑌 = 𝐸𝑋 − 𝜇𝑋
𝜎𝑋∗
𝑌 − 𝜇𝑌𝜎𝑌
𝜇𝑋 = 𝐸 𝑋 𝜎𝑋 = 𝑉(𝑋)
𝜇𝑌 = 𝐸 𝑌 𝜎𝑌 = 𝑉(𝑌)
-
CORRELAÇÃO
• INFERÊNCIA SOBRE 𝜌:
Dada uma amostra aleatória simples
𝑋1, 𝑌1 , 𝑋2, 𝑌2 , … , (𝑋𝑛, 𝑌𝑛) , do par de variáveisaleatórias 𝑋, 𝑌 , o coeficiente r pode ser consideradouma estimativa de 𝜌.
-
CORRELAÇÃO
• TESTE DE SIGNIFICÂNCIA DE 𝜌:
• H0: 𝜌 = 0 (as variáveis X e Y não sãocorrelacionadas);
• H1: 𝜌 ≠ 0 (as variáveis X e Y são correlacionadas;(pode também ser unilateral);
• Admitindo (X, Y) com distribuição normal bivariada,
a Tabela 10 do Apêndice do livro Estatística para
Cursos de Engenharia e Informática (BARBETTA),
apresenta o valor absoluto mínimo de r para se
rejeitar H0.
-
REGRESSÃO
• REGRESSÃO LINEAR SIMPLES:
Variável independente
X
Variável dependente
Y
Temperatura do
Forno, ºC
Resistência Mecânica da
Cerâmica, Mpa
Quantidade de
Aditivo, %
Octanagem
da Gasolina
Renda, (R$) Consumo, (R$)
Memória RAM do
Computador, Gb
Tempo de resposta
do sistema, (s)
Área construída
do imóvel, m²
Preço do
imóvel, R$
-
REGRESSÃO
• Ex. 11.2, (Barbetta, pg. 325):
Considere o experimento que se analisa a
octanagem da gasolina (Y) em função da adição de
um novo aditivo (X). Para isso, foram realizados
ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de
aditivo. Os resultados são mostrados a seguir:
X Y
1 80,5
2 81,6
3 82,1
4 83,7
5 83,9
6 85,0
80
81
82
83
84
85
86
0 1 2 3 4 5 6 7
Índic
e d
e O
cta
nagem
Quantidade de Aditivo (%)
Y
-
REGRESSÃO
• MODELO:
𝑌 =𝑃𝑟𝑒𝑑𝑖𝑡𝑜 𝑝𝑜𝑟 𝑋,
𝑠𝑒𝑔𝑢𝑛𝑑𝑜 𝑢𝑚𝑎 𝑓𝑢𝑛çã𝑜+
𝐸𝑓𝑒𝑖𝑡𝑜𝐴𝑙𝑒𝑎𝑡ó𝑟𝑖𝑜
𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝑒𝑖
• 𝛼 e 𝛽 são parâmetros;
Regressão
Linear
Simples
-
REGRESSÃO
Modelo de regressão linear simples:
• Em termos das variáveis: 𝐸 𝑌 = 𝛼 + 𝛽𝑋;
• Em termos dos dados: 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝑒𝑖;
• Suposições:
• os termos de erro (𝜀1, 𝜀2, … , 𝜀𝑛 ) são variáveisaleatórias independentes;
• 𝐸 𝜀𝑖 = 0;• 𝑉 𝜀𝑖 = 𝜎
2; e
• 𝜀𝑖 tem distribuição normal (𝑖 = 1, 2, … , 𝑛).
-
REGRESSÃO
• Método dos mínimos quadrados para estimar 𝛼 e𝛽:
• Minimizar em relação a 𝛼 e 𝛽:
𝑆 = 𝜀𝑖2 = 𝑌𝑖 − 𝛼 + 𝛽𝑥𝑖 ²
•𝜕𝑆
𝜕𝛼= 0
•𝜕𝑆
𝜕𝛽= 0
-
REGRESSÃO
• Método dos mínimos quadrados para estimar 𝛼 e𝛽:
• Resultados das derivadas parciais:
Estimativa de 𝛽:
𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)
𝑛 𝑥𝑖2 − ( 𝑥𝑖)²
Estimativa de 𝛼:
𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖
𝑛Reta de regressão construída com os dados:
𝑦 = 𝑎 + 𝑏𝑥
-
REGRESSÃO
• EXEMPLO NUMÉRICO:
𝒊 𝒙𝒊 𝒚𝒊1 20 98
2 25 110
3 30 112
4 35 115
5 40 122
90
95
100
105
110
115
120
125
130
15 20 25 30 35 40 45
Tem
po d
e R
eação
Idade
Diagrama de Dispersão
-
REGRESSÃO
• EXEMPLO NUMÉRICO:
𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)
𝑛 𝑥𝑖2 − ( 𝑥𝑖)²
𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖
𝑛
𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒙𝒊𝒚𝒊
1 20 98 400 1960
2 25 110 625 2750
3 30 112 900 3360
4 35 115 1225 4025
5 40 122 1600 4880
150 557 4750 16975
Reta de Regressão:
𝑦 = 𝑎 + 𝑏 ∗ 𝑥
-
REGRESSÃO
• EXEMPLO NUMERICO:
𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)
𝑛 𝑥𝑖2 − ( 𝑥𝑖)²
𝑏 =5 ∗ 16975 − (150 ∗ 557)
5 ∗ 4750 − (150)²= 1,06
𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒙𝒊𝒚𝒊
150 557 4750 16975
-
REGRESSÃO
• EXEMPLO NUMÉRICO:
𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖
𝑛
𝑎 =557 − 1,06 ∗ 150
5= 79,6
-
REGRESSÃO
• EXEMPLO NUMÉRICO:
Reta de Regressão:
𝑦 = 𝑎 + 𝑏 ∗ 𝑥• 𝑎 = 79,6; 𝑏 = 1,06;
𝑦 = 79,6 + 1,06𝑥
𝑥 = 20 𝑦 = 100,8
𝑥 = 40 𝑦 = 122,0
-
REGRESSÃO
• EXEMPLO NUMÉRICO:
90
95
100
105
110
115
120
125
15 20 25 30 35 40 45
Tem
po d
e R
eação
Idade
Diagrama de Dispersão
-
REGRESSÃO
• QUALIDADE DO AJUSTE:
Após determinada a reta de regressão, deve-
se verificar a qualidade do ajuste do modelo, que
pode ser feito por:
• Análise de variância do modelo;
• Análise dos resíduos;
-
REGRESSÃO
• RETA DE REGRESSÃO E RESÍDUOS:
• Valores preditos:
𝑦𝑖 = 𝑎 + 𝑏 ∗ 𝑥𝑖
• Resíduos:
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖
-
REGRESSÃO
• ANÁLISE DE VARIÂNCIA DO MODELO:
• Desvio em relação
a média aritmética:
𝑑𝑖 = 𝑦𝑖 − 𝑦
• Desvio em relação à
reta de regressão
(resíduo da
regressão):
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖
-
REGRESSÃO
• SOMA DE QUADRADOS:
𝑦𝑖 − 𝑦2 = 𝑦𝑖 − 𝑦
2 + 𝑦𝑖 − 𝑦𝑖2
SQT
Variação total
SQR
Variação explicada
pela equação de
regressão.
SQE
Variação não
explicada
-
REGRESSÃO
• SOMA DE QUADRADOS:
𝑆𝑄𝑇 = 𝑦𝑖 − 𝑦 ² = 𝑦𝑖2 −
𝑦𝑖 ²
𝑛
𝑆𝑄𝐸 = 𝑦𝑖 − 𝑦𝑖2 = 𝑦𝑖
2 − 𝑎 𝑦𝑖 − 𝑏 𝑥𝑖𝑦𝑖
𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸
Coeficiente de Determinação:
𝑅2 =𝑆𝑄𝑅
𝑆𝑄𝑇= 1 −
𝑆𝑄𝐸
𝑆𝑄𝑇
-
REGRESSÃO
• Medidas de Qualidade do Ajuste:
Coeficiente de Determinação(R²):
𝑅2 =
𝑉𝑎𝑟𝑖𝑎çã𝑜𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎𝑉𝑎𝑟𝑖𝑎çã𝑜𝑇𝑜𝑡𝑎𝑙
= 𝑦𝑖 − 𝑦 ²
𝑦𝑖 − 𝑦 ²
0 ≤ 𝑅2 ≤ 1Matematicamente, R² é o
quadrado do coeficiente
de correlação de Pearson.
-
REGRESSÃO
• Continuação Exemplo 11.2:
• O que pode-se concluir sobre a equação de
regressão?
y = 0,8857x + 79,7R² = 0,975
80
80,5
81
81,5
82
82,5
83
83,5
84
84,5
85
85,5
0 1 2 3 4 5 6 7
Índic
e d
e O
cta
nage
m
Quantidade de Aditivo(%)
Y
-
REGRESSÃO
• Continuação Exemplo 11.2:
• A equação de regressão afirma que 97,5% do
índice de octanagem pode ser explicado por uma
relação linear com a quantidade de aditivos.
-
• Análise de Variância do Modelo:
yFonte de Variação
gl SQ QM 𝑅𝑎𝑧ã𝑜 𝑓
Regressão 1 𝑆𝑄𝑅 = 𝑦𝑖 − 𝑦 ² 𝑄𝑀𝑅 =𝑆𝑄𝑅
1𝑓 =
𝑄𝑀𝑅
𝑄𝑀𝐸
Erro 𝑛 − 2 𝑆𝑄𝐸 = 𝑦𝑖 − 𝑦𝑖 ² 𝑄𝑀𝐸 =𝑆𝑄𝐸
𝑛 − 2
Total 𝑛 − 1 𝑆𝑄𝑇 = 𝑦𝑖 − 𝑦 ²
REGRESSÃO
-
REGRESSÃO
• Teste de Significância do Modelo:
𝐸 𝑌 = 𝛼 + 𝛽 ∗ 𝑋
• H0: 𝛽 = 0 e H1: 𝛽 ≠ 0;
• Distribuição de frequência para a razão 𝑓 :distribuição 𝑓 com 𝑔𝑙 = 1 no numerador e 𝑔𝑙 = 𝑛− 2 no denominador. (Usar Tabela 6 do apêndicedo Livro Barbetta, citado nas referências).
-
REGRESSÃO
• Exemplo 11.2:𝑆𝑄𝑅 = 80,59 − 82,80 2 + 81,47 − 82,80 2 + ⋯ = 13,73
𝑆𝑄𝑇 = 80,50 − 82,80 + 81,60 − 82,80 + ⋯ = 14,08
𝑆𝑄𝐸 = 80,50 − 80,59 2 + 81,60 − 81,47 + ⋯ = 0,35
𝑄𝑀𝑅 =13,73
1= 13,73
𝑄𝑀𝐸 =0,35
4= 0,088
𝑅𝑎𝑧ã𝑜 𝑓 =13,73
0,088= 156,26
-
REGRESSÃO
• Exemplo 11.2:
Fonte de
Variação
gl SQ QM 𝑅𝑎𝑧ã𝑜 𝑓
Regressão 1 13,73 13,73 156,26
Erro 4 0,35 0,088
Total 5 14,08
-
REGRESSÃO
• Distribuição f com gl=1 e 4:
Possíveis valores de f, sob H0.
-
REGRESSÃO
• Valor p na distribuição F:
𝑓Amostra
0
-
REGRESSÃO
• Abordagem clássica, regra de decisão:
𝑓 calculado:
0
Rejeita H0Aceita H0
-
REGRESSÃO
• Suposições do Modelo:
𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖Onde:
• Os termos de erro ( 𝜀1, 𝜀2, … , 𝜀𝑛 ), são variáveisaleatórias independentes;
• 𝐸 𝜀𝑖 = 0;• 𝑉 𝜀𝑖 = 𝜎
2;
• 𝜀𝑖 tem distribuição normal (𝑖 = 1, 2, … , 𝑛).
-
REGRESSÃO
• Ilustração da verdadeira distribuição de
probabilidades em torno da verdadeira regressão:
-
REGRESSÃO
• Análise dos resíduos: é um diagnóstico das
suposições do modelo:
• Valores preditos:
• 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖;
• Resíduos:
• 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖.
-
REGRESSÃO
• Análise dos Resíduos:
Gráfico dos dados
(𝑥𝑖 , 𝑦𝑖)
Gráfico dos Resíduos
(𝑥𝑖 , 𝑒𝑖)
As suposições do modelo parecem satisfeitas?
-
REGRESSÃO
• Análise dos Resíduos:
• Pode-se perceber que nos gráficos anteriores não
há nenhum ponto discrepante no gráfico dos
dados, nota-se também que os resíduos possuem
média aproximadamente zero, comprovando as
suposições do modelo.
-
REGRESSÃO
• Análise dos Resíduos:
Gráfico dos dados
(𝑥𝑖 , 𝑦𝑖)
Gráfico dos Resíduos
(𝑥𝑖 , 𝑒𝑖)
As suposições do modelo parecem satisfeitas?
-
REGRESSÃO
• Análise dos Resíduos:
Um ponto discrepante nos dados pode forçar
uma inclinação da reta, sugerindo uma tendência não
compatível com as demais observações.
Geralmente ocorre em amostras com poucas
observações.
É necessário, nesse caso, buscar a razão
deste ponto discrepante, que pode ser algum erro,
alguma falha no experimento, ou pode ser
considerada uma situação atípica, sendo necessário
uma nova análise, sem esse ponto discrepante.
-
REGRESSÃO
• Análise dos Resíduos:
Gráfico dos dados
(𝑥𝑖 , 𝑦𝑖)
Gráfico dos Resíduos
(𝑥𝑖 , 𝑒𝑖)
As suposições do modelo parecem satisfeitas?
-
REGRESSÃO
• No caso anterior, recomenda-se a aplicação da
transformação logarítmica, tanto para os valores
de X quanto para os valores de Y, estabelecendo o
seguinte modelo:
𝑙𝑜𝑔 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑙𝑜𝑔 𝑥𝑖 + 𝜀𝑖
-
REGRESSÃO
• Análise dos Resíduos:
Gráfico dos Resíduos
(𝑥𝑖 , 𝑒𝑖)
As suposições do modelo parecem satisfeitas?
-
REGRESSÃO
• O gráfico anterior apresenta uma relação não
linear, em que Y crescendo rapidamente com
valores pequenos de X e crescendo lentamente
com valores grandes de X.
• Situação típica onde se transforma somente os
dados da variável X, considerando o seguinte
modelo para os dados:
𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑙𝑜𝑔 𝑥𝑖 + 𝜀𝑖
-
REGRESSÃO
• Análise dos Resíduos:
Gráfico dos dados
(𝑥𝑖 , 𝑦𝑖)
Gráfico dos Resíduos
(𝑥𝑖 , 𝑒𝑖)
As suposições do modelo parecem satisfeitas?
-
REGRESSÃO
• Os gráficos anteriores sugerem os seguintes
problemas: relação não linear e aumento da
variância a medida que X aumenta. Nesse caso, é
recomendado uma transformação logarítmica na
variável Y, ajustando o seguinte modelo aos dados:
𝑙𝑜𝑔 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝜀𝑖
-
REGRESSÃO
Busca de um modelo adequado:
• Suposição de linearidade entre x e y: uso de
transformações;
• Suposição de variância constante: transformações
para estabilizar a variância ou uso do método dos
mínimos quadrados generalizados;
• Suposição de independência entre as
observações: transformações, uso do método dos
mínimos quadrados generalizados ou aplicação de
técnicas de séries temporais;
• Suposição de distribuição normal para os erros:
uso de transformações.
-
REGRESSÃO
• Modelos Linearizáveis:
𝑦 = 𝛼 + 𝛽 log 𝑋 𝑦 = 𝛼 + 𝛽 log 𝑥
-
REGRESSÃO
• Modelos Linearizáveis:
𝑦 = 𝛼 ∗ 𝛽𝑥 𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝛼 + log 𝛽 ∗ 𝑥
-
REGRESSÃO
• Transformações para estabilizar a variância:
-
REGRESSÃO
• Transformações para estabilizar a variância:
Alguns resultados teóricos;
y com distribuição
de Poisson𝑦′ = 𝑦
y com distribuição
de Binomial𝑦′ = 𝑠𝑒𝑛−1 𝑦
-
REGRESSÃO
• Transformações para estabilizar a variância:
Se o desvio padrão de y aumenta
proporcionalmente em relação ao
valor esperado de y𝑦′ = 𝑙𝑜𝑔 𝑦
-
REFERÊNCIAS
• BARBETTA, Pedro A.; REIS, Marcelo. M.;
BORNIA, Antonio C. Estatística para cursos de
engenharia e informática. 3 ed. São Paulo:
Editora Atlas, 2010.