PSICOMETRIA NA GARANTIA DE QUALIDADE DA...

17
33 Science in Health jan-abr 2012; 3(1): 33-49 ISSN 2176-9095 MINI R EVISÃO/MINI R EVIEW PSICOMETRIA NA GARANTIA DE QUALIDADE DA EDUCAÇÃO MÉDICA: CONCEITOS E APLICAÇÕES PSYCHOMETRY AND MEDICAL EDUCATION QUALITY: CONCEPTS AND APPLICATION Carlos Fernando Collares 1 Waldir Logulo Parizoto Grec 2 José Lúcio Martins Machado 3 RESUMO O objetivo desta revisão é descrever os conceitos básicos em Psicometria e apresentar exemplos de suas aplica- ções na educação médica contemporânea. Este trabalho aborda as diferenças entre a teoria clássica dos testes, a teoria de resposta ao item e a teoria da generalizabilidade, a comparação entre as análises fatorial exploratória e confirmatória, a utilização da modelagem de equações estruturais, a determinação da dimensionalidade e os méto- dos para obtenção de coeficientes de validade e confiabilidade de instrumentos de avaliação. PALAVRAS-CHAVES: Psicometria • Educação Médica • Avaliação Educacional. ABSTRACT The aim of this review is to describe basic psychometric concepts as well as present examples of its application in contemporary medical education. Among the themes discussed in this paper are the differences between classical test theory and item response theory, the comparison between exploratory and confirmatory factor analyses, the usage of structural equation modeling, the determination of dimensionality, and the methods for obtaining validity and reliability coefficients of assessment instruments. KEY WORDS: Psychometrics • Education • Educational Measurement. 1 Médico, M.Sc., Professor do Curso de Medicina da Universidade Cidade de São Paulo. 2 Odontólogo, Ph.D., Professor Doutor do Curso de Medicina da Universidade Cidade de São Paulo. 3 Médico, Ph.D., Diretor do Curso de Medicina da Universidade Cidade de São Paulo.

Transcript of PSICOMETRIA NA GARANTIA DE QUALIDADE DA...

33

Science in Health jan-abr 2012; 3(1): 33-49

ISSN 2176-9095 Mini Revisão/Mini Review

PSICOMETRIA NA GARANTIA DE QUALIDADE DA EDUCAÇÃO MÉDICA: CONCEITOS E APLICAÇÕES

PSYCHOMETRY AND MEDICAL EDUCATION QUALITY: CONCEPTS AND APPLICATION

Carlos Fernando Collares1

Waldir Logulo Parizoto Grec2

José Lúcio Martins Machado3

R E S U M O

O objetivo desta revisão é descrever os conceitos básicos em Psicometria e apresentar exemplos de suas aplica-ções na educação médica contemporânea. Este trabalho aborda as diferenças entre a teoria clássica dos testes, a teoria de resposta ao item e a teoria da generalizabilidade, a comparação entre as análises fatorial exploratória e confirmatória, a utilização da modelagem de equações estruturais, a determinação da dimensionalidade e os méto-dos para obtenção de coeficientes de validade e confiabilidade de instrumentos de avaliação.

PAL AVR AS - CHAVE S : Psicometria • Educação Médica • Avaliação Educacional.

A B S T R A C T

The aim of this review is to describe basic psychometric concepts as well as present examples of its application in contemporary medical education. Among the themes discussed in this paper are the differences between classical test theory and item response theory, the comparison between exploratory and confirmatory factor analyses, the usage of structural equation modeling, the determination of dimensionality, and the methods for obtaining validity and reliability coefficients of assessment instruments.

KE Y WORDS : Psychometrics • Education • Educational Measurement.

1 Médico, M.Sc., Professor do Curso de Medicina da Universidade Cidade de São Paulo.2 Odontólogo, Ph.D., Professor Doutor do Curso de Medicina da Universidade Cidade de São Paulo. 3 Médico, Ph.D., Diretor do Curso de Medicina da Universidade Cidade de São Paulo.

34

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

34

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

TEORIA CLÁSSICA DOS TESTES E TEORIA DE RESPOSTA AO ITEM

Ainda que erroneamente classificada como ramo da Estatística, a Psicometria deve ser de-finida como o ramo da Psicologia que procura expressar numericamente os fenômenos psico-lógicos ao invés da mera descrição verbal (Pas-quali1, 2009). O uso de técnicas psicométricas na Educação decorreu da necessidade de determi-nar o grau de aptidão dos indivíduos avaliados por meio de instrumentos válidos e confiáveis, características particularmente fundamentais para avaliações decisivas (“high-stakes examina-tions”), como aquelas realizadas no âmbito da graduação médica, por exemplo.

A avaliação na educação médica transcende o problema de mensuração – deve fazer parte do próprio processo de ensino-aprendizagem. Desse modo, a avaliação exige uma abordagem programática, onde diversos métodos de avalia-

ção devem ser empregados. Para a escolha de tais métodos, deve-se considerar não apenas suas propriedades psicométricas de validade e confiabilidade, mas também seu impacto edu-cacional, seu alinhamento com as competências esperadas para o discente, sua aceitação peran-te a comunidade acadêmica, sua viabilidade de acordo com os recursos disponíveis, além do contexto e do ambiente de avaliação.

A teoria clássica dos testes, assim denomina-da por ser identificada com as origens da Psico-metria, dá ênfase nas variáveis mensuradas, ou seja – o foco é no comportamento e nas variá-veis observadas. Na teoria clássica dos testes os escores são compostos pela soma dos valores que realmente representam a dimensão que se pretende medir com valores que indicam o erro cometido no processo de medida. Os resultados podem ser representados por escores brutos ou padronizados e têm suas análises e interpreta-ções de confiabilidade e erro padrão de medida sempre calculados para a prova como um todo (Pasquali1, 2009).Tendo em vista essas limitações,

Figura 1

Mapa item-pessoa de um teste de progresso do curso de Medicina da UNICID.

35

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

35

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

uma nova corrente psicométrica surgiu, a teoria de resposta ao item (TRI) que procura contemplar o estudo da interação entre o sujeito e o item. Enquanto a teoria clássica dos testes concentra--se no comportamento observado (no caso, a análise dos escores ou resultados encontrados), a teoria de resposta ao item supõe a existência de um traço latente (“theta”) acoplado matema-ticamente às variáveis observadas (O comporta-mento observado é denominado “tau”). O traço latente, ou “theta” é uma variável oculta, que não é observada diretamente, no qual o grau de apti-dão “verdadeiro” é conhecido a partir do padrão de respostas observadas, ou “tau”. A teoria de resposta ao item (TRI) é o nome dado ao con-junto de modelos matemáticos probabilísticos que relacionam a probabilidade de acerto em cada questão (ou item) com o grau de habilidade (“theta”) da pessoa testada.

Os modelos matemáticos empregados na TRI são regressões logísticas de um, dois ou três parâmetros, nos quais a habilidade das pessoas, ou "theta" (ou simplesmente µ), é colocada na mesma escala métrica da dificuldade das ques-tões (“b”). Ao utilizarmos a mesma métrica para a habilidade dos testandos e para a dificulda-de das questões, podemos tecer comparações úteis e visualizar graficamente as probabilidades de acerto da questão (Pasquali e Primi2, 2003). A Figura 1 abaixo permite a visualização da relação entre as distribuições de nível de habilidade dos examinandos (linha preta) e de nível de dificul-dade das questões (linha azul), conforme a mo-delagem probabilística proporcionada pela TRI.

APLICAÇÕES DA TEORIA DE RESPOSTA AO ITEM

No caso do teste de progresso do curso de Medicina da UNICID, o modelo de TRI empre-gado é o modelo logístico de 3 parâmetros, o mesmo utilizado na correção do ENEM. A TRI possui várias características que superam com vantagem a teoria clássica dos testes, conforme os parágrafos abaixo.

Primeira vantagem: Por analisar cada ques-

tão individualmente, a TRI consegue calcular o grau de confiabilidade e o erro padrão de me-dida para cada ponto do espectro de habilidade (“theta”), ao invés de calcular tais valores apenas para a prova inteira como na Teoria Clássica.

Segunda vantagem: Os graus de dificulda-de (parâmetro b), discriminação (parâmetro a) e acerto ao acaso (parâmetro c) são parâmetros que podem ser colocados nas equações exis-tentes para o cálculo da relação entre a pro-babilidade de acerto e a habilidade (“theta”) do testando, algo que a Teoria Clássica não é capaz de fazer.

Terceira vantagem: Quando obedecidos os pressupostos exigidos pelo modelo (p. ex., unidimensionalidade das questões - isto é, as questões medem o mesmo “construto”, o mes-mo “traço latente”/”theta”), os parâmetros das questões (dificuldade, discriminação e acerto ao acaso), são razoavelmente invariantes, ou seja, possuem valores consideravelmente consisten-tes e generalizáveis, sendo constantes de forma independente da amostra na qual são aplicadas. Nas questões do teste de progresso individual (TPI), que é aplicado semestralmente pelo curso de Medicina da UNICID, tais parâmetros são cal-culados, possibilitando a equalização das provas. Com isso, o estudante de Medicina da UNICID pode avaliar seu grau de progressão de forma quantitativa, independente de variações na difi-culdade das provas.

Quarta vantagem: A invariância dos parâ-metros citada acima possibilita a utilização da testagem adaptativa computadorizada (ou CAT, de computerized adaptive testing), na qual o computador escolhe as questões seguintes de acordo com o seu desempenho nas questões anteriores. Essa metodologia virtualmente elimi-na, ou pelo menos diminui consideravelmente o problema de “colas” e vazamento de provas. Além disso, cabe ressaltar que qualquer prova será tão mais confiável quanto mais próxima ela for do nível de habilidade do testando. Com o uso da CAT, os algoritmos são empregados para que as questões sejam escolhidas de acordo

36

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

36

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

Figura 2

Curva característi-ca de um item de teste de progresso da UNICID.

com o conteúdo a ser mensurado mais princi-palmente de acordo com o nível de habilidade demonstrado pelo testando. Desse modo, o uso de CAT acarreta um ganho no grau de confiabili-dade da prova, com simultânea redução do tem-po de testagem. Em outras palavras, com a utili-zação da testagem adaptativa computadorizada pode-se saber com mais certeza se a prova está medindo “direito” o que se pretende mensurar. A utilização da CAT pela UNICID já foi testada (Collares et al.3, 2012)..

Quinta vantagem: Como a TRI leva em conta o grau de dificuldade das questões para a com-posição da nota, pessoas com o mesmo número de acertos poderão ter notas diferentes. Dá-se mais valor ao padrão de respostas do testan-do do que ao número de acertos. Acertos em questões mais difíceis valem mais. Com isso, o testando fica livre dos pesos conferidos arbitra-riamente pelos professores e tem seu desempe-nho mais adequadamente valorizado.

Sexta vantagem: A identificação de “chutes” e “colas” fica facilitado, pois a probabilidade de

que um estudante com baixo nível de habilidade acerte questões com alto nível de dificuldade é baixa. Pode-se não provar a “cola” ou o “chu-te”, mas corrobora-se a legitimidade da suspeita. Com isso, aumenta-se a credibilidade da avalia-ção discente realizada no curso médico da UNI-CID.

COMO SE CALCULA O ESCORE PELA TEORIA DE RESPOSTA AO ITEM?

Para que obtenhamos o valor de theta das pessoas (o valor da “habilidade” ou “aptidão” dos testandos) precisa-se dos valores de theta das questões. O theta das questões é obtido a partir de diferentes métodos de estimação e a calibração dessa estimativa é feita por meio de um processo iterativo (repetitivo, que vai e volta), até obter-se o valor “correto”. O mesmo se faz para os parâmetros de discriminação e acerto ao acaso. Os valores de theta das pessoas e os parâmetros dos itens (questões) são calculados mais frequentemente por meio do método da

37

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

37

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

máxima verossimilhança com correção pelo método bayesiano modal, tendo-se como prin-cípio a padronização desses valores da mesma forma como nos escores z, nos quais a média é igual a zero (0,0) e o desvio padrão é igual a um (1,0). Pode-se centrar a média zero na dificuldade das questões, se assim desejado, para possibilitar a equalização de provas com questões total-mente diferentes. Contudo, se não há interesse em equalizar provas, o mais comum é centrar a média zero para as habilidades dos testandos. Em suma, o theta é um valor derivado do desvio padrão (isto é, a raiz quadrada da variância).

O cálculo dos parâmetros do item (questão) permite a geração de um gráfico denominado curva característica do item. A análise gráfica de uma questão de um teste de progresso do curso de Medicina da UNICID pode ser observada na Figura 2. A curva em questão mostra um item

com elevadas propriedades psicométricas de discriminação e ajuste ao modelo.

Atualmente, a teoria clássica dos testes e a teoria de resposta ao item são utilizadas de forma complementar, ambas fornecendo infor-mações úteis ao pesquisador (Pasquali1, 2009). Para o teste de progresso da UNICID ambos os tipos de análises psicométricas são emprega-das e ambos os resultados são publicados para apreciação de toda a comunidade acadêmica.

ANÁLISE FATORIAL EXPLORATÓRIA E CONFIRMATÓRIA

É necessário citar que uma das técnicas es-tatísticas multivariadas que está relacionada em parte com o florescimento da teoria de resposta

Figura 3

Gráfico de componentes

mostrando as variáveis

de um questionário

sobre os dois componentes encontrados

(“fatores”)

38

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

38

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

ao item, particularmente por conta da avaliação da dimensionalidade dos instrumentos de avalia-ção, é a análise fatorial, uma técnica de análise multivariada que busca analisar a estrutura inter-na das correlações ou covariâncias entre todas as variáveis (no caso, questões) verificando sua relação com uma ou mais variáveis latentes, não observáveis.

A redução a um número menor de variá-veis latentes, também chamadas muitas vezes de “fatores”, “dimensões” ou “componentes”, é algo realizado no intuito de maximizar o poder de explicação do conjunto de todas as variáveis e possibilitar a identificação de subgrupos de questões que avaliem uma mesma habilidade ou capacidade cognitiva (Pasquali1, 2009, Thomp-son4, 2004). As técnicas de análise fatorial explo-ratória e confirmatória ajudam a compreender determinados conceitos pertinentes aos temas de confiabilidade e validade dos instrumentos de avaliação.

Na maior parte das vezes os termos análise de fatores comuns e análise de componentes principais são utilizados como sinônimos, porém não o são, mesmo não havendo grande diferen-ça em seus métodos e resultados, afinal ambos são métodos de análise fatorial. A diferença con-ceitual importante aqui é que na análise de com-ponentes principais a variância a ser considerada para a extração dos fatores é a variância total; na análise de fatores comuns considera-se ape-nas a variância comum entre as variáveis.

A análise fatorial exploratória analisa o pa-drão de correlações ou covariâncias existentes entre as variáveis e utiliza esses padrões de cor-relações para agrupar suas variáveis em fatores, os quais são variáveis não-observadas que se pretende medir a partir das variáveis observa-das. Pode-se especificar uma rotação ortogonal (pretendendo que não haja correlação entre os fatores, como a rotação varimax), ou uma ro-tação oblíqua (na qual é assumida a existência

Figura 4

Gráfico de dispersão com linha de regressão linear entre os escores brutos no teste de progresso e os escores brutos na prova International Foundations of Medicine de estudantes do curso de Medicina da UNICID

39

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

39

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

Questão com 52% de respostas cor-

retas. Ótimo índice discriminativo (0,42). Correlação ponto--bisserial adequada

na alternativa correta (C) = 0,34. Os dados

sinalizam que a questão foi bem

formulada

de correlação entre os fatores, como é o caso da rotação oblimin). Geralmente se pressupõe correlação entre os fatores e, por isso, rotações oblíquas são preferidas. Considerando-se que os fatores (ou componentes) são eixos nos quais as variáveis se posicionam, a análise fatorial ex-ploratória pode gerar um gráfico que mostra o quanto cada variável mede cada fator chamado “component plot”, ou gráfico de componentes. Um exemplo de gráfico de componentes de um questionário com dois fatores pode ser observa-do na Figura 3.

Já a análise fatorial confirmatória parte da premissa de que já se tenha uma teoria sobre quais variáveis medem quais fatores (também conhecidos como construtos na Psicologia) e que se quer confirmar o grau de ajuste dos da-dos observados à teoria hipotetizada. Para isso, pode-se utilizar a modelagem de equações es-

truturais, na qual as relações entre variáveis ob-servadas e fatores são modeladas em uma série de regressões lineares, utilizando-se, para tanto, uma matriz de covariâncias. Você pode rever seu modelo teórico e mudá-lo, ligando constru-tos e variáveis de outras formas.

MODELAGEM DE EQUAÇÕES ESTRUTURAIS

Uma técnica metodologicamente imbricada à análise fatorial confirmatória é a modelagem de equações estruturais. A modelagem de equa-ções estruturais é um termo que não designa uma técnica estatística específica, mas a uma série de técnicas e procedimentos utilizados em conjunto. Outros termos como “análise de es-trutura de variância”, “modelagem de estrutura de covariância” ou “análise de estruturas de co-variância” também podem ser encontrados na

40

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

40

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

lagem matemática que utiliza diversos tipos de equações (funções) logísticas. Na modelagem de equações estruturais as regressões não precisam ocorrer necessariamente entre variáveis obser-vadas: podem ser feitas entre variáveis observa-das e variáveis latentes.

Os modelos podem ter diversas “estruturas”, isto é, as relações entre as diferentes variáveis, expressas em diversas equações, podem ter di-versas configurações espaciais, dependendo da teoria hipotética que se tem a priori, mas que pode sofrer modificações de acordo com os re-sultados obtidos por modelos hipotéticos con-correntes. Você tem uma teoria sobre as rela-ções entre variáveis e quer confirmar sua teoria: a modelagem de equações estruturais permite fazer isso. Por isso, ela é utilizada na análise fa-torial confirmatória de muitos instrumentos de avaliação como evidência da validade de cons-truto dos mesmos. Ao contrário da análise fato-rial exploratória, a análise fatorial confirmatória permite avaliar o grau de ajuste dos resultados

literatura e, na prática, significam a mesma coisa. Outro sinônimo já em desuso é o termo “mode-lagem causal”. A modelagem consiste em quan-tificar de que forma as variáveis observadas são indicativos indiretos de variáveis latentes, não--observadas, também conhecidas como cons-trutos ou fatores. A teoria de resposta ao item (TRI), usada no ENEM e no ENADE, é uma forma de modelagem ao transformar o mero número de acertos em um escore que mede de forma mais precisa o conhecimento cobrado.

As relações entre variáveis podem ser des-critas em termos de correlação, a qual indica o grau de linearidade entre duas variáveis; de covariância, que dá a medida de quanto duas variáveis variam juntas; e de regressão, que é a transformação da relação entre duas variáveis em uma equação. Equações de regressão linear são expressas na forma y = a + bx + resíduo (ou erro). Outras equações de regressão podem ser mais complexas, como a regressão logística. A teoria de resposta ao item (TRI) é uma mode-

Questão com 36% de respostas corretas. Baixo índice discrimina-tivo (0,09). Correlação ponto-bisserial maior na alternativa erra-da (A) = 0,13, que na correta (B) = 0,07. Os dados podem sinalizar tanto uma questão mal formulada quanto problemas no processo ensino-aprendizagem.

41

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

41

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

ao modelo teórico formulado a priori, ou a no-vas teorias reformatadas para melhorar o grau de ajuste (Kline5, 2010).

CORRELAÇÕESO uso e a interpretação de correlações em

Psicometria é algo corriqueiro, inclusive para análise do poder discriminativo do item (ques-tão) pela Teoria Clássica dos Testes. É importante esclarecer que uma correlação significativa não denota a força da associação, nem tampouco uma relação causal. Deve-se ressaltar que além dos coeficientes de correlação e o cálculo de sua significância estatística, a análise gráfica da correlação por meio de scatterplot é altamen-te aconselhável para a melhor verificação da linearidade da relação entre as duas variáveis contínuas, podendo-se também observar grafi-camente o resultado do cálculo da equação de regressão linear.

O coeficiente de correlação, quando elevado ao quadrado (R2) dá a medida do “goodness-of--fit” (ou “bondade de ajuste”, entre outras tradu-ções), que expressa a porcentagem da variação total que é explicada pelo modelo de regressão.

Um exemplo de uso das correlações em Psi-cometria está na Figura 4, na qual aparece repre-sentada graficamente uma correlação bivariada com coeficiente de 0,637, e o R2 resultante de 0,406. Esses dados evidenciam um elevado grau de validade do teste de progresso do curso de Medicina da UNICID em comparação às avalia-ções realizadas por meio da prova do Interna-tional Foundations of Medicine (IFoM), iniciativa do National Board of Medical Examiners (NBME) dos Estados Unidos e do Foundation for Advan-cement of International Medical Education and Research (FAIMER) para aumentar o intercâmbio entre estudantes de Medicina de todo o mun-do. A UNICID é a primeira, e atualmente a única escola médica do Brasil a oferecer o programa IFoM a seus estudantes.

O índice discriminativo é uma das medi-das fundamentais na teoria clássica dos testes e mede a propriedade da questão (ou item) de

discriminar os indivíduos de alto e baixo desem-penho. O poder discriminativo de uma questão é apontado por muitos autores como a principal característica psicométrica a ser considerada na apreciação da qualidade de uma questão. Pode ser calculado de acordo com a diferença obti-da entre os índices de facilidade (percentual de acertos) encontrados nos grupos de alto e baixo desempenho na prova. Assim calculado, porém, o índice discriminativo sofre influência dos índi-ces de facilidade muito altos ou muito baixos, o que pode tornar o cálculo do índice discrimina-tivo pouco confiável, podendo provocar a elimi-nação inadequada de questões apenas por que o índice discriminativo se aproximou de zero.

Além das correlações entre instrumentos, muito empregadas nos estudos de validade de critério, que serão vistas mais adiante, outro tipo de correlação muito usado em Psicometria são as correlações item-total. As correlações item--total constituem outra maneira de representar o poder discriminativo de um item, o que conse-gue amenizar parcialmente a influência de facili-dades ou dificuldades elevadas dos itens.

Dentre as correlações item-total utilizadas destacam-se a clássica correlação de Pearson (entre duas variáveis contínuas), a correlação ponto-bisserial (generalização da correlação de Pearson para quando uma das variáveis é di-cotômica), a correlação bisserial (estimativa da correlação de Pearson quando uma das variá-veis é artificialmente dicotomizada), a correlação phi (quando as duas variáveis são genuinamen-te dicotômicas) e a correlação tetracórica (duas variáveis contínuas com distribuição normal artificialmente dicotomizadas). Uma alternativa possibilitada pela teoria de resposta ao item, ao invés de utilizar o escore bruto na correlação item-total, é utilizar como critério a magnitude do traço latente (escore theta), do qual os itens constituem-se em uma representação compor-tamental. Um exemplo prático do uso de corre-lações item-total pode ser melhor compreendi-do na Figura 5.

Questões com baixo coeficiente de correla-

42

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

42

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

ção item-total e, por consequência, baixo poder discriminativo, afetam negativamente a confia-bilidade do instrumento de avaliação quando medida pelos métodos de consistência interna, como o alfa de Cronbach.

CONFIABIL IDADE DOS INSTRUMENTOS DE AVALIAÇÃO

Confiabilidade ou fidedignidade (do inglês “reliability”) designa a propriedade de um ins-trumento medir com precisão o que quer que esteja sendo medido; descreve a consistência da mensuração. Portanto há uma relação inversa-mente proporcional entre a quantidade de erros de mensuração e o coeficiente de confiabilida-de de um instrumento (Pasquali1, 2009, Franzen6, 2004, Fraenkel et al.7, 2009). Em outras palavras, pode-se dizer que quando perguntamos se um instrumento é confiável estamos questionando “mediu direito?”. O exemplo de repetir a leitura do esfigmomanômetro para “ver se o aparelho

está certo” é uma analogia válida.

Existem diversos métodos para determinação da confiabilidade e da validade de um instru-mento de medida. Todos os métodos apresen-tam suas vantagens e limitações, sobre os quais discorreremos brevemente. Dentre os métodos para a estimação da confiabilidade estão: o método do teste-reteste, o método das formas equivalentes, o método da concordância de es-cores entre observadores, e os métodos de con-sistência interna.

No método do teste-reteste, a confiabilidade é um coeficiente de estabilidade (ou constância), e é calculada pela correlação entre os escores dos mesmos indivíduos no mesmo teste em dois momentos distintos. Nesse método é difícil tan-to a determinação do intervalo ideal entre as duas observações, como o controle de eventos que possam alterar os escores no teste, como problemas pessoais, desinteresse, memorização dos itens do teste, entre outros (Pasquali1, 2009, Franzen6, 2004). No método das formas equiva-

Figura 6

Gráfico com o coefi-ciente de precisão local

conforme o nível de theta mensurado pelo teste de progresso da

UNICID.

43

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

43

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

lentes, a confiabilidade é estimada por meio de um coeficiente de equivalência, o qual é dado pela correlação entre os escores de dois instru-mentos diferentes, mas similares (testes alterna-tivos paralelos). Esse método é mais exequível, pois necessita de apenas uma aplicação, além de ser consonante com o conceito teórico de confiabilidade (precisão); todavia, enfrenta como desvantagem a impossibilidade de se obter for-mas perfeitamente paralelas com questões di-ferentes (Pasquali1, 2009, Fraenkel et al.7, 2009). No método da concordância de escores entre observadores requer-se uma demonstração de que avaliadores independentes atinjam elevados coeficientes de kappa de Cohen (medida estatís-tica de concordância interavaliadores para itens com dois avaliadores) ou elevados coeficientes de correlação intraclasse (medida que possibilita a avaliação da concordância entre três ou mais avaliadores).

Esse método também tem a vantagem de ser consonante com o conceito teórico de confia-bilidade (precisão). É excelente para instrumentos onde os escores decorrem da observação dire-ta do desempenho do estudante por terceiros ou da correção de questões discursivas – ins-trumentos em que a subjetividade do avaliador seria potencialmente mais capaz de causar erros de mensuração. Como exige mais de um exa-

minador, o método da concordância de escores é dificultado em termos de viabilidade; todavia é extremamente desejável, e, se possível, como praxe, em exames decisivos (Franzen6, 2004, Fraenkel et al.7, 2009).

Os métodos de consistência interna para determinação da confiabilidade são mais nume-rosos e incluem o método das duas metades (“split-half procedure”) e os métodos de Kuder--Richardson e do alfa de Cronbach. No método das duas metades calcula-se a correlação entre as duas metades (geralmente questões pares contra questões ímpares) e em seguida aplica-se a correção de Spearman-Brown (2 x coeficiente de correlação das metades / 1 + coeficiente de correlação das metades).

Apesar de evitar problemas inerentes à apli-cação repetida do mesmo teste, é impossível garantir a equivalência das metades e, portanto, esse método entrou em desuso. O método de Kuder-Richardson e o método do alfa de Cron-bach são similares, porém este último tornou-se o método de consistência interna mais utiliza-do nos trabalhos acadêmicos atuais (Pasquali1, 2009, Franzen6, 2004, Fraenkel et al.7, 2009). O alfa de Cronbach também é descrito como uma generalização do método de Kuder-Richardson; porém, ao contrário deste, não necessita que as

Figura 7

Scree plot de uma análise fatorial com autovalores que resultaram numa solução unidimen-sional.

(*) A seta indica o ponto de inflexão no qual os autova-lores passam a se assemelhar

44

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

44

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

questões tenham índices de dificuldade iguais, e por isso será descrito com mais detalhe.

O coeficiente de confiablidade calculado por meio do alfa de Cronbach é uma estimativa da proporção de variância devida a diferenças reais de desempenho e é inversamente proporcional ao erro padrão de medida. O coeficiente do alfa de Cronbach é dado por uma relação entre o número de questões, a soma da variância das questões que compõem o teste e da variância das notas do teste, de acordo com a seguinte fórmula: α = [K / (K -1)] x [1 - (SVI / VNT)], onde K = número de itens da prova; SVI = soma da va-riância de cada um dos itens do teste (questões); e VNT = variância das notas do teste.

Note-se que apesar de não haver consenso sobre a faixa de valores considerados adequa-dos para um coeficiente de alfa de Cronbach, um valor abaixo de 0,5 é certamente tido como baixo; valores acima de 0,6 são geralmente con-siderados aceitáveis; acima de 0,7, bons; e acima de 0,8, ótimos. Valores acima de 0,9 geralmente suscitam a discussão de que os itens são desne-cessariamente numerosos, repetitivos e que es-tejam medindo a mesma coisa (Pasquali1, 2009). As avaliações do curso de Medicina da UNICID são controladas para que os valores de alfa de Cronbach sejam pelo menos maiores que 0,5, sendo que nos últimos testes de progresso do curso de Medicina da UNICID, o alfa de Cronba-ch observado foi maior ou igual a 0,8. Um valor de alfa de Cronbach menor que 0,5 indicaria que mais da metade da variância é devida a erro de mensuração e não a diferenças reais de conhe-cimento ou habilidade.

Ressalta-se que os valores observados desse coeficiente são tipicamente mais baixos em ava-liações com baixo número de itens e testandos. Essa limitação aparente do alfa de Cronbach é demonstrável pela própria fórmula e a possibi-lidade do coeficiente ser artificialmente aumen-tado quanto maior for o número de questões da prova, conforme se pode constatar pelos softwares que calculam a confiabilidade por meio da profecia de Spearman-Brown. Outra

limitação importante desse método é que ele pressupõe a unidimensionalidade do teste – ou seja, que as questões estejam medindo a mes-ma aptidão. Pelo mesmo motivo, um teste divi-dido em subtestes distintos deverá ter o alfa de Cronbach calculado para cada uma das partes que compõem o teste (Pasquali1, 2009). Uma maneira diferente de se avaliar a confiabilidade de um instrumento de avaliação, particularmente apropriado para instrumentos com muitos itens, como é o caso do teste de progresso utilizado pelo curso de Medicina da UNICID, é o méto-do da precisão local. Esse método de avaliação da confiabilidade, possibilitado a partir de da-dos obtidos pela TRI, permite estimar o grau de confiabilidade do instrumento de acordo com o nível de theta mensurado, conforme pode ser observado na Figura 6. Pode-se verificar que a prova analisada teve confiabilidade apenas acei-tável para avaliação de estudantes com baixos níveis de aptidão (“theta”), tornando-se de ótima confiabilidade para a avaliação de estudantes com níveis de aptidão mais elevado.

Quando houver dúvidas sobre a unidimen-sionalidade, emprega-se a análise fatorial para determinar a dimensionalidade do teste (Fran-zen6, 2004). Essa tarefa tem sido simplificada por meio da utilização de pacotes estatísticos que facilitam sua realização, como o SAS (Statistical Analysis System), o SPSS (Statistical Package for the Social Sciences) e, especificamente para a análise fatorial de informação plena, o TESTFACT.

AUTOVETORES, AUTOVALORES E A DIMENSIONALIDADE DOS INSTRUMENTOS DE AVALIAÇÃO

Faz-se necessário um parêntese para expli-carmos um pouco o procedimento de extração de fatores em análise fatorial exploratória. Nem todos os fatores são aproveitáveis numa análise fatorial e há controvérsia sobre os critérios que determinam quando um fator é estatisticamen-te importante. A determinação do número de fatores pode ser facilitada por meio da análise

45

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

45

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

do gráfico de scree plot, técnica advogada por Cattell em 1966 (Field8, 2009) .

O scree plot mostra o número de compo-nentes fatoriais extraídos em relação aos au-tovalores (“eigenvalues”) associados a esses fa-tores. Para entender melhor o scree plot e o conceito de autovalor, é necessário conhecer o conceito de autovetor (“eigenvector”). Os auto-vetores de uma matriz de correlações consistem em representações lineares que são identificá-veis no gráfico de scatterplot pelos maiores e menores diâmetros da elipse visualizável a partir dos pontos formados nesse gráfico.

Para facilitar a compreensão, é necessário procurar visualizar uma elipse em torno dos pontos presentes na Figura 4. Os autovalores, por sua vez, são medidas do comprimento dos autovetores na elipse, ou da figura tridimensio-nal elipsoide – se considerarmos correlações multivariadas. Portanto, ao analisarmos os auto-valores de um conjunto de dados, consegue-se conhecer de que forma as variâncias da matriz de correlações estão distribuídas. Em outras pa-lavras, é possível visualizar as grandezas da figu-ra elipsoide formada na distribuição espacial das variáveis (Field8, 2009).

O número de fatores encontrado geralmente equivale ao número de fatores anterior ao pon-to de inflexão da curva do scree plot, aponta-da pela seta da Figura 7, os quais apresentam autovalores consideravelmente mais elevados à esquerda. Note-se nesse gráfico que o único fator com autovalor maior que 1,0 (critério de Kaiser para determinação do número de fato-res) é o primeiro, demonstrando que o conjunto de dados é unidimensional. Outra possibilidade é a utilização da análise paralela, que utiliza uma matriz de números randômicos para gerar auto-valores maiores que 1, superando o critério de Kaiser em termos de qualidade. Quando os au-tovalores encontrados na matriz estudada forem maiores que aqueles obtidos pela análise parale-la, os respectivos fatores (componentes) devem ser mantidos. Na análise fatorial empregada no exemplo, realizada para um teste progressivo,

como aqueles realizados pela UNICID, é comum haver convergência dos critérios de Cattell, de Kaiser e de análise paralela, apontando para a qualidade unidimensional do instrumento de avaliação analisado. Alternativamente, pode-se empregar o critério de Lord para a avaliação da unidimensionalidade: a comparação progressiva entre os autovalores (eigenvalues) de cada fa-tor; se a diferença entre autovalores for muito menor que a diferença de autovalores da com-paração anterior, sabe-se que o fator anterior, de autovalor significativamente maior, deve ser escolhido como o último.

O detalhamento sobre as rotações emprega-das na extração dos fatores e os métodos de normalização dentre outros detalhes estatísticos fogem ao escopo deste documento. Porém, a rotação varimax, dentre outras rotações ortogo-nais, é mais empregada quando não há correla-ção entre os fatores. Rotações oblíquas, como a oblimin, são utilizadas quando há correlação entre os fatores, o que é o mais comum, pois geralmente os fatores guardam alguma relação entre si, fazendo parte de um mesmo construto ou domínio avaliado.

Se a demonstração de unidimensionalidade é conveniente e desejável por permitir o uso mais livre da teoria clássica dos testes, por outro lado sua demonstração é frustrante e indesejável em estudos que buscam evidências de validade em instrumentos de avaliação que propõem a men-suração de diversos construtos. Quando os re-sultados encontrados nas variáveis observadas são extraídos para um único fator, pode-se infe-rir que os construtos teóricos elaborados eram mais parecidos entre si do que imaginava o pes-quisador. Consequentemente, isso compromete o grau de validade do instrumento que pretende medir tais variáveis latentes.

VALIDADE DOS INSTRUMENTOS DE AVALIAÇÃO

A validade de um instrumento de avaliação é considerada a propriedade de um instrumento

46

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

46

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

ser capaz de medir de fato aquilo que se pro-põe medir. Isso significa que a validade desig-na o grau em que as inferências que fazemos a partir dos escores (resultados) são verdadeiras, corretas. Nesse caso não se deve confundir a validade da mensuração, que abordaremos aqui, com a validade interna de um estudo (quando as diferenças observadas em variáveis dependen-tes são realmente relacionadas à variável inde-pendente estudada) ou a validade externa (pro-priedade de conceber generalizações a partir da amostra estudada). É importante ressaltar que a validade de um instrumento de medida não é uma propriedade intrínseca ao instrumento em si, e sim uma propriedade decorrente do grau de adequação das inferências realizadas a partir dos resultados obtidos (Pasquali1, 2009, Franzen6, 2004, Fraenkel et al.7, 2009). Em outras palavras, quando perguntamos se um instrumento é válido, questionamos “mediu isso mesmo?”. O exemplo do lançamento de dardos acertando todos eles o centro do alvo é uma analogia válida.

Considera-se que a validade é a característi-ca mais importante de um instrumento de avalia-ção. Contudo, quando a confiabilidade do instru-mento é baixa, a medida obtida será imprecisa e, por esse motivo, será limitada a validade das inferências obtidas a partir desse instrumento de avaliação. Convencionou-se que o coeficiente máximo de validade do instrumento será igual ao quadrado do coeficiente de confiabilidade. Por outro lado, é possível que um instrumento confiável não seja válido (por exemplo, quando o coeficiente de confiabilidade de uma prova é alto, mas o conteúdo cobrado nela não foi abordado durante as atividades didáticas). Aqui o exemplo dos dardos acertarem todos no mes-mo local, porém fora do alvo, é uma analogia válida. Por esse motivo, não apenas a interpreta-ção dos estudos de confiabilidade deve prece-der os de validade; como também não se deve presumir a validade de um instrumento somen-te por este ter demonstrado um coeficiente de confiabilidade elevado (Franzen6, 2004, Fraenkel et al.7, 2009).

Pasquali1 (2009) enumerou 31 tipos diferentes

de validade já postulados – alguns relacionados entre si. A validade de conteúdo, a validade de critério e a validade de construto são as mais importantes e juntas determinariam a validade interna do instrumento de medida.

A validade de conteúdo denota que a escolha e o formato dos itens do instrumento represen-tam de forma consistente e adequada o conte-údo que se pretente medir. Apresentar evidên-cias de validade de conteúdo, portanto, é um requerimento essencial para uma avaliação de boa qualidade. A pergunta que deve ser respon-dida aqui é: “Quão adequadamente a amostra de questões do instrumento representa o conte-údo a ser avaliado?” (Fraenkel et al.7, 2009). Uma técnica que possibilidade lidar com a validade de conteúdo de forma mais quantitativa é o blue-printing, que começa nas fases de planejamen-to, antes do início das atividades propriamente ditas, e é construído coletivamente pelo corpo docente do curso de Medicina da UNICID. Um conjunto de especialistas deve listar conteúdos e/ou competências a serem desenvolvidos pelos discentes e atribuir a cada um dos tópicos lista-dos escores quantitativos em alguns quesitos a serem pactuados (p. ex.: incidência-prevalência, morbidade, letalidade, possibilidade de preven-ção quando há diagnóstico precoce, capacidade de ilustrar processo fisiológico importante). O peso de cada quesito sofre um ajuste também pactuado. O resultado é um escore padronizado que indicaria a importância relativa de cada con-teúdo e/ou competência. A partir desses escores pode-se determinar a carga horária de cada as-sunto dentro das atividades didáticas programa-das e o peso de cada objetivo de aprendizagem em uma avaliação teórica e/ou prática. A análise dos especialistas sobre o instrumento de avalia-ção deve verificar o quanto as questões repre-sentam adequadamente o blueprinting: questões consideradas fora do pactuado no blueprinting ou que tenham outros problemas identificáveis devem ser rejeitadas e os tópicos presentes no blueprinting que estejam pouco contemplados na prova deverão ter questões incluídas (Coder-re et al.9, 2009).

47

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

47

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

As evidências validade de critério são obtidas por meio da comparação entre o instrumento cuja validade está sendo estudada com outro instrumento, que já possua evidências de valida-de para o mesmo fim, o qual é denominado cri-tério. Os estudos de validade de critério utilizam os coeficientes de correlação como evidência de relação de linearidade entre o instrumento validado e aquele em processo de validação, podendo ser chamado nessa situação de co-eficiente de validade. Os estudos de validade de critério podem ser de validade concorrente, quando os instrumentos são administrados de forma concomitante; ou de validade preditiva, quando há um intervalo de tempo entre a aplica-ção do instrumento em validação e a aplicação do instrumento validado.

A validade de construto é a mais abrangente das categorias de evidências de validade. Não há como satisfazer a necessidade de validade de construto com apenas uma evidência. Aqui os pesquisadores precisam coletar uma varie-dade de diferentes tipos de evidência que lhes permita fazer inferências corretamente. Geral-mente há três passos envolvendo a obtenção de evidências de validade relacionadas a cons-truto: a) a definição clara da variável que está sendo medida; b) a geração de hipóteses sobre os diferentes valores encontrados para a variá-vel, baseadas em teorias que as sustentem e; c) a testagem lógica e empírica dessas hipóteses. Para facilitar a compreensão, a relação postula-da entre os degraus da Pirâmide de Miller e os diferentes instrumentos de avaliação utilizados no curso médico é uma analogia válida (Miller10, 1990). Na prática, a obtenção de evidências de validade de construto envolve a aplicação de uma ampla variedade de procedimentos (como a análise fatorial, por exemplo, para o estudo dos construtos), e os outros tipos de validade já vistos (conteúdo e critério). Quanto maior for o número de evidências (e fontes de evidências), mais confiante pode ficar o pesquisador para in-terpretar os escores obtidos de um instrumento em particular (Pasquali1, 2009, Pasquali e Primi2, 2003, Franzen6, 2004, Fraenkel et al.7, 2009). No

caso da educação médica, a aptidão profissional e a competência clínica são os construtos mais comuns.

A validade de construto pode ser estudada por meio de técnicas de análise fatorial confir-matória e modelagem de equações estruturais, citadas anteriormente. Diferentemente da análi-se fatorial exploratória, essas técnicas permitem a comparação dos dados obtidos com o mode-lo teórico que se deseja confirmar. Nessas téc-nicas, calculam-se os coeficientes padronizados entre os itens e os construtos que se pretendem medir, permitindo a visualização da relação en-tre os itens e os construtos relacionados. Outra vantagem dessas técnicas é permitir a avaliação quantitativa do grau de adequação dos dados à teoria, com o cálculo dos valores de diversos índices de bondade-de-ajuste e de resíduos pa-dronizados.

TEORIA DA GENERALIZABIL IDADE: UMA PONTE ENTRE CONFIABIL IDADE E VALIDADE

A teoria da generalizabilidade surgiu como uma expansão dos conceitos da teoria clássica, ao se tentar conciliar o binômio confiabilidade e validade, utilizando-se análise de variância (ANOVA) para avaliar simultaneamente, de for-ma isolada e/ou combinada, as múltiplas fontes de variância de erro nos escores do instrumen-to de avaliação. O coeficiente de confiabilidade passa a se chamar coeficiente de generalizabili-dade. No cerne dessa teoria, os itens de um do-mínio são um conjunto de itens pertencentes ao universo infinito de itens possíveis sobre aquele domínio, da mesma forma que os testandos são considerados uma amostra da população de tes-tandos possíveis. Por conta desse desenho ana-lítico, o coeficiente de confiabilidade estima o grau de generalizabilidade dos resultados para a população (Cardinet et al.11, 2010).

A utilização deste tipo de análise psicomé-trica tem se mostrado pertinente nas avalia-

48

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

48

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

ções práticas, como o Exame Clínico Objetivo Estruturado (Objective Structured Clinical Exa-mination, OSCE). A teoria da generalizabilidade permite avaliar os efeitos sobre a confiabilidade, quando da alteração do número de estações, no número de avaliadores e no número de avalia-ções realizadas, o que apoia a otimização da uti-lidade educacional de instrumentos de avaliação de desempenho clínico.

COMPROMISSO COM A QUALIDADE DA EDUCAÇÃO MÉDICA

O teste de progresso, parte integrante do programa de avaliação discente da UNICID, o qual permite o estudo da progressão discente e a identificação precoce de estudantes com déficit de aprendizagem, é sistematicamente avaliado em suas propriedades psicométricas, particularmente confiabilidade (pelos métodos da consistência interna e da precisão local), vali-dade concorrente (por meio da correlação com outros instrumentos de avaliação) e validade preditiva (por meio de correlações e regressões logísticas entre o resultado dos estudantes do úl-timo ano e a aprovação em processos seletivos para residência médica).

Avaliações com alto percentual de reprova-ções sofrem análises psicométricas para diag-nóstico situacional e estabelecimento da origem do problema. É possível determinar se houve problemas nas características psicométricas da avaliação empregada ou se as reprovações em excesso são devidas a problemas no processo de ensino-aprendizagem.

O estudo da Psicometria e sua aplicação na educação médica contemporânea não são tare-fas isentas de desafios, visto que exigem o do-mínio de habilidades quantitativas consideradas complexas. Sob essa perspectiva, os estudos sobre as propriedades psicométricas dos instru-mentos de avaliação utilizados são uma ferra-menta valiosa raramente disponível em outras instituições, os quais representam ferramentas de apoio à gestão do curso para a garantia da qualidade na educação médica realizada na ins-tituição – um diferencial pioneiro que se distin-gue das demais escolas médicas brasileiras. As informações geradas pelas análises psicométri-cas auxiliam não apenas no aprimoramento do programa de avaliação do curso de Medicina da UNICID, mas também no diagnóstico de proble-mas no processo ensino-aprendizagem, na oti-mização da integração curricular e no programa de desenvolvimento docente.

49

Bolzan JD, Tucunduva MJAPS. Estudo radiográfico da cavidade nasal e dos seios paranasais e suas variações. • São Paulo Science in Health • 3(1): 23-31; jan-abr 2012

ISSN 2176-9095 Relato de Pesquisa/ReseaRch RePoRts

49

Collares CF, Grec WLP, Machado JLM. Psicometria na garantia de qualidade da educação médica: conceitos e aplicações. São Paulo • Science in Health • 3(1): 33-49; jan-abr 2012

ISSN 2176-9095 Mini Revisão / Mini Review

REFERÊNCIA1 . Pasquali L. Psicometria: teoria dos testes na

psicologia e na educação. 3 ed. Petrópolis, RJ: Vozes; 2009.

2 . Pasquali L, Primi R. Fundamentos da teoria da resposta ao item: TRI. Avaliação Psicoló-gica 2003 (2)99-110.

3 . Collares C, Bollela V, Grec W, Machado J. Computerized adaptive test delivery for progress testing: a pilot study. 15th Ottawa Conference on the Assessment of Com-petence in Medicine and the Healthcare Professions; Mar 9-13; Kuala Lumpur, Ma-laysia2012. p. 131.

4. Thompson B. Exploratory and confirmatory factor analysis: understanding concepts and applications. Washington: American Psychological Association; 2004.

5. Kline R. Principles and practice of structural equation modeling. 3 ed. New York: Guil-ford Press; 2010.

6. Franzen M. Reliability and validity in neu-ropsychological assessment. 2 ed. New York: Kluwer/Plenum; 2004.

7. Fraenkel J, Wallen N, Hyun H. How to de-sign and evaluate research in education. New York: McGraw-Hill; 2009.

8. Field A. Discovering statistics using SPSS. 3 ed. Los Angeles: Sage; 2009.

9. Coderre S, Woloschuk W, McLaughlin K. Twelve tips for blueprinting. Med Teach 2009 Apr;31(4):322-4.

10. Miller GE. The assessment of clinical skills/competence/performance. Acad Med 1990 Sep;65(9 Suppl):S63-7.

1 1 . Cardinet J, Johnson S, Pini G. Applying ge-neralizability theory using EduG. New York: Routledge; 2010.