Biometrical problems in population studies ppt 2004

Биометрические задачи

в популяционных исследованиях

Никита Николаевич Хромов-Борисов

Медицинский факультет СПбГУ

г. Санкт-Петербург

[email protected]

Тел.: 234-18-40

Цитаты и эпиграфыЧ а ц к и й:К статистике в душе давно питаю страсть я,И геология внушает мне участье

Е. П. Ростопчина

Если для Вашего эксперимента требуется статистика, то Вы должны переделать его тщательнее

Эрнест РезерфордЭрнест Резерфорд

Статистическое мышление однажды станет для образованного человека столь же необходимым, как и способность читать и писать

Герберт Уэллс

Те, кто игнорируют статистику, обречены изобрести ее заново

Бредли Эфрон

If Experimentation is the Queen of the Sciences,

then Statistical Methods must be regarded

as Guardians of the Royal Virtue

Myron Tribus

Если Эксперимент - Король наук, то Статистические методы – его телохранители

Если Экспериментация – Королева наук, то Статистические методы Если Экспериментация – Королева наук, то Статистические методы следует признать блюстителями ее непорочности

В свою очередь, сами статистические методы должны быть безукоризненными, адекватными и совершенными

Таким образом, насущно необходимой является надлежащая (хорошая) статистическая практика

GSP - Good Statistics Practice

Биометрия

- стратегическая междисциплинарная область научного познания,

• предметом изучения которой являются такие проблемы биологии и медицины, биологии и медицины,

• решение которых невозможно без привлечения и изобретения

• адекватных средств статистического моделирования и анализа.

Биометрические заблуждения

• Отбрасывание «выскакивающих» значений

• Проверка «нормальности»

• Критерий Колмогорова и

t-критерий Стьюдента для t-критерий Стьюдента для дискретных данных

• Угловое преобразование

• Односторонние (направленные) гипотезы и критерии

Условия применимости критерия Колмогорова

• непрерывность теоретического модельного распределения

• отсутствие (по возможности) совпадающих значенийзначений

• несгруппированность выборочных данных

• параметры распределения

известны a priori

Критические значения для статистик критериев Колмогорова, Lilliefors и Несененко-Тюрина для проверки

«нормальности»

Критерий Статистика α = 0,05 α = 0,01

Колмогоров-Stephens

1,36 1,63

+−n

nDn

11,012,0

Stephens

Lilliefors-Stephens

0,90 1,04

Несененко-Тюрин

0,92 1,06

+−n

nDn 12,0

+−n

nDn

85,001,0

∞→

−−

−n

2

2

2exp

2

22 β

ππ

ππ

Угловое преобразование для долей

• Сидоренко Е. В. Методы математической обработки в психологии. СПб: Речь, 1996-2003 (по 4000 экз. в год):

• Возможно применение критерия φ к выборкам с n = 2.

• В пределах долей от 20% до 80% замена их углами φ дает такие же

parcsin2=ϕ

• В пределах долей от 20% до 80% замена их углами φ дает такие же результаты, как и без этой замены.

• Для малых (< 20%) и больших (> 80%) долей критерий φ дает «более правильные» результаты.

• φ в сочетании с критерием Колмогорова-Смирнова дает «максимально точный» результат (максимально повышает мощность критерия φ).

• Использование φ2 (по Н. А. Плохинскому) дает «менее точные»результаты.

МЕТОДИЧЕСКИЕ УКАЗАНИЯ МУК 2.3.2.970-00«Медико-биологическая оценка пищевой продукции, полученной из

генетически модифицированных источников» Введены 1 июля 2000 г.

• Достоверность различия тяжести реакции анафилаксиимежду двумя группами определяют в соответствии с Z-тестом углового преображения Фишера:

• фи = 2 * arcsin кв.корень p,

• где p - долевой показатель; arcsin - определяется в радианах.радианах.

• Для двух сравниваемых групп N 1 и N2 рассчитывают величину Z-критерия по формуле:

• Z = |фи1 – фи2| * кв.корень N1 * N2 /(N1 +N2)

• Различие по данному показателю признается достоверным (нуль гипотеза отклоняется, Р < 0,04), если Z ≥ 1,96.

Забудем угловое (arcsin) преобразование φ-Фишера для долей

• Z[φ] = - 3,14

• P[φ] = 0,017

↕• P[exact] = 0,33

0 2

2 0 • P[exact] = 0,33

• Z[φ] = - 0,83

• P[φ] = 0,41

↕• P[exact] = 0,0040

2 0

1 9

9 1

Односторонние или двухсторонние гипотезы, критерии

и доверительные интервалы

• Примеры односторонних ситуаций:

• Хозяин пекарни решает проверить, не приворовывают ли его работники изюм.

• Исключено, чтобы пекари докладывали свой изюм в булочки.

• Поэтому хозяин может ожидать, что либо среднее число изюмин в • Поэтому хозяин может ожидать, что либо среднее число изюмин в булочках должно соответствовать закупленному им количеству, либо оно будет меньше.

• В дисперсионном анализе заведомо внутригрупповые средние квадраты не могут превышать межгрупповых.

• При генетическом сцеплении доля рекомбинантов не может превышать 50% (расстояние между генами не может быть отрицательным).

Статистика в уме или на пальцах

• Вопрос о достаточности эксперимента – самый сложный и провокационный.

• Нередко можно услышать мнение, что статистический анализ является никому не нужным обременительным ритуалом.

• Экспериментаторы зачастую бывают убеждены, что • Экспериментаторы зачастую бывают убеждены, что наблюдаемый ими эффект настолько очевиден, что никакой статистический анализ им не нужен, что он лишь подтвердит, то, что видно и так - невооруженным глазом.

• В таких случаях по существу статистический анализ производится в уме.

Элементы статистического планирования

эксперимента

• Со студенческой скамьи мы знаем, что любой эксперимент должен быть воспроизводимым,

• что любой опыт следует повторить несколько, как минимум, 4 раза.

• Если результаты всех 4-х повторностей хорошо • Если результаты всех 4-х повторностей хорошо согласуются (очевидно воспроизводятся), то они могут считаться надежными и достаточными.

• Оказывается, что это неписаное правило имеет под собой солидную статистическую основу.

Перекрывающиеся или неперекрывающиеся

наборы данных:

сравнение двух независимых выборок• Пусть эксперимент состоит из двух независимых типов

наблюдений: «контрольные» и «опытные»

• Если мы повторим эксперимент 4 раза, и все 4 контрольные значения окажутся больше (или все меньше) всех 4-х опытных значений, то наблюдаемое между ними различие будет статистически значимым на между ними различие будет статистически значимым на уровне значимости αααα = 0.05.

• Другими словами, если оба набора данных не перекрываются, то они значимо различаются на уровне αααα = 0.05.

• Такой примитивный критерий перекрывания или не перекрывания можно применять как для визуальногосравнения данных, так и для элементарного планирования эксперимента.

Мнимальные объемы выборок (n1 and n2), необходимые для

«визуальной» оценки значимости различий (на уровне αααα) между

двумя (и только двумя) независимыми выборками с

неперекрывающимися значениями

αααα: 0,05 0,01 0,001

n1 n2 n1 n2 n1 n2

1 39 1 199 1 19991 39 1 199 1 1999

2 8 3 9 5 9

3 5 4 6 6 8

4 4 5 5 7 7

Несколько независимых выборок

• Обычно мы редко ограничиваем себя сравнением двух выборок

• Часто нашей целью является выявление тренда (временной или дозовой зависимости)

• В таких исследованиях несколько • В таких исследованиях несколько независимых выборок отбираются во времени или подвергаются воздействию различных доз агента и т. п.

• Здесь также критерий перекрывания-неперекрывания наблюдаемых значений может оказаться плодотворным

αααα n0 n1 n2 n3 n4 n5 n6

0,05 1 1 1 1 1

2 2 2

4 4

0,01 1 1 1 1 1 1

3 3 33 3 3

5 5

0,001 1 1 1 1 1 1 1

2 2 2 2

3 3 3 3

4 4 4

7 7

В предыдущей таблице представлены минимальные критические числа для последовательно возрастающих доз (i) и минимальные критические объемы выборок (ni).

Когда полученные значения монотонно возрастают (или снижаются) с увеличением дозы и не перекрываются, тогда дозовая зависимость будет значимой на номинальном уровне αααα, указанном в таблице.

Парные наблюдения• Ситуация принципиально отличается от предыдущих:

• Два измерения (наблюдения) производятся с одним и тем же объектом или особью: одно – до воздействия (контроль), а второе – после.

• В этом случае наблюдения (измерения) не являются независимыми, и для их анализа требуются специальные независимыми, и для их анализа требуются специальные парные критерии.

• В таких экспериментальных ситуациях минимальный объем выборки, необходимый для «статистики в уме», есть 6 (шесть)

• Если в каждой из 6-и пар значения в контроле больше (или меньше), чем после воздействия, то наблюдаемое различие является значимым на уровне α = 0,05.

Минимальные критические объемы выборок,

необходимые для достижения значимого

различия между парными наблюдениями

αααα N

0,05 60,05 6

0,01 8

0,001 11

Доверительные интервалы – способ

визуализации проверки гипотез

• Доверительный интервал есть интервал, который накрывает (содержит, включает) неизвестное значение оцениваемого параметра с заранее заданной экспериментатором вероятностью, которая называется доверительной вероятностью.

• Процедуры проверки гипотез и построения доверительных интервалов – суть две стороны одной медали.

• Очень простой критерий: накрывает или нет доверительный интервал нулевой параметр (провозглашаемый нулевой гипотезой) позволяет визуализировать проверку гипотез.

Если построен 95%-й доверительный интервал, то все значения внутри него считаются правдоподобными значениями оцениваемого параметра. Значения, находящиеся вне этого интервала отвергаются как невозможные на уровне 5%.Если нулевое значение параметра накрывается построенным 95%-м доверительным интервалом, то мы не имеем логическихоснований отвергнуть H0 на уровне α = 0,05:

Нулевое

значениезначение

|

Если нулевое значение лежит вне этого интервала, то нулевую гипотезу можно отвергнуть на уровне α = 0,05.

Тут возможны два варианта:1. Интервал, показанный ниже, демонстрирует статистически

значимое увеличение:|

2. А этот интервал свидетельствует о значимом уменьшении:|

Немного терминологии

• Параметр есть численное значение, которое характеризует некоторую важную особенность теоретического (модельного) распределения (генеральной совокупности).

• Медиана есть значение, которое расположено посередине упорядоченного (ранжированного) набора выборочных данных. Ниже и выше медианы эти данные располагается поровну.

• Если распределение симметрично, то медиана близка к среднему • Если распределение симметрично, то медиана близка к среднему значению. Если распределение асимметрично, то более предпочтительно использовать медиану (или иной родственный параметр).

• Размах выборки есть простейшая мера вариабельности наблюдений. Вычислять его очень легко.

• Численно размах есть разность между наибольшим и наименьшим из наблюдаемых значений:

R = xmax - xmin

Доверительный интервал (ДИ),

основанный на размахе• Пример 1.

• Пусть мы имеем одну выборку из 6-и независимых наблюдений: x1, x2, x3, x4, x5 и x6. Тогда 95%-й ДИ для оцениваемого параметра –медианы – будет равен выборочному размаху. Наименьшеезначение xmin будет нижней границей искомого ДИ, а наибольшее значение xmax будет его верхней границей.

• Пример 2.

• Пусть имеются две независимые выборки по 4 наблюдения в каждой: x , x , x , x and y , y , y , y . каждой: x1, x2, x3, x4 and y1, y2, y3, y4.

• Нижней границей 95%-го ДИ для их разности будет разность между наименьшим значением в первой выборке и наибольшим значением во второй выборке: xmin – ymax. И наоборот: верхней его границей будет разность между наибольшим значением в первой выборке и наименьшим значением во второй: xmax – ymin.

• Когда такой ДИ не накрывает значение ноль, тогда нулевая гипотеза (о нулевой разности) отклоняется на уровне значимости 0,05.

Пример 3.

Иногда нам бывает нужно оценить отношение двух переменных.Процедура аналогична описанной в Примере 2, но вместо размаха для всех возможных разностей надо находить размах для всех возможных отношений

xi /yj.Когда такой ДИ не включает единицу (нулевой параметр), тогда гипотеза о равенстве отношения единице отклоняется.тогда гипотеза о равенстве отношения единице отклоняется.

Пример 4.

Пусть имеется 6 независимых парных наблюдений: (x1,y1), (x2,y2), (x3,y3), (x4,y4), (x5,y5) и (x6,y6). Тогда непараметрическим 95%-й ДИ для (медианы) их разности di

= xi - yi будет размах соответствующих шести разностей: от dmin до dmax.

Вывод

• Как минимум, следует запомнить два набора «сакраментальных» чисел.

• 4 и 4, которые суть критические (равные) • 4 и 4, которые суть критические (равные) объемы выборок для сравнения двух независимых выборок.

• 6, которое есть критический объем выборки для случая парных сравнений.

Электронные таблицы

CUMNOR

STATTAB (12)*

DSTexpress (14)

ELV (14)

NCSSCALC (14)

http://odin.mdacc.tmc.edu/anonftp/

http://www.Dataxiom.com

http://www.stat.uni-muenchen.de/~knuesel/

http://ncss.com/download.htmlNCSSCALC (14)

PQRS (32)

SISADistrib (22)

StatCalc (36)*

StaTable (25)

XLStatistics (8)

http://ncss.com/download.html

http://www.eco.rug.nl/medewerk/knypstra/

http://home.clara.net/sisa/spreadsh/distribs.htm

http://www.ucs.louisiana.edu/~kxk4695/

http://www.etext.net http://www.cytel.com

http://www.man.deakin.edu.au/rodneyc/XLStats.htm

CUMNOR Version 1.0: June, 1999

Cumulative Normal Distribution over a Wide Rangez can vary from -67861400 to +67861400

Barry W. Brown

STATTABSTATTABVersion 2.0: March, 2002

Calculates Cumulative Distribution Functions, Inverses, and Parameters of Distributions

Barry W. Brown, David Gutierrez, James Lovato, Dan Serachitopol, Marty Spears, John Venier

http://odin.mdacc.tmc.edu/anonftp/

CUMNOR

Argument Cumulative Normal 1 - Cumulative Normal

1000.00000000 1.00000000000000 2.290646147X10^( -217151 )

Argument Cumulative Normal 1 - Cumulative Normal

67861400.0000 1.00000000000000 4.X10^( -999999874917098 )

STATTAB

MAIN MENU

1 - Incomplete Beta2 - Binomial3 - Negative Binomial4 - Chi-square5 - Non-central Chi-square5 - Non-central Chi-square6 - F7 - Non-central F8 - Incomplete Gamma9 - Normal10 - Poisson11 - T12 - Non-central T

Input X, DF, and C or 1-C for chi-square distribution

?, 1, 0.95, .

---------Parameters--------- -Answer-

C 1-C DF X

0.950000 0.050000 1.000000 3.841459

Input X, DF, and C or 1-C for chi-square distribution

1000, 1, ?, .

--------- Parameters--------- -Answer-

X DF C 1-C

.100E+04 1.000000 1.000000 .180-218

Программируемые калькуляторыматематических выражений

MathEx

High Precision Complex Calculator

ECW Expression

http://www.softnik.com/products/mathex/

http://www.twopaths.com/calculator/

ECW Expression Calculator

Engi_Cal

Super Calculator

Wise

Calculator

http://alextp.hotbox.ru

http://ptty.loxinfo.co.th/~jburen/engineer.htm

http://plamentd.tripod.com/downloads.html

http://wisecalculator.chat.ru

Статистические программы общего назначения

SISA +online

INSTAT

LabStats

http://home.clara.net/sisa/

http://www.rdg.ac.uk/ssc/

http://archives.math.utk.edu/software/msdos/stati

stics/stats22/

EasiStat

WinIDAMS

StatXact

http://www.smd.qmul.ac.uk/statgen/dcurtis/softw

are.html

http://portal.unesco.org/ci/ev.php?URL_ID=2070

&URL_DO=DO_TOPIC&URL_SECTION=201

&reload=1034774523

http://www.cytel.com

Популяционно-генетические программы

Arlequin http://anthro/unige.ch/arlequin

BAPS http://www.rni.helsinki.fi/~jic/bapspage.html

CERVUS http://helios.bto.ed.ac.uk/evolgen

Con~Struct [email protected] http://www.unil.ch/izea/softwares/fstat.html

FSTMET, HWMET http://www.reading.ac.uk/~snsbalng/

GDA http://lewis.eeb.uconn.edu/lewishome/software.html

GEN [email protected]

GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/

GENEPOP ftp://ftp.cefe.cnrs-mop.fr/genepop

GENEPOP on Webhttp://wbiomed.curtin.edu.au/genepop/index.html

GENETIX http://www.univ-montp2.fr/~genetix/genetix.htm

GeneKonv http://www.rrz.uni-hamburg.de/OekoGenetik/software.htm

GSED http://uni-forst.gwdg.de/forst/fg/software.htm

HWEhttp://www.biology.ualberta.ca/old_site/jbrzusto/hwenj.html

INTRAPOP http://bioinformatics.weizmann.ac.il/software/linkage_and_map

ping/gene_ucl_uk/astrinidis/

L-POP http://statgen.iop.kcl.ac.uk/lpop/MSA http://i122server.vu-wien.ac.atMS_tools http://acer.gen.tcd.ie/~sdepark/ms-toolkit/PopDist http://genetics.sh.dk/~bg/popgenPopGen32 Http://www.ualberta.ca/~fyeh

Population http://www.cnrs-if.fr/pge/bioinfo/populations/

PowerMarker http://www.powermarker.netPowerStats http://www.promega.com/geneticidtools/PowerStats http://www.promega.com/geneticidtools/SAGE http://darwin.cwru.edu/sage/SPAGeDi http://www.ulb.ac.be/sciences/lagev/spagedi.html

SPAM http://www.cf.adfg.state.ak.us/geninfo/research/genetics/soft

ware/spampage.htm

STRAT http://pritch.bsd.uchicago.eduSTRUCTURE http://pritch.bsd.uchicago.eduTFPGA http://bioweb.usu.edu/mpmbio/tfpga.htm

Конвертируемость и корректировка форматов

Arlequin BIOSYS, GENEPOP, MEGA, PHYLIP, AMOVA

FSTAT GENEPOP

GDA BIOSYS, GeneStat-PC, GeneStrut, NEXUS, SAS, Weir

GENETIX Arlequin, BIOSYS, FSTAT, GENEPOP, text

GenKonv BIOSYS, GSED, GENEPOP, POPGENE

GENEPOP AMOVA, BIOSYS, FSTAT, LINKDOS

MS_tools Arlequin, DISPAN, FSTAT, GENEPOP, MicroSat

Populations Admix, FSTAT, GENEPOP, GENETIX, Immanc, LEA, MicroSat

PowerMarker Arlequin, Excel, GDA, Structure, text

Алгоритмы

• Современные компьютерные программы реализуют точные непараметрические процедуры и современную идеологию и методологию Бейесовской статистики.

• Их вычисление требует изощренных алгоритмов • Их вычисление требует изощренных алгоритмов и средств.

• В этой связи возникают новые проблемы, такие как например, проблема сходимости для процедур, использующих алгоритмы Markov chain Monte Carlo (MCMC).

Освойтесь с используемыми методами, включая

диагностику сходимости

K. L. Ayres, D. J. Balding

• Сходимость P-значений, оцененных методом MCMC, зависит от числа рандомизаций

• Пример: проверка равновесия Харди-Вайнберга. Программа Arlequin:

• 104 шагов →→→→ P = 0,782 ± 0,0008• 104 шагов →→→→ P = 0,782 ± 0,0008

• 105 шагов →→→→ P = 0,268 ± 0,0005

• 106 шагов →→→→ P = 0,373 ± 0,012

• 107 щагов →→→→ P = 0,424 ± 0,006

• 108 шагов →→→→ P = 0,460 ± 0,003

Различные критерии (даже точные) могут приводить к противоположным выводам

Критерий Р или ПИ Прграмма

χχχχ2 0,106 ChiHW, GDA, PowerMarker, etc.

χχχχ2с поправкой 0,092 GEN

Вероятность,

Guo-Thompson

0,026 Arlequin, GDA, GENEPOP, HWE, TFPGA, etc.

G2 асимптотический 0,163 POPGENE

FIS 0,141 FSTAT, GENETIX

95% ПИ для FIS -0,044; -0,015 HWMET

Вывод

Первый принцип GSP

Хорошей статистической практикой должен стать анализ данных с использованием стать анализ данных с использованием нескольких различных статистических методов и исследование согласованности получаемых результатов.

SANCT – Structural ANalysis of Contingency Tables –программа для статистического анализа структуры в

популяционных данных

Gustavo B. Lazzarotto

Nikita N. Khromov-Borisov

Tarso B. L. Kist

Institute of Biosciences, Institute of Biosciences,

Federal University of Rio Grande do Sul, Porto Alegre,

Brazil

• [email protected]



Проблемы

• Разреженность таблиц сопряженности

• Множественность сравнений и(или) проверок гипотези(или) проверок гипотез

• Подбор адекватных мер расстояния

• Параллельные вычисления

Коллапсирование

• Представляется разумным комбинировать (коллапсировать) данные о родственных (генетически близких) группах в единый класс и рассматривать такой класс как более репрезентативную эталонную выборку.рассматривать такой класс как более репрезентативную эталонную выборку.

• Идея коллапсирования не нова.

• Она давно используется для решения проблемы разреженности таблиц и применимости критерия хи-квадрат и других статистик.

Диагностики

• Наиболее распространенной является рекомендация

объединять классы с малыми ожидаемыми

численностями (например, меньших 5-и).

• Теперь эту архаичную и примитивную рекомендацию

можно заменить более универсальными можно заменить более универсальными

диагностиками, которые предложили Simonoff & Tsai

и Mudholkar & Hutson.

• Более того, коллапсирование не должно быть

произвольным (обычным правилом является:

объединяй соседние категории).

• Коллапсируемость должна контролироваться с помощью статистических критериев.

Диагностика Simonoff-Tsai

• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при

{ }( )( )

( )∑∑

= =

−=

I

i

J

j ij

ijij

e

en

XS

1 12

3

2/32

2/12

3

;ανχ

• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при df = νννν и αααα;

• X2 - наблюдаемое значение для данной таблицы.

• Если S > 0,25-0,3, тогда применимость X2

сомнительна.

Стратегия

• Чтобы реализовать такой подход, в идеале

надо проанализировать все возможные

комбинации категорий (строк и/или столбцов)

в данной таблице.

• К сожалению, это мало выполнимо: с ростом

числа категорий число их возможных

объединений быстро становится

астрономическим.

• Например, уже для 25 выборок это число

превышает 1018.

Попарные сравнения

• Коллапсирование может быть основано на попарных

сравнениях между категориями.

• Такой подход заложен в программах Arlequin,

GENEPOP и др., которые обеспечивают вычисление

современных точных непараметрических критериев.

• К сожалению применяемые тесты являются

двухвыборочными.

• Другие программы используют различные

«генетические расстояния», большинство из которых

также являются двухвыборочными.

Как сравнивать две строки в данной таблице сопряженностей I ×××× J ?

n11 … n1j … n1J R1

n21 … n2j … n2J R2

n11 + n21 … n1j + n2j … n1J + n2J R1 + R2n11 + n21 … n1j + n2j … n1J + n2J R1 + R2

ИЛИ:

: ::: : ::: : :

nI1 … nIj … nIJ RI

C1 … Cj … CJ N

Квадратичное расстояние Кастнбаума-Хироцу для сравнения

пары строк в таблице сопряженностей (KHi2)(Kastenbaum, 1960; Hirotsu, 1978, 1983).

( ) ( )

( ) 111

ˆˆˆˆ2,1

21222

3 1

2

1 21

2

21

1 1

2

2

+

=

−+

+

+−

−== ∑∑∑∑∑

−

= === =

nnnnnn

Ne

n

ee

nnN

e

niKHi

JJ

I

i

J

j ij

ijJ

j jj

jjI

i

J

j ij

ij

( )

1)1)(2()1)(1(

111

ˆˆˆˆ 1

2

2

2

1

1

1

211 21

2

21

2

2

2

1

2

1

−=−−−−−=

−

+=

+

+−+= ∑∑

=

−

=

JJIJIdf

R

n

R

n

CRRN

ee

nn

e

n

e

n J

j

jj

j

J

j jj

jj

j

j

j

j

∑=

=J

jiji

nR1

∑=

=I

iijj

nC1

∑ ∑ ∑∑= = = =

===I

i

J

j

I

i

J

jijji

nCRN1 1 1 1 N

CRe

ji

ij=ˆ

Логарифм отношения правдоподобия

( ) ( ) ( )( )

( )( )

( )( ) ( )2lnln2

lnln2ln22,1

2212

2

211

1

1 3 121

21

21

1 1

2

×=

+

++

+

+=

=

+

+

++−==

∑

∑ ∑∑∑∑= = == =

JGnnR

RRnn

nnR

RRnn

CR

Nnn

CRR

Nnnnn

CR

NnniG

Jj

j

j

j

J

j

I

i

J

j ji

ij

ij

j

jj

jj

I

i

J

j ji

ij

ij

( ) ( ) ( )

( )( )

( )( ) ( ) 1;}2{

ующийСоответств

2lnln2

21

1 212

21

2

2

211

21

2

12

2

1 212

2

211

1

−=+−

+

++

+

+=×

×=

+

++

=

∑

∑

=

=

JdfRRnnR

RRn

nnR

RRnJX

X

JGnnR

nnnR

n

J

j jj

j

jj

j

j ji

j

ji

j

Множественные сравнения

• Сирого говоря, множественные попарные сравнения требуют определенного рода поправок на множественность.

• Обычно используемые поправки Bonferroni или Sidak (равно как и многочисленные их или Sidak (равно как и многочисленные их модификации), или так называемые «одновременные» процедуры (simultaneous test procedures) оказываются неадекватными для больших таблиц.

• Они приводят к противоречивым и ложным выводам.

Принцип редукции хи-квадрата

• Основная процедура, реализованная в SANCT,

состоит в последовательном коллапсировании

наиболее схожих (гомогенных) пар категорий.

• Для интегральной проверки внутренней

гомогенности внутри выявленных блоков

наиболее адекватным представляется принцип

редукции статистики хи-квадрат:

X2[original] - X2[collapsed] = X2[reduction]

Правила остановки• Коллапсирование прерывается, когда одна из

следующих статистик становится значимой:

• Редукция хи-квадрата

• Расстояние

• P-значение для текущего коллапсируемого • P-значение для текущего коллапсируемого

блока

• P-значение value с поправкой по Sidak для

текущего коллапситруемого блока

• Комбинирование P-значений по Фишеру и

• Интегральная гетерогенность для всех

сколлапсированных блоков

Меры «расстояний»

• X2 – хи-квадрат Пирсона

• G2 – логарифм отношениф правдоподобий

(информация Kullback-Leibler)

• Преобразование по Freeman-Tukey • Преобразование по Freeman-Tukey

• Критерий Neyman

• Модификация по Nass

• Поправка Williams для G2

• Преобразования по Anscombe

• Критерий Zelterman’а

• Поправка на дискретность по Mudholkar-

HutsonHutson

• Семейство статистик Cressie-Read

• Расстояние Hellinger со смешанными весами

• X2 со смешанными весами, etc.

X2 с поправкой на дискретность

где X02 – обычная статистика хи-квадрат, в

которой наблюдаемые численности nij замещены

2

0

22XXX

c−=

которой наблюдаемые численности nij замещены

числом, ближайшим к оцененным ожидаемым

Muldholkar GS, Hutson AD. Continuity corrected

approximations for and ‘exact’ inference with Pearson’s

X2. J. Stat. Plan. Inf. 59 (1997) 61-78.

Статистики Cressie-Read

( )

ratiolikelihoodLog0

sPearson'1

1ˆ1

2

2

2

1 1

G

e

nnC

I

i

J

j ij

ij

ij

−−=

−=

−

+= ∑∑

= =

λ

χλ

λλ

λ

λ

(1989) 43-19 (1) 57 Rev.,Stat. Intern. Review.eComparativA

:StatisticsRatiooodLoglikelihtheand sPearson' T.R.C. ReadN., Cressie

тсярекомендуеReadCressie32

Modified2

modified sNeyman'1

statisticTukey Freeman21

22

2

2

GX

G

−−=

−−=

−−=

−−−=

λ

λ

χλ

λ

Смешанно-взвешенные статистики

( )

прекрасный кактсярекомендуе91

ˆ1

ˆ

family distancellinger weight HeBlended

1 1

2

=

−+

−=∑∑

= =

α

ααα

I

i

J

j ijij

ijij

en

enBWHS

( )( )тсярекомендуе31

ˆ1

ˆ

family square-chi weight Blended

и между компромисс

прекрасный кактсярекомендуе91

1 1

2

22

=

−+

−=

=

∑∑= =

α

αα

α

α

I

i

J

j ijij

ijij

en

enBWCS

GX

Программирование

• В программе SANCT все указанные выше

статистики реализованы как в

асимптотической, так и точной версиях.

• Программа написана на объектно-

ориентированном языке C++ и успешно

функционирует на компьютерах с различной

архитектурой и операционными системами

(Windows, Linux).

Вычислительные средства

• Для анализа больших массивов (банков) данных (например, 300 выборок и более) требуются мощные вычислительные средства.средства.

• Параллельные вычисления проведены с использованием кластеров из 40 процессоров Pentium III или с использованием суперкомпьютера.

Система: D1S80

27 аллелей: от 14 до 41 повторов 16 п.н.

Северо-Запад России: вид со спутника

Северо-Западный округ России

152 города14,56 млн. жителей

113 выборок коллапсируют в 29 гомокластеров

D1S80

129Независимых выборок

←←←←NorthwestRussians

↓

←

Drawn with Tree Explorer of Dr. K.Tamura http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip

→

←

16 samples6 samples

10 samples

2 samples

7 samples

4 samples

5 samples

2 samples

3 samples

2 samples

3 samples

2 samples

2 samples

3 samples

2 samples

С использованием χχχχ2 выявляются 45 значимо различимых блоков

D1S80

Drawn with Tree Explorer of Dr. K. Tamura <http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip>

3 samples

3 samples

8 samples

6 samples

3 samples3 samples

2 samples

2 samples2 samples

2 samples

2 samples

3 samples

3 samples

3 samples

2 samples

Au

str

ia

Po

lSo

uth

Au

stV

ien

na

Cro

atN

ort

h

Po

lan

d/3

0

Ba

sqSp

ain

Cro

atSouth

Be loru

ss

Ita ly/23

Po rtug/36C hile Pe hue

C hinaN E

Japan/62

Ko rea

Jap

an/55s

Ch

ina

Sin

ga

Ch

ina

Ho

ng

KP

hilM

an

ila

С использованием статистики Cressie-Read C2/3 получаются39 различимых групп

Po rtug/36

ItaA nc Parm

Franc e /11G re e c ePapuaN G -H l

HungRoma

Finla

nd

USH

ispSW

Co

lom

Ca

uc

Slo

va

kia

US

Sio

ux

I nd

i aG

oa

US

Pu

eb

lo

Po

rtu

g/3

5

Ca

na

da

Do

gr

USN

ava

jo

USA

lask

Inu

USAfrA

m/55

Zimbabw eBrazA raraBrW ayanA pa

U SC ham G uam

C hile Pe hue

выводы• SANCT – как методология. так и программапредставляются адекватными и надежнымиинструментами для выявления паттерна(структуры) сходства в крупных базахпопуляционных данных.

• Используя подходящие статистики критериев и• Используя подходящие статистики критериев ирасстояний проблема множественных сравнений(множественных проверок гипотез), решаетсяадекватно.

• Выявленные сходства между разнымипопуляциями оказываются разумными иинтерпретируемыми.

Интуиция и сила воли против

иллюзии объективности

• Большое заблуждение верить, что статистика привносит объективность в наши решения и выводы, принимаемые на основе результатов анализа.

• Статистика есть всего лишь здравый смысл, сведенный к вычислениям, и ничего более.

• Статистика дисциплинирует наш ум. Она привносит в анализ данных универсализацию, формализацию, стандартизацию (но не субъективность).универсализацию, формализацию, стандартизацию (но не субъективность).

• Не следует забывать, что обычно используемые фиксированные значения уровней значимости αααα (0,05, 0,01 или 0,001) имеют вне-статистическую природу; они суть результат соглашения (среди прочих), принятого научным сообществом.

• Наука всегда субъективна и решение о достаточности эксперимента есть ее величайшая проблема.

• В конечном счете, любые наши заключения, выведенные из результатов наших экспериментов, основаны на интуиции и силе воли. Все они суть акты интеллектуальной смелости.

Заключение

• Статистическая теория и анализ данных, несомненно, являются одними из главнейших научных технологий, развитых в ХХ век, наравне с другими научными и технологическими достижениями, такими как электроника, компьютеры, электроника, компьютеры, биотехнология, интернет и проч.

• Изобретение Пирсоном критерия хи-квадрат входит в двадцатку величайших изобретений ХХ века, как первая мера согласия теории и практики.

Публикации и соавторы• Глотов Н. В., Животовский Л. А., Хованов Н. В., Хромов-

Борисов Н. Н. Биометрия. Л.: ЛГУ, 1982, 263 с.• Хромов-Борисов Н. Н. Биометрические аспекты

популяционной генетики. Новые генетическиемеханизмы и их роль в генетико-популяционныхпроцессах. В кн.: Кайданов Л. З. Генетика популяций. М.:Высш. шк., 1996, с. 251-308.

• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,Баранов В. С. Популяционное исследование CTGтринуклеотидных повторов в гене миотонин-киназы I.Генетика 33 (1997) 1098-1101.

• Khromov-Borisov N.N., Henriques J.A.P. Good statisticspractice (GSP) in genetic toxicology. Mutat. Res. 405 (1) 97-108 (1998).

• Khromov-Borisov N.N., Rogozin I.B., Henriques J.A.P., deSerres F.J. Similarity pattern analysis in mutationaldistributions. Mutat. Res. 430 (1) 55-74 (1999).

• Khromov-Borisov N.N., Picada J,N, Henriques J.A.P. Dose finding in theAmes Salmonella assay. Mutat. Res. 435 (1) 36-47 (2000).

• Smolyanitsky A. G., Smolyanitskaya A. I., Popov V. L., Zaslavsky G. I., Khromov-Borisov N. N. Polymorphism of LDLR, GYPA, HBGG, D7S8, GC, HLA-DQA1, Ig-JH, D17S30, ApoB and D1S80 loci in northwestern Russians.Forensic Sci. Int. 137 (1) 100-103 (2003).

• В Smolyanitsky A.G., Khromov-Borisov N.N., Popov V.L., Zaslavsky G.I., Rogozin I.B., Henriques J.A.P., Kist T.B.L., Scheil H.-G. Statistical pattern analysis of D1S80 alleles in Northwestern Russians and worldwide database using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.

• Khromov-Borisov, N.N., Saffi, J. and Henriques, J.A.P. Perfect order plating: principle and applications. Technical Tips Online (TTO), 2002, Vol. 144, No. 1,T02638http://research.bmn.com/tto/browse/record?uid=TTO.elstto00_01689525_144_t02638&node=TOC@@TTO@001@144@001_144

• Smolyanitsky A. G., Ivanov P. L., Kornienko L. V., Zamaraev V. S., Perepechina I. O., Komarovsky Yu. A., Pushkarev V. P., Khromov-Borisov N. N. Towards Russian reference population data on STR loci. Progr. ForensicGenet. 10 (2004). Vol.10. (в печати).

Спонсоры и грантодатели

-• CNPq - Conselho Nacional de Desenvolvimento Cientifico

e Tecnologia, BRAZIL

• CAPES - Coordenadoria de Formacao de Pessoal de Nivel

Superios, BRAZIL

• DAAD - German Academic Exchange Service, Bonn, • DAAD - German Academic Exchange Service, Bonn,

GERMANY

• Computing Facility of Federal University of Rio Grande do

Sul, Porto Alegre, BRAZIL

• RFBR - Russian Foundation on Basic Research, RUSSIA

• Wallenberg Foundation, Sweden

ПризнательностиБлагодарю Drs., Karen L. Ayres and David J. Balding,

Laura C. Lazzeroni и Kenneth Lange, и John Brzustowski

за любезное предоставление их программ(HWMET, GEN и HWE, соответственно).

Премного благодарен им и авторам других программ и публикаций, использованных в этом программ и публикаций, использованных в этом сообщении: Drs. Angel Carracedo, Laurent Excoffier, Jerome Goudet, Kejun Liu, Tristan Marshall, Mark P. Miller, Eleanor Morgan, Michel Raymond, Francois Rousset, Hans-Georg Scheil, Bruce S. Weir, Николая Глотова, Льва Животовского, Дмитрия Зайкина, Светлану Лимборскую

за полезное и плодотворное обсуждение.

Контакты

• Никита Николаевич

Хромов-Борисов

• г. Санкт-Петербург

• Тел.: (812) 234-18-40 – дом.

• 8-952-204-89-49 – моб.


Biometrical problems in population studies ppt 2004

Documents

Transcript of Biometrical problems in population studies ppt 2004