Biometrical problems in population studies ppt 2004

76
Биометрические задачи в популяционных исследованиях Никита Николаевич Хромов-Борисов Медицинский факультет СПбГУ г. Санкт-Петербург [email protected] Тел.: 234-18-40

Transcript of Biometrical problems in population studies ppt 2004

Page 1: Biometrical problems in population studies ppt 2004

Биометрические задачи

в популяционных исследованиях

Никита Николаевич Хромов-Борисов

Медицинский факультет СПбГУ

г. Санкт-Петербург

[email protected]

Тел.: 234-18-40

Page 2: Biometrical problems in population studies ppt 2004

Цитаты и эпиграфыЧ а ц к и й:К статистике в душе давно питаю страсть я,И геология внушает мне участье

Е. П. Ростопчина

Если для Вашего эксперимента требуется статистика, то Вы должны переделать его тщательнее

Эрнест РезерфордЭрнест Резерфорд

Статистическое мышление однажды станет для образованного человека столь же необходимым, как и способность читать и писать

Герберт Уэллс

Те, кто игнорируют статистику, обречены изобрести ее заново

Бредли Эфрон

Page 3: Biometrical problems in population studies ppt 2004

If Experimentation is the Queen of the Sciences,

then Statistical Methods must be regarded

as Guardians of the Royal Virtue

Myron Tribus

Если Эксперимент - Король наук, то Статистические методы – его телохранители

Если Экспериментация – Королева наук, то Статистические методы Если Экспериментация – Королева наук, то Статистические методы следует признать блюстителями ее непорочности

В свою очередь, сами статистические методы должны быть безукоризненными, адекватными и совершенными

Таким образом, насущно необходимой является надлежащая (хорошая) статистическая практика

GSP - Good Statistics Practice

Page 4: Biometrical problems in population studies ppt 2004

Биометрия

- стратегическая междисциплинарная область научного познания,

• предметом изучения которой являются такие проблемы биологии и медицины, биологии и медицины,

• решение которых невозможно без привлечения и изобретения

• адекватных средств статистического моделирования и анализа.

Page 5: Biometrical problems in population studies ppt 2004

Биометрические заблуждения

• Отбрасывание «выскакивающих» значений

• Проверка «нормальности»

• Критерий Колмогорова и

t-критерий Стьюдента для t-критерий Стьюдента для дискретных данных

• Угловое преобразование

• Односторонние (направленные) гипотезы и критерии

Page 6: Biometrical problems in population studies ppt 2004

Условия применимости критерия Колмогорова

• непрерывность теоретического модельного распределения

• отсутствие (по возможности) совпадающих значенийзначений

• несгруппированность выборочных данных

• параметры распределения

известны a priori

Page 7: Biometrical problems in population studies ppt 2004

Критические значения для статистик критериев Колмогорова, Lilliefors и Несененко-Тюрина для проверки

«нормальности»

Критерий Статистика α = 0,05 α = 0,01

Колмогоров-Stephens

1,36 1,63

+−n

nDn

11,012,0

Stephens

Lilliefors-Stephens

0,90 1,04

Несененко-Тюрин

0,92 1,06

+−n

nDn 12,0

+−n

nDn

85,001,0

∞→

−−

−n

2

2

2exp

2

22 β

ππ

ππ

Page 8: Biometrical problems in population studies ppt 2004

Угловое преобразование для долей

• Сидоренко Е. В. Методы математической обработки в психологии. СПб: Речь, 1996-2003 (по 4000 экз. в год):

• Возможно применение критерия φ к выборкам с n = 2.

• В пределах долей от 20% до 80% замена их углами φ дает такие же

parcsin2=ϕ

• В пределах долей от 20% до 80% замена их углами φ дает такие же результаты, как и без этой замены.

• Для малых (< 20%) и больших (> 80%) долей критерий φ дает «более правильные» результаты.

• φ в сочетании с критерием Колмогорова-Смирнова дает «максимально точный» результат (максимально повышает мощность критерия φ).

• Использование φ2 (по Н. А. Плохинскому) дает «менее точные»результаты.

Page 9: Biometrical problems in population studies ppt 2004

МЕТОДИЧЕСКИЕ УКАЗАНИЯ МУК 2.3.2.970-00«Медико-биологическая оценка пищевой продукции, полученной из

генетически модифицированных источников» Введены 1 июля 2000 г.

• Достоверность различия тяжести реакции анафилаксиимежду двумя группами определяют в соответствии с Z-тестом углового преображения Фишера:

• фи = 2 * arcsin кв.корень p,

• где p - долевой показатель; arcsin - определяется в радианах.радианах.

• Для двух сравниваемых групп N 1 и N2 рассчитывают величину Z-критерия по формуле:

• Z = |фи1 – фи2| * кв.корень N1 * N2 /(N1 +N2)

• Различие по данному показателю признается достоверным (нуль гипотеза отклоняется, Р < 0,04), если Z ≥ 1,96.

Page 10: Biometrical problems in population studies ppt 2004

Забудем угловое (arcsin) преобразование φ-Фишера для долей

• Z[φ] = - 3,14

• P[φ] = 0,017

↕• P[exact] = 0,33

0 2

2 0 • P[exact] = 0,33

• Z[φ] = - 0,83

• P[φ] = 0,41

↕• P[exact] = 0,0040

2 0

1 9

9 1

Page 11: Biometrical problems in population studies ppt 2004

Односторонние или двухсторонние гипотезы, критерии

и доверительные интервалы

• Примеры односторонних ситуаций:

• Хозяин пекарни решает проверить, не приворовывают ли его работники изюм.

• Исключено, чтобы пекари докладывали свой изюм в булочки.

• Поэтому хозяин может ожидать, что либо среднее число изюмин в • Поэтому хозяин может ожидать, что либо среднее число изюмин в булочках должно соответствовать закупленному им количеству, либо оно будет меньше.

• В дисперсионном анализе заведомо внутригрупповые средние квадраты не могут превышать межгрупповых.

• При генетическом сцеплении доля рекомбинантов не может превышать 50% (расстояние между генами не может быть отрицательным).

Page 12: Biometrical problems in population studies ppt 2004

Статистика в уме или на пальцах

• Вопрос о достаточности эксперимента – самый сложный и провокационный.

• Нередко можно услышать мнение, что статистический анализ является никому не нужным обременительным ритуалом.

• Экспериментаторы зачастую бывают убеждены, что • Экспериментаторы зачастую бывают убеждены, что наблюдаемый ими эффект настолько очевиден, что никакой статистический анализ им не нужен, что он лишь подтвердит, то, что видно и так - невооруженным глазом.

• В таких случаях по существу статистический анализ производится в уме.

Page 13: Biometrical problems in population studies ppt 2004

Элементы статистического планирования

эксперимента

• Со студенческой скамьи мы знаем, что любой эксперимент должен быть воспроизводимым,

• что любой опыт следует повторить несколько, как минимум, 4 раза.

• Если результаты всех 4-х повторностей хорошо • Если результаты всех 4-х повторностей хорошо согласуются (очевидно воспроизводятся), то они могут считаться надежными и достаточными.

• Оказывается, что это неписаное правило имеет под собой солидную статистическую основу.

Page 14: Biometrical problems in population studies ppt 2004

Перекрывающиеся или неперекрывающиеся

наборы данных:

сравнение двух независимых выборок• Пусть эксперимент состоит из двух независимых типов

наблюдений: «контрольные» и «опытные»

• Если мы повторим эксперимент 4 раза, и все 4 контрольные значения окажутся больше (или все меньше) всех 4-х опытных значений, то наблюдаемое между ними различие будет статистически значимым на между ними различие будет статистически значимым на уровне значимости αααα = 0.05.

• Другими словами, если оба набора данных не перекрываются, то они значимо различаются на уровне αααα = 0.05.

• Такой примитивный критерий перекрывания или не перекрывания можно применять как для визуальногосравнения данных, так и для элементарного планирования эксперимента.

Page 15: Biometrical problems in population studies ppt 2004

Мнимальные объемы выборок (n1 and n2), необходимые для

«визуальной» оценки значимости различий (на уровне αααα) между

двумя (и только двумя) независимыми выборками с

неперекрывающимися значениями

αααα: 0,05 0,01 0,001

n1 n2 n1 n2 n1 n2

1 39 1 199 1 19991 39 1 199 1 1999

2 8 3 9 5 9

3 5 4 6 6 8

4 4 5 5 7 7

Page 16: Biometrical problems in population studies ppt 2004

Несколько независимых выборок

• Обычно мы редко ограничиваем себя сравнением двух выборок

• Часто нашей целью является выявление тренда (временной или дозовой зависимости)

• В таких исследованиях несколько • В таких исследованиях несколько независимых выборок отбираются во времени или подвергаются воздействию различных доз агента и т. п.

• Здесь также критерий перекрывания-неперекрывания наблюдаемых значений может оказаться плодотворным

Page 17: Biometrical problems in population studies ppt 2004

αααα n0 n1 n2 n3 n4 n5 n6

0,05 1 1 1 1 1

2 2 2

4 4

0,01 1 1 1 1 1 1

3 3 33 3 3

5 5

0,001 1 1 1 1 1 1 1

2 2 2 2

3 3 3 3

4 4 4

7 7

Page 18: Biometrical problems in population studies ppt 2004

В предыдущей таблице представлены минимальные критические числа для последовательно возрастающих доз (i) и минимальные критические объемы выборок (ni).

Когда полученные значения монотонно возрастают (или снижаются) с увеличением дозы и не перекрываются, тогда дозовая зависимость будет значимой на номинальном уровне αααα, указанном в таблице.

Page 19: Biometrical problems in population studies ppt 2004

Парные наблюдения• Ситуация принципиально отличается от предыдущих:

• Два измерения (наблюдения) производятся с одним и тем же объектом или особью: одно – до воздействия (контроль), а второе – после.

• В этом случае наблюдения (измерения) не являются независимыми, и для их анализа требуются специальные независимыми, и для их анализа требуются специальные парные критерии.

• В таких экспериментальных ситуациях минимальный объем выборки, необходимый для «статистики в уме», есть 6 (шесть)

• Если в каждой из 6-и пар значения в контроле больше (или меньше), чем после воздействия, то наблюдаемое различие является значимым на уровне α = 0,05.

Page 20: Biometrical problems in population studies ppt 2004

Минимальные критические объемы выборок,

необходимые для достижения значимого

различия между парными наблюдениями

αααα N

0,05 60,05 6

0,01 8

0,001 11

Page 21: Biometrical problems in population studies ppt 2004

Доверительные интервалы – способ

визуализации проверки гипотез

• Доверительный интервал есть интервал, который накрывает (содержит, включает) неизвестное значение оцениваемого параметра с заранее заданной экспериментатором вероятностью, которая называется доверительной вероятностью.

• Процедуры проверки гипотез и построения доверительных интервалов – суть две стороны одной медали.

• Очень простой критерий: накрывает или нет доверительный интервал нулевой параметр (провозглашаемый нулевой гипотезой) позволяет визуализировать проверку гипотез.

Page 22: Biometrical problems in population studies ppt 2004

Если построен 95%-й доверительный интервал, то все значения внутри него считаются правдоподобными значениями оцениваемого параметра. Значения, находящиеся вне этого интервала отвергаются как невозможные на уровне 5%.Если нулевое значение параметра накрывается построенным 95%-м доверительным интервалом, то мы не имеем логическихоснований отвергнуть H0 на уровне α = 0,05:

Нулевое

значениезначение

|

Если нулевое значение лежит вне этого интервала, то нулевую гипотезу можно отвергнуть на уровне α = 0,05.

Тут возможны два варианта:1. Интервал, показанный ниже, демонстрирует статистически

значимое увеличение:|

2. А этот интервал свидетельствует о значимом уменьшении:|

Page 23: Biometrical problems in population studies ppt 2004

Немного терминологии

• Параметр есть численное значение, которое характеризует некоторую важную особенность теоретического (модельного) распределения (генеральной совокупности).

• Медиана есть значение, которое расположено посередине упорядоченного (ранжированного) набора выборочных данных. Ниже и выше медианы эти данные располагается поровну.

• Если распределение симметрично, то медиана близка к среднему • Если распределение симметрично, то медиана близка к среднему значению. Если распределение асимметрично, то более предпочтительно использовать медиану (или иной родственный параметр).

• Размах выборки есть простейшая мера вариабельности наблюдений. Вычислять его очень легко.

• Численно размах есть разность между наибольшим и наименьшим из наблюдаемых значений:

R = xmax - xmin

Page 24: Biometrical problems in population studies ppt 2004

Доверительный интервал (ДИ),

основанный на размахе• Пример 1.

• Пусть мы имеем одну выборку из 6-и независимых наблюдений: x1, x2, x3, x4, x5 и x6. Тогда 95%-й ДИ для оцениваемого параметра –медианы – будет равен выборочному размаху. Наименьшеезначение xmin будет нижней границей искомого ДИ, а наибольшее значение xmax будет его верхней границей.

• Пример 2.

• Пусть имеются две независимые выборки по 4 наблюдения в каждой: x , x , x , x and y , y , y , y . каждой: x1, x2, x3, x4 and y1, y2, y3, y4.

• Нижней границей 95%-го ДИ для их разности будет разность между наименьшим значением в первой выборке и наибольшим значением во второй выборке: xmin – ymax. И наоборот: верхней его границей будет разность между наибольшим значением в первой выборке и наименьшим значением во второй: xmax – ymin.

• Когда такой ДИ не накрывает значение ноль, тогда нулевая гипотеза (о нулевой разности) отклоняется на уровне значимости 0,05.

Page 25: Biometrical problems in population studies ppt 2004

Пример 3.

Иногда нам бывает нужно оценить отношение двух переменных.Процедура аналогична описанной в Примере 2, но вместо размаха для всех возможных разностей надо находить размах для всех возможных отношений

xi /yj.Когда такой ДИ не включает единицу (нулевой параметр), тогда гипотеза о равенстве отношения единице отклоняется.тогда гипотеза о равенстве отношения единице отклоняется.

Пример 4.

Пусть имеется 6 независимых парных наблюдений: (x1,y1), (x2,y2), (x3,y3), (x4,y4), (x5,y5) и (x6,y6). Тогда непараметрическим 95%-й ДИ для (медианы) их разности di

= xi - yi будет размах соответствующих шести разностей: от dmin до dmax.

Page 26: Biometrical problems in population studies ppt 2004

Вывод

• Как минимум, следует запомнить два набора «сакраментальных» чисел.

• 4 и 4, которые суть критические (равные) • 4 и 4, которые суть критические (равные) объемы выборок для сравнения двух независимых выборок.

• 6, которое есть критический объем выборки для случая парных сравнений.

Page 27: Biometrical problems in population studies ppt 2004

Электронные таблицы

CUMNOR

STATTAB (12)*

DSTexpress (14)

ELV (14)

NCSSCALC (14)

http://odin.mdacc.tmc.edu/anonftp/

http://www.Dataxiom.com

http://www.stat.uni-muenchen.de/~knuesel/

http://ncss.com/download.htmlNCSSCALC (14)

PQRS (32)

SISADistrib (22)

StatCalc (36)*

StaTable (25)

XLStatistics (8)

http://ncss.com/download.html

http://www.eco.rug.nl/medewerk/knypstra/

http://home.clara.net/sisa/spreadsh/distribs.htm

http://www.ucs.louisiana.edu/~kxk4695/

http://www.etext.net http://www.cytel.com

http://www.man.deakin.edu.au/rodneyc/XLStats.htm

Page 28: Biometrical problems in population studies ppt 2004

CUMNOR Version 1.0: June, 1999

Cumulative Normal Distribution over a Wide Rangez can vary from -67861400 to +67861400

Barry W. Brown

STATTABSTATTABVersion 2.0: March, 2002

Calculates Cumulative Distribution Functions, Inverses, and Parameters of Distributions

Barry W. Brown, David Gutierrez, James Lovato, Dan Serachitopol, Marty Spears, John Venier

http://odin.mdacc.tmc.edu/anonftp/

Page 29: Biometrical problems in population studies ppt 2004

CUMNOR

Argument Cumulative Normal 1 - Cumulative Normal

1000.00000000 1.00000000000000 2.290646147X10^( -217151 )

Argument Cumulative Normal 1 - Cumulative Normal

67861400.0000 1.00000000000000 4.X10^( -999999874917098 )

Page 30: Biometrical problems in population studies ppt 2004

STATTAB

MAIN MENU

1 - Incomplete Beta2 - Binomial3 - Negative Binomial4 - Chi-square5 - Non-central Chi-square5 - Non-central Chi-square6 - F7 - Non-central F8 - Incomplete Gamma9 - Normal10 - Poisson11 - T12 - Non-central T

Page 31: Biometrical problems in population studies ppt 2004

Input X, DF, and C or 1-C for chi-square distribution

?, 1, 0.95, .

---------Parameters--------- -Answer-

C 1-C DF X

0.950000 0.050000 1.000000 3.841459

Input X, DF, and C or 1-C for chi-square distribution

1000, 1, ?, .

--------- Parameters--------- -Answer-

X DF C 1-C

.100E+04 1.000000 1.000000 .180-218

Page 32: Biometrical problems in population studies ppt 2004

Программируемые калькуляторыматематических выражений

MathEx

High Precision Complex Calculator

ECW Expression

http://www.softnik.com/products/mathex/

http://www.twopaths.com/calculator/

ECW Expression Calculator

Engi_Cal

Super Calculator

Wise

Calculator

http://alextp.hotbox.ru

http://ptty.loxinfo.co.th/~jburen/engineer.htm

http://plamentd.tripod.com/downloads.html

http://wisecalculator.chat.ru

Page 33: Biometrical problems in population studies ppt 2004
Page 34: Biometrical problems in population studies ppt 2004

Статистические программы общего назначения

SISA +online

INSTAT

LabStats

http://home.clara.net/sisa/

http://www.rdg.ac.uk/ssc/

http://archives.math.utk.edu/software/msdos/stati

stics/stats22/

EasiStat

WinIDAMS

StatXact

http://www.smd.qmul.ac.uk/statgen/dcurtis/softw

are.html

http://portal.unesco.org/ci/ev.php?URL_ID=2070

&URL_DO=DO_TOPIC&URL_SECTION=201

&reload=1034774523

http://www.cytel.com

Page 35: Biometrical problems in population studies ppt 2004

Популяционно-генетические программы

Arlequin http://anthro/unige.ch/arlequin

BAPS http://www.rni.helsinki.fi/~jic/bapspage.html

CERVUS http://helios.bto.ed.ac.uk/evolgen

Con~Struct [email protected] http://www.unil.ch/izea/softwares/fstat.html

FSTMET, HWMET http://www.reading.ac.uk/~snsbalng/

GDA http://lewis.eeb.uconn.edu/lewishome/software.html

GEN [email protected]

GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/

GENEPOP ftp://ftp.cefe.cnrs-mop.fr/genepop

GENEPOP on Webhttp://wbiomed.curtin.edu.au/genepop/index.html

GENETIX http://www.univ-montp2.fr/~genetix/genetix.htm

GeneKonv http://www.rrz.uni-hamburg.de/OekoGenetik/software.htm

GSED http://uni-forst.gwdg.de/forst/fg/software.htm

HWEhttp://www.biology.ualberta.ca/old_site/jbrzusto/hwenj.html

Page 36: Biometrical problems in population studies ppt 2004

INTRAPOP http://bioinformatics.weizmann.ac.il/software/linkage_and_map

ping/gene_ucl_uk/astrinidis/

L-POP http://statgen.iop.kcl.ac.uk/lpop/MSA http://i122server.vu-wien.ac.atMS_tools http://acer.gen.tcd.ie/~sdepark/ms-toolkit/PopDist http://genetics.sh.dk/~bg/popgenPopGen32 Http://www.ualberta.ca/~fyeh

Population http://www.cnrs-if.fr/pge/bioinfo/populations/

PowerMarker http://www.powermarker.netPowerStats http://www.promega.com/geneticidtools/PowerStats http://www.promega.com/geneticidtools/SAGE http://darwin.cwru.edu/sage/SPAGeDi http://www.ulb.ac.be/sciences/lagev/spagedi.html

SPAM http://www.cf.adfg.state.ak.us/geninfo/research/genetics/soft

ware/spampage.htm

STRAT http://pritch.bsd.uchicago.eduSTRUCTURE http://pritch.bsd.uchicago.eduTFPGA http://bioweb.usu.edu/mpmbio/tfpga.htm

Page 37: Biometrical problems in population studies ppt 2004

Конвертируемость и корректировка форматов

Arlequin BIOSYS, GENEPOP, MEGA, PHYLIP, AMOVA

FSTAT GENEPOP

GDA BIOSYS, GeneStat-PC, GeneStrut, NEXUS, SAS, Weir

GENETIX Arlequin, BIOSYS, FSTAT, GENEPOP, text

GenKonv BIOSYS, GSED, GENEPOP, POPGENE

GENEPOP AMOVA, BIOSYS, FSTAT, LINKDOS

MS_tools Arlequin, DISPAN, FSTAT, GENEPOP, MicroSat

Populations Admix, FSTAT, GENEPOP, GENETIX, Immanc, LEA, MicroSat

PowerMarker Arlequin, Excel, GDA, Structure, text

Page 38: Biometrical problems in population studies ppt 2004

Алгоритмы

• Современные компьютерные программы реализуют точные непараметрические процедуры и современную идеологию и методологию Бейесовской статистики.

• Их вычисление требует изощренных алгоритмов • Их вычисление требует изощренных алгоритмов и средств.

• В этой связи возникают новые проблемы, такие как например, проблема сходимости для процедур, использующих алгоритмы Markov chain Monte Carlo (MCMC).

Page 39: Biometrical problems in population studies ppt 2004

Освойтесь с используемыми методами, включая

диагностику сходимости

K. L. Ayres, D. J. Balding

• Сходимость P-значений, оцененных методом MCMC, зависит от числа рандомизаций

• Пример: проверка равновесия Харди-Вайнберга. Программа Arlequin:

• 104 шагов →→→→ P = 0,782 ± 0,0008• 104 шагов →→→→ P = 0,782 ± 0,0008

• 105 шагов →→→→ P = 0,268 ± 0,0005

• 106 шагов →→→→ P = 0,373 ± 0,012

• 107 щагов →→→→ P = 0,424 ± 0,006

• 108 шагов →→→→ P = 0,460 ± 0,003

Page 40: Biometrical problems in population studies ppt 2004

Различные критерии (даже точные) могут приводить к противоположным выводам

Критерий Р или ПИ Прграмма

χχχχ2 0,106 ChiHW, GDA, PowerMarker, etc.

χχχχ2с поправкой 0,092 GEN

Вероятность,

Guo-Thompson

0,026 Arlequin, GDA, GENEPOP, HWE, TFPGA, etc.

G2 асимптотический 0,163 POPGENE

FIS 0,141 FSTAT, GENETIX

95% ПИ для FIS -0,044; -0,015 HWMET

Page 41: Biometrical problems in population studies ppt 2004

Вывод

Первый принцип GSP

Хорошей статистической практикой должен стать анализ данных с использованием стать анализ данных с использованием нескольких различных статистических методов и исследование согласованности получаемых результатов.

Page 42: Biometrical problems in population studies ppt 2004

SANCT – Structural ANalysis of Contingency Tables –программа для статистического анализа структуры в

популяционных данных

Gustavo B. Lazzarotto

Nikita N. Khromov-Borisov

Tarso B. L. Kist

Institute of Biosciences, Institute of Biosciences,

Federal University of Rio Grande do Sul, Porto Alegre,

Brazil

[email protected]

[email protected]

[email protected]

Page 43: Biometrical problems in population studies ppt 2004

Проблемы

• Разреженность таблиц сопряженности

• Множественность сравнений и(или) проверок гипотези(или) проверок гипотез

• Подбор адекватных мер расстояния

• Параллельные вычисления

Page 44: Biometrical problems in population studies ppt 2004

Коллапсирование

• Представляется разумным комбинировать (коллапсировать) данные о родственных (генетически близких) группах в единый класс и рассматривать такой класс как более репрезентативную эталонную выборку.рассматривать такой класс как более репрезентативную эталонную выборку.

• Идея коллапсирования не нова.

• Она давно используется для решения проблемы разреженности таблиц и применимости критерия хи-квадрат и других статистик.

Page 45: Biometrical problems in population studies ppt 2004

Диагностики

• Наиболее распространенной является рекомендация

объединять классы с малыми ожидаемыми

численностями (например, меньших 5-и).

• Теперь эту архаичную и примитивную рекомендацию

можно заменить более универсальными можно заменить более универсальными

диагностиками, которые предложили Simonoff & Tsai

и Mudholkar & Hutson.

• Более того, коллапсирование не должно быть

произвольным (обычным правилом является:

объединяй соседние категории).

• Коллапсируемость должна контролироваться с помощью статистических критериев.

Page 46: Biometrical problems in population studies ppt 2004

Диагностика Simonoff-Tsai

• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при

{ }( )( )

( )∑∑

= =

−=

I

i

J

j ij

ijij

e

en

XS

1 12

3

2/32

2/12

3

;ανχ

• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при df = νννν и αααα;

• X2 - наблюдаемое значение для данной таблицы.

• Если S > 0,25-0,3, тогда применимость X2

сомнительна.

Page 47: Biometrical problems in population studies ppt 2004

Стратегия

• Чтобы реализовать такой подход, в идеале

надо проанализировать все возможные

комбинации категорий (строк и/или столбцов)

в данной таблице.

• К сожалению, это мало выполнимо: с ростом

числа категорий число их возможных

объединений быстро становится

астрономическим.

• Например, уже для 25 выборок это число

превышает 1018.

Page 48: Biometrical problems in population studies ppt 2004

Попарные сравнения

• Коллапсирование может быть основано на попарных

сравнениях между категориями.

• Такой подход заложен в программах Arlequin,

GENEPOP и др., которые обеспечивают вычисление

современных точных непараметрических критериев.

• К сожалению применяемые тесты являются

двухвыборочными.

• Другие программы используют различные

«генетические расстояния», большинство из которых

также являются двухвыборочными.

Page 49: Biometrical problems in population studies ppt 2004

Как сравнивать две строки в данной таблице сопряженностей I ×××× J ?

n11 … n1j … n1J R1

n21 … n2j … n2J R2

n11 + n21 … n1j + n2j … n1J + n2J R1 + R2n11 + n21 … n1j + n2j … n1J + n2J R1 + R2

ИЛИ:

: ::: : ::: : :

nI1 … nIj … nIJ RI

C1 … Cj … CJ N

Page 50: Biometrical problems in population studies ppt 2004

Квадратичное расстояние Кастнбаума-Хироцу для сравнения

пары строк в таблице сопряженностей (KHi2)(Kastenbaum, 1960; Hirotsu, 1978, 1983).

( ) ( )

( ) 111

ˆˆˆˆ2,1

21222

3 1

2

1 21

2

21

1 1

2

2

+

=

−+

+

+−

−== ∑∑∑∑∑

= === =

nnnnnn

Ne

n

ee

nnN

e

niKHi

JJ

I

i

J

j ij

ijJ

j jj

jjI

i

J

j ij

ij

( )

1)1)(2()1)(1(

111

ˆˆˆˆ 1

2

2

2

1

1

1

211 21

2

21

2

2

2

1

2

1

−=−−−−−=

+=

+

+−+= ∑∑

=

=

JJIJIdf

R

n

R

n

CRRN

ee

nn

e

n

e

n J

j

jj

j

J

j jj

jj

j

j

j

j

∑=

=J

jiji

nR1

∑=

=I

iijj

nC1

∑ ∑ ∑∑= = = =

===I

i

J

j

I

i

J

jijji

nCRN1 1 1 1 N

CRe

ji

ij=ˆ

Page 51: Biometrical problems in population studies ppt 2004

Логарифм отношения правдоподобия

( ) ( ) ( )( )

( )( )

( )( ) ( )2lnln2

lnln2ln22,1

2212

2

211

1

1 3 121

21

21

1 1

2

×=

+

++

+

+=

=

+

+

++−==

∑ ∑∑∑∑= = == =

JGnnR

RRnn

nnR

RRnn

CR

Nnn

CRR

Nnnnn

CR

NnniG

Jj

j

j

j

J

j

I

i

J

j ji

ij

ij

j

jj

jj

I

i

J

j ji

ij

ij

( ) ( ) ( )

( )( )

( )( ) ( ) 1;}2{

ующийСоответств

2lnln2

21

1 212

21

2

2

211

21

2

12

2

1 212

2

211

1

−=+−

+

++

+

+=×

×=

+

++

=

=

=

JdfRRnnR

RRn

nnR

RRnJX

X

JGnnR

nnnR

n

J

j jj

j

jj

j

j ji

j

ji

j

Page 52: Biometrical problems in population studies ppt 2004

Множественные сравнения

• Сирого говоря, множественные попарные сравнения требуют определенного рода поправок на множественность.

• Обычно используемые поправки Bonferroni или Sidak (равно как и многочисленные их или Sidak (равно как и многочисленные их модификации), или так называемые «одновременные» процедуры (simultaneous test procedures) оказываются неадекватными для больших таблиц.

• Они приводят к противоречивым и ложным выводам.

Page 53: Biometrical problems in population studies ppt 2004

Принцип редукции хи-квадрата

• Основная процедура, реализованная в SANCT,

состоит в последовательном коллапсировании

наиболее схожих (гомогенных) пар категорий.

• Для интегральной проверки внутренней

гомогенности внутри выявленных блоков

наиболее адекватным представляется принцип

редукции статистики хи-квадрат:

X2[original] - X2[collapsed] = X2[reduction]

Page 54: Biometrical problems in population studies ppt 2004

Правила остановки• Коллапсирование прерывается, когда одна из

следующих статистик становится значимой:

• Редукция хи-квадрата

• Расстояние

• P-значение для текущего коллапсируемого • P-значение для текущего коллапсируемого

блока

• P-значение value с поправкой по Sidak для

текущего коллапситруемого блока

• Комбинирование P-значений по Фишеру и

• Интегральная гетерогенность для всех

сколлапсированных блоков

Page 55: Biometrical problems in population studies ppt 2004

Меры «расстояний»

• X2 – хи-квадрат Пирсона

• G2 – логарифм отношениф правдоподобий

(информация Kullback-Leibler)

• Преобразование по Freeman-Tukey • Преобразование по Freeman-Tukey

• Критерий Neyman

• Модификация по Nass

• Поправка Williams для G2

Page 56: Biometrical problems in population studies ppt 2004

• Преобразования по Anscombe

• Критерий Zelterman’а

• Поправка на дискретность по Mudholkar-

HutsonHutson

• Семейство статистик Cressie-Read

• Расстояние Hellinger со смешанными весами

• X2 со смешанными весами, etc.

Page 57: Biometrical problems in population studies ppt 2004

X2 с поправкой на дискретность

где X02 – обычная статистика хи-квадрат, в

которой наблюдаемые численности nij замещены

2

0

22XXX

c−=

которой наблюдаемые численности nij замещены

числом, ближайшим к оцененным ожидаемым

Muldholkar GS, Hutson AD. Continuity corrected

approximations for and ‘exact’ inference with Pearson’s

X2. J. Stat. Plan. Inf. 59 (1997) 61-78.

Page 58: Biometrical problems in population studies ppt 2004

Статистики Cressie-Read

( )

ratiolikelihoodLog0

sPearson'1

1ˆ1

2

2

2

1 1

G

e

nnC

I

i

J

j ij

ij

ij

−−=

−=

+= ∑∑

= =

λ

χλ

λλ

λ

λ

(1989) 43-19 (1) 57 Rev.,Stat. Intern. Review.eComparativA

:StatisticsRatiooodLoglikelihtheand sPearson' T.R.C. ReadN., Cressie

тсярекомендуеReadCressie32

Modified2

modified sNeyman'1

statisticTukey Freeman21

22

2

2

GX

G

−−=

−−=

−−=

−−−=

λ

λ

χλ

λ

Page 59: Biometrical problems in population studies ppt 2004

Смешанно-взвешенные статистики

( )

прекрасный кактсярекомендуе91

ˆ1

ˆ

family distancellinger weight HeBlended

1 1

2

=

−+

−=∑∑

= =

α

ααα

I

i

J

j ijij

ijij

en

enBWHS

( )( )тсярекомендуе31

ˆ1

ˆ

family square-chi weight Blended

и между компромисс

прекрасный кактсярекомендуе91

1 1

2

22

=

−+

−=

=

∑∑= =

α

αα

α

α

I

i

J

j ijij

ijij

en

enBWCS

GX

Page 60: Biometrical problems in population studies ppt 2004

Программирование

• В программе SANCT все указанные выше

статистики реализованы как в

асимптотической, так и точной версиях.

• Программа написана на объектно-

ориентированном языке C++ и успешно

функционирует на компьютерах с различной

архитектурой и операционными системами

(Windows, Linux).

Page 61: Biometrical problems in population studies ppt 2004
Page 62: Biometrical problems in population studies ppt 2004

Вычислительные средства

• Для анализа больших массивов (банков) данных (например, 300 выборок и более) требуются мощные вычислительные средства.средства.

• Параллельные вычисления проведены с использованием кластеров из 40 процессоров Pentium III или с использованием суперкомпьютера.

Page 63: Biometrical problems in population studies ppt 2004

Система: D1S80

27 аллелей: от 14 до 41 повторов 16 п.н.

Page 64: Biometrical problems in population studies ppt 2004

Северо-Запад России: вид со спутника

Page 65: Biometrical problems in population studies ppt 2004

Северо-Западный округ России

152 города14,56 млн. жителей

Page 66: Biometrical problems in population studies ppt 2004

113 выборок коллапсируют в 29 гомокластеров

D1S80

129Независимых выборок

←←←←NorthwestRussians

Drawn with Tree Explorer of Dr. K.Tamura http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip

Page 67: Biometrical problems in population studies ppt 2004

16 samples6 samples

10 samples

2 samples

7 samples

4 samples

5 samples

2 samples

3 samples

2 samples

3 samples

2 samples

2 samples

3 samples

2 samples

С использованием χχχχ2 выявляются 45 значимо различимых блоков

D1S80

Drawn with Tree Explorer of Dr. K. Tamura <http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip>

3 samples

3 samples

8 samples

6 samples

3 samples3 samples

2 samples

2 samples2 samples

2 samples

2 samples

3 samples

3 samples

3 samples

2 samples

Page 68: Biometrical problems in population studies ppt 2004

Au

str

ia

Po

lSo

uth

Au

stV

ien

na

Cro

atN

ort

h

Po

lan

d/3

0

Ba

sqSp

ain

Cro

atSouth

Be loru

ss

Ita ly/23

Po rtug/36C hile Pe hue

C hinaN E

Japan/62

Ko rea

Jap

an/55s

Ch

ina

Sin

ga

Ch

ina

Ho

ng

KP

hilM

an

ila

С использованием статистики Cressie-Read C2/3 получаются39 различимых групп

Po rtug/36

ItaA nc Parm

Franc e /11G re e c ePapuaN G -H l

HungRoma

Finla

nd

USH

ispSW

Co

lom

Ca

uc

Slo

va

kia

US

Sio

ux

I nd

i aG

oa

US

Pu

eb

lo

Po

rtu

g/3

5

Ca

na

da

Do

gr

USN

ava

jo

USA

lask

Inu

USAfrA

m/55

Zimbabw eBrazA raraBrW ayanA pa

U SC ham G uam

C hile Pe hue

Page 69: Biometrical problems in population studies ppt 2004

выводы• SANCT – как методология. так и программапредставляются адекватными и надежнымиинструментами для выявления паттерна(структуры) сходства в крупных базахпопуляционных данных.

• Используя подходящие статистики критериев и• Используя подходящие статистики критериев ирасстояний проблема множественных сравнений(множественных проверок гипотез), решаетсяадекватно.

• Выявленные сходства между разнымипопуляциями оказываются разумными иинтерпретируемыми.

Page 70: Biometrical problems in population studies ppt 2004

Интуиция и сила воли против

иллюзии объективности

• Большое заблуждение верить, что статистика привносит объективность в наши решения и выводы, принимаемые на основе результатов анализа.

• Статистика есть всего лишь здравый смысл, сведенный к вычислениям, и ничего более.

• Статистика дисциплинирует наш ум. Она привносит в анализ данных универсализацию, формализацию, стандартизацию (но не субъективность).универсализацию, формализацию, стандартизацию (но не субъективность).

• Не следует забывать, что обычно используемые фиксированные значения уровней значимости αααα (0,05, 0,01 или 0,001) имеют вне-статистическую природу; они суть результат соглашения (среди прочих), принятого научным сообществом.

• Наука всегда субъективна и решение о достаточности эксперимента есть ее величайшая проблема.

• В конечном счете, любые наши заключения, выведенные из результатов наших экспериментов, основаны на интуиции и силе воли. Все они суть акты интеллектуальной смелости.

Page 71: Biometrical problems in population studies ppt 2004

Заключение

• Статистическая теория и анализ данных, несомненно, являются одними из главнейших научных технологий, развитых в ХХ век, наравне с другими научными и технологическими достижениями, такими как электроника, компьютеры, электроника, компьютеры, биотехнология, интернет и проч.

• Изобретение Пирсоном критерия хи-квадрат входит в двадцатку величайших изобретений ХХ века, как первая мера согласия теории и практики.

Page 72: Biometrical problems in population studies ppt 2004

Публикации и соавторы• Глотов Н. В., Животовский Л. А., Хованов Н. В., Хромов-

Борисов Н. Н. Биометрия. Л.: ЛГУ, 1982, 263 с.• Хромов-Борисов Н. Н. Биометрические аспекты

популяционной генетики. Новые генетическиемеханизмы и их роль в генетико-популяционныхпроцессах. В кн.: Кайданов Л. З. Генетика популяций. М.:Высш. шк., 1996, с. 251-308.

• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,Баранов В. С. Популяционное исследование CTGтринуклеотидных повторов в гене миотонин-киназы I.Генетика 33 (1997) 1098-1101.

• Khromov-Borisov N.N., Henriques J.A.P. Good statisticspractice (GSP) in genetic toxicology. Mutat. Res. 405 (1) 97-108 (1998).

• Khromov-Borisov N.N., Rogozin I.B., Henriques J.A.P., deSerres F.J. Similarity pattern analysis in mutationaldistributions. Mutat. Res. 430 (1) 55-74 (1999).

Page 73: Biometrical problems in population studies ppt 2004

• Khromov-Borisov N.N., Picada J,N, Henriques J.A.P. Dose finding in theAmes Salmonella assay. Mutat. Res. 435 (1) 36-47 (2000).

• Smolyanitsky A. G., Smolyanitskaya A. I., Popov V. L., Zaslavsky G. I., Khromov-Borisov N. N. Polymorphism of LDLR, GYPA, HBGG, D7S8, GC, HLA-DQA1, Ig-JH, D17S30, ApoB and D1S80 loci in northwestern Russians.Forensic Sci. Int. 137 (1) 100-103 (2003).

• В Smolyanitsky A.G., Khromov-Borisov N.N., Popov V.L., Zaslavsky G.I., Rogozin I.B., Henriques J.A.P., Kist T.B.L., Scheil H.-G. Statistical pattern analysis of D1S80 alleles in Northwestern Russians and worldwide database using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.

• Khromov-Borisov, N.N., Saffi, J. and Henriques, J.A.P. Perfect order plating: principle and applications. Technical Tips Online (TTO), 2002, Vol. 144, No. 1,T02638http://research.bmn.com/tto/browse/record?uid=TTO.elstto00_01689525_144_t02638&node=TOC@@TTO@001@144@001_144

• Smolyanitsky A. G., Ivanov P. L., Kornienko L. V., Zamaraev V. S., Perepechina I. O., Komarovsky Yu. A., Pushkarev V. P., Khromov-Borisov N. N. Towards Russian reference population data on STR loci. Progr. ForensicGenet. 10 (2004). Vol.10. (в печати).

Page 74: Biometrical problems in population studies ppt 2004

Спонсоры и грантодатели

-• CNPq - Conselho Nacional de Desenvolvimento Cientifico

e Tecnologia, BRAZIL

• CAPES - Coordenadoria de Formacao de Pessoal de Nivel

Superios, BRAZIL

• DAAD - German Academic Exchange Service, Bonn, • DAAD - German Academic Exchange Service, Bonn,

GERMANY

• Computing Facility of Federal University of Rio Grande do

Sul, Porto Alegre, BRAZIL

• RFBR - Russian Foundation on Basic Research, RUSSIA

• Wallenberg Foundation, Sweden

Page 75: Biometrical problems in population studies ppt 2004

ПризнательностиБлагодарю Drs., Karen L. Ayres and David J. Balding,

Laura C. Lazzeroni и Kenneth Lange, и John Brzustowski

за любезное предоставление их программ(HWMET, GEN и HWE, соответственно).

Премного благодарен им и авторам других программ и публикаций, использованных в этом программ и публикаций, использованных в этом сообщении: Drs. Angel Carracedo, Laurent Excoffier, Jerome Goudet, Kejun Liu, Tristan Marshall, Mark P. Miller, Eleanor Morgan, Michel Raymond, Francois Rousset, Hans-Georg Scheil, Bruce S. Weir, Николая Глотова, Льва Животовского, Дмитрия Зайкина, Светлану Лимборскую

за полезное и плодотворное обсуждение.

Page 76: Biometrical problems in population studies ppt 2004

Контакты

• Никита Николаевич

Хромов-Борисов

• г. Санкт-Петербург

• Тел.: (812) 234-18-40 – дом.

• 8-952-204-89-49 – моб.

[email protected]