Biometrical problems in population studies ppt 2004
Transcript of Biometrical problems in population studies ppt 2004
Биометрические задачи
в популяционных исследованиях
Никита Николаевич Хромов-Борисов
Медицинский факультет СПбГУ
г. Санкт-Петербург
Тел.: 234-18-40
Цитаты и эпиграфыЧ а ц к и й:К статистике в душе давно питаю страсть я,И геология внушает мне участье
Е. П. Ростопчина
Если для Вашего эксперимента требуется статистика, то Вы должны переделать его тщательнее
Эрнест РезерфордЭрнест Резерфорд
Статистическое мышление однажды станет для образованного человека столь же необходимым, как и способность читать и писать
Герберт Уэллс
Те, кто игнорируют статистику, обречены изобрести ее заново
Бредли Эфрон
If Experimentation is the Queen of the Sciences,
then Statistical Methods must be regarded
as Guardians of the Royal Virtue
Myron Tribus
Если Эксперимент - Король наук, то Статистические методы – его телохранители
Если Экспериментация – Королева наук, то Статистические методы Если Экспериментация – Королева наук, то Статистические методы следует признать блюстителями ее непорочности
В свою очередь, сами статистические методы должны быть безукоризненными, адекватными и совершенными
Таким образом, насущно необходимой является надлежащая (хорошая) статистическая практика
GSP - Good Statistics Practice
Биометрия
- стратегическая междисциплинарная область научного познания,
• предметом изучения которой являются такие проблемы биологии и медицины, биологии и медицины,
• решение которых невозможно без привлечения и изобретения
• адекватных средств статистического моделирования и анализа.
Биометрические заблуждения
• Отбрасывание «выскакивающих» значений
• Проверка «нормальности»
• Критерий Колмогорова и
t-критерий Стьюдента для t-критерий Стьюдента для дискретных данных
• Угловое преобразование
• Односторонние (направленные) гипотезы и критерии
Условия применимости критерия Колмогорова
• непрерывность теоретического модельного распределения
• отсутствие (по возможности) совпадающих значенийзначений
• несгруппированность выборочных данных
• параметры распределения
известны a priori
Критические значения для статистик критериев Колмогорова, Lilliefors и Несененко-Тюрина для проверки
«нормальности»
Критерий Статистика α = 0,05 α = 0,01
Колмогоров-Stephens
1,36 1,63
+−n
nDn
11,012,0
Stephens
Lilliefors-Stephens
0,90 1,04
Несененко-Тюрин
0,92 1,06
+−n
nDn 12,0
+−n
nDn
85,001,0
∞→
−−
−n
2
2
2exp
2
22 β
ππ
ππ
Угловое преобразование для долей
• Сидоренко Е. В. Методы математической обработки в психологии. СПб: Речь, 1996-2003 (по 4000 экз. в год):
• Возможно применение критерия φ к выборкам с n = 2.
• В пределах долей от 20% до 80% замена их углами φ дает такие же
parcsin2=ϕ
• В пределах долей от 20% до 80% замена их углами φ дает такие же результаты, как и без этой замены.
• Для малых (< 20%) и больших (> 80%) долей критерий φ дает «более правильные» результаты.
• φ в сочетании с критерием Колмогорова-Смирнова дает «максимально точный» результат (максимально повышает мощность критерия φ).
• Использование φ2 (по Н. А. Плохинскому) дает «менее точные»результаты.
МЕТОДИЧЕСКИЕ УКАЗАНИЯ МУК 2.3.2.970-00«Медико-биологическая оценка пищевой продукции, полученной из
генетически модифицированных источников» Введены 1 июля 2000 г.
• Достоверность различия тяжести реакции анафилаксиимежду двумя группами определяют в соответствии с Z-тестом углового преображения Фишера:
• фи = 2 * arcsin кв.корень p,
• где p - долевой показатель; arcsin - определяется в радианах.радианах.
• Для двух сравниваемых групп N 1 и N2 рассчитывают величину Z-критерия по формуле:
• Z = |фи1 – фи2| * кв.корень N1 * N2 /(N1 +N2)
• Различие по данному показателю признается достоверным (нуль гипотеза отклоняется, Р < 0,04), если Z ≥ 1,96.
Забудем угловое (arcsin) преобразование φ-Фишера для долей
• Z[φ] = - 3,14
• P[φ] = 0,017
↕• P[exact] = 0,33
0 2
2 0 • P[exact] = 0,33
• Z[φ] = - 0,83
• P[φ] = 0,41
↕• P[exact] = 0,0040
2 0
1 9
9 1
Односторонние или двухсторонние гипотезы, критерии
и доверительные интервалы
• Примеры односторонних ситуаций:
• Хозяин пекарни решает проверить, не приворовывают ли его работники изюм.
• Исключено, чтобы пекари докладывали свой изюм в булочки.
• Поэтому хозяин может ожидать, что либо среднее число изюмин в • Поэтому хозяин может ожидать, что либо среднее число изюмин в булочках должно соответствовать закупленному им количеству, либо оно будет меньше.
• В дисперсионном анализе заведомо внутригрупповые средние квадраты не могут превышать межгрупповых.
• При генетическом сцеплении доля рекомбинантов не может превышать 50% (расстояние между генами не может быть отрицательным).
Статистика в уме или на пальцах
• Вопрос о достаточности эксперимента – самый сложный и провокационный.
• Нередко можно услышать мнение, что статистический анализ является никому не нужным обременительным ритуалом.
• Экспериментаторы зачастую бывают убеждены, что • Экспериментаторы зачастую бывают убеждены, что наблюдаемый ими эффект настолько очевиден, что никакой статистический анализ им не нужен, что он лишь подтвердит, то, что видно и так - невооруженным глазом.
• В таких случаях по существу статистический анализ производится в уме.
Элементы статистического планирования
эксперимента
• Со студенческой скамьи мы знаем, что любой эксперимент должен быть воспроизводимым,
• что любой опыт следует повторить несколько, как минимум, 4 раза.
• Если результаты всех 4-х повторностей хорошо • Если результаты всех 4-х повторностей хорошо согласуются (очевидно воспроизводятся), то они могут считаться надежными и достаточными.
• Оказывается, что это неписаное правило имеет под собой солидную статистическую основу.
Перекрывающиеся или неперекрывающиеся
наборы данных:
сравнение двух независимых выборок• Пусть эксперимент состоит из двух независимых типов
наблюдений: «контрольные» и «опытные»
• Если мы повторим эксперимент 4 раза, и все 4 контрольные значения окажутся больше (или все меньше) всех 4-х опытных значений, то наблюдаемое между ними различие будет статистически значимым на между ними различие будет статистически значимым на уровне значимости αααα = 0.05.
• Другими словами, если оба набора данных не перекрываются, то они значимо различаются на уровне αααα = 0.05.
• Такой примитивный критерий перекрывания или не перекрывания можно применять как для визуальногосравнения данных, так и для элементарного планирования эксперимента.
Мнимальные объемы выборок (n1 and n2), необходимые для
«визуальной» оценки значимости различий (на уровне αααα) между
двумя (и только двумя) независимыми выборками с
неперекрывающимися значениями
αααα: 0,05 0,01 0,001
n1 n2 n1 n2 n1 n2
1 39 1 199 1 19991 39 1 199 1 1999
2 8 3 9 5 9
3 5 4 6 6 8
4 4 5 5 7 7
Несколько независимых выборок
• Обычно мы редко ограничиваем себя сравнением двух выборок
• Часто нашей целью является выявление тренда (временной или дозовой зависимости)
• В таких исследованиях несколько • В таких исследованиях несколько независимых выборок отбираются во времени или подвергаются воздействию различных доз агента и т. п.
• Здесь также критерий перекрывания-неперекрывания наблюдаемых значений может оказаться плодотворным
αααα n0 n1 n2 n3 n4 n5 n6
0,05 1 1 1 1 1
2 2 2
4 4
0,01 1 1 1 1 1 1
3 3 33 3 3
5 5
0,001 1 1 1 1 1 1 1
2 2 2 2
3 3 3 3
4 4 4
7 7
В предыдущей таблице представлены минимальные критические числа для последовательно возрастающих доз (i) и минимальные критические объемы выборок (ni).
Когда полученные значения монотонно возрастают (или снижаются) с увеличением дозы и не перекрываются, тогда дозовая зависимость будет значимой на номинальном уровне αααα, указанном в таблице.
Парные наблюдения• Ситуация принципиально отличается от предыдущих:
• Два измерения (наблюдения) производятся с одним и тем же объектом или особью: одно – до воздействия (контроль), а второе – после.
• В этом случае наблюдения (измерения) не являются независимыми, и для их анализа требуются специальные независимыми, и для их анализа требуются специальные парные критерии.
• В таких экспериментальных ситуациях минимальный объем выборки, необходимый для «статистики в уме», есть 6 (шесть)
• Если в каждой из 6-и пар значения в контроле больше (или меньше), чем после воздействия, то наблюдаемое различие является значимым на уровне α = 0,05.
Минимальные критические объемы выборок,
необходимые для достижения значимого
различия между парными наблюдениями
αααα N
0,05 60,05 6
0,01 8
0,001 11
Доверительные интервалы – способ
визуализации проверки гипотез
• Доверительный интервал есть интервал, который накрывает (содержит, включает) неизвестное значение оцениваемого параметра с заранее заданной экспериментатором вероятностью, которая называется доверительной вероятностью.
• Процедуры проверки гипотез и построения доверительных интервалов – суть две стороны одной медали.
• Очень простой критерий: накрывает или нет доверительный интервал нулевой параметр (провозглашаемый нулевой гипотезой) позволяет визуализировать проверку гипотез.
Если построен 95%-й доверительный интервал, то все значения внутри него считаются правдоподобными значениями оцениваемого параметра. Значения, находящиеся вне этого интервала отвергаются как невозможные на уровне 5%.Если нулевое значение параметра накрывается построенным 95%-м доверительным интервалом, то мы не имеем логическихоснований отвергнуть H0 на уровне α = 0,05:
Нулевое
значениезначение
|
Если нулевое значение лежит вне этого интервала, то нулевую гипотезу можно отвергнуть на уровне α = 0,05.
Тут возможны два варианта:1. Интервал, показанный ниже, демонстрирует статистически
значимое увеличение:|
2. А этот интервал свидетельствует о значимом уменьшении:|
Немного терминологии
• Параметр есть численное значение, которое характеризует некоторую важную особенность теоретического (модельного) распределения (генеральной совокупности).
• Медиана есть значение, которое расположено посередине упорядоченного (ранжированного) набора выборочных данных. Ниже и выше медианы эти данные располагается поровну.
• Если распределение симметрично, то медиана близка к среднему • Если распределение симметрично, то медиана близка к среднему значению. Если распределение асимметрично, то более предпочтительно использовать медиану (или иной родственный параметр).
• Размах выборки есть простейшая мера вариабельности наблюдений. Вычислять его очень легко.
• Численно размах есть разность между наибольшим и наименьшим из наблюдаемых значений:
R = xmax - xmin
Доверительный интервал (ДИ),
основанный на размахе• Пример 1.
• Пусть мы имеем одну выборку из 6-и независимых наблюдений: x1, x2, x3, x4, x5 и x6. Тогда 95%-й ДИ для оцениваемого параметра –медианы – будет равен выборочному размаху. Наименьшеезначение xmin будет нижней границей искомого ДИ, а наибольшее значение xmax будет его верхней границей.
• Пример 2.
• Пусть имеются две независимые выборки по 4 наблюдения в каждой: x , x , x , x and y , y , y , y . каждой: x1, x2, x3, x4 and y1, y2, y3, y4.
• Нижней границей 95%-го ДИ для их разности будет разность между наименьшим значением в первой выборке и наибольшим значением во второй выборке: xmin – ymax. И наоборот: верхней его границей будет разность между наибольшим значением в первой выборке и наименьшим значением во второй: xmax – ymin.
• Когда такой ДИ не накрывает значение ноль, тогда нулевая гипотеза (о нулевой разности) отклоняется на уровне значимости 0,05.
Пример 3.
Иногда нам бывает нужно оценить отношение двух переменных.Процедура аналогична описанной в Примере 2, но вместо размаха для всех возможных разностей надо находить размах для всех возможных отношений
xi /yj.Когда такой ДИ не включает единицу (нулевой параметр), тогда гипотеза о равенстве отношения единице отклоняется.тогда гипотеза о равенстве отношения единице отклоняется.
Пример 4.
Пусть имеется 6 независимых парных наблюдений: (x1,y1), (x2,y2), (x3,y3), (x4,y4), (x5,y5) и (x6,y6). Тогда непараметрическим 95%-й ДИ для (медианы) их разности di
= xi - yi будет размах соответствующих шести разностей: от dmin до dmax.
Вывод
• Как минимум, следует запомнить два набора «сакраментальных» чисел.
• 4 и 4, которые суть критические (равные) • 4 и 4, которые суть критические (равные) объемы выборок для сравнения двух независимых выборок.
• 6, которое есть критический объем выборки для случая парных сравнений.
Электронные таблицы
CUMNOR
STATTAB (12)*
DSTexpress (14)
ELV (14)
NCSSCALC (14)
http://odin.mdacc.tmc.edu/anonftp/
http://www.Dataxiom.com
http://www.stat.uni-muenchen.de/~knuesel/
http://ncss.com/download.htmlNCSSCALC (14)
PQRS (32)
SISADistrib (22)
StatCalc (36)*
StaTable (25)
XLStatistics (8)
http://ncss.com/download.html
http://www.eco.rug.nl/medewerk/knypstra/
http://home.clara.net/sisa/spreadsh/distribs.htm
http://www.ucs.louisiana.edu/~kxk4695/
http://www.etext.net http://www.cytel.com
http://www.man.deakin.edu.au/rodneyc/XLStats.htm
CUMNOR Version 1.0: June, 1999
Cumulative Normal Distribution over a Wide Rangez can vary from -67861400 to +67861400
Barry W. Brown
STATTABSTATTABVersion 2.0: March, 2002
Calculates Cumulative Distribution Functions, Inverses, and Parameters of Distributions
Barry W. Brown, David Gutierrez, James Lovato, Dan Serachitopol, Marty Spears, John Venier
http://odin.mdacc.tmc.edu/anonftp/
CUMNOR
Argument Cumulative Normal 1 - Cumulative Normal
1000.00000000 1.00000000000000 2.290646147X10^( -217151 )
Argument Cumulative Normal 1 - Cumulative Normal
67861400.0000 1.00000000000000 4.X10^( -999999874917098 )
STATTAB
MAIN MENU
1 - Incomplete Beta2 - Binomial3 - Negative Binomial4 - Chi-square5 - Non-central Chi-square5 - Non-central Chi-square6 - F7 - Non-central F8 - Incomplete Gamma9 - Normal10 - Poisson11 - T12 - Non-central T
Input X, DF, and C or 1-C for chi-square distribution
?, 1, 0.95, .
---------Parameters--------- -Answer-
C 1-C DF X
0.950000 0.050000 1.000000 3.841459
Input X, DF, and C or 1-C for chi-square distribution
1000, 1, ?, .
--------- Parameters--------- -Answer-
X DF C 1-C
.100E+04 1.000000 1.000000 .180-218
Программируемые калькуляторыматематических выражений
MathEx
High Precision Complex Calculator
ECW Expression
http://www.softnik.com/products/mathex/
http://www.twopaths.com/calculator/
ECW Expression Calculator
Engi_Cal
Super Calculator
Wise
Calculator
http://alextp.hotbox.ru
http://ptty.loxinfo.co.th/~jburen/engineer.htm
http://plamentd.tripod.com/downloads.html
http://wisecalculator.chat.ru
Статистические программы общего назначения
SISA +online
INSTAT
LabStats
http://home.clara.net/sisa/
http://www.rdg.ac.uk/ssc/
http://archives.math.utk.edu/software/msdos/stati
stics/stats22/
EasiStat
WinIDAMS
StatXact
http://www.smd.qmul.ac.uk/statgen/dcurtis/softw
are.html
http://portal.unesco.org/ci/ev.php?URL_ID=2070
&URL_DO=DO_TOPIC&URL_SECTION=201
&reload=1034774523
http://www.cytel.com
Популяционно-генетические программы
Arlequin http://anthro/unige.ch/arlequin
BAPS http://www.rni.helsinki.fi/~jic/bapspage.html
CERVUS http://helios.bto.ed.ac.uk/evolgen
Con~Struct [email protected] http://www.unil.ch/izea/softwares/fstat.html
FSTMET, HWMET http://www.reading.ac.uk/~snsbalng/
GDA http://lewis.eeb.uconn.edu/lewishome/software.html
GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/GenAlEx http://www.anu.edu.au/BoZo/GenAlEx/
GENEPOP ftp://ftp.cefe.cnrs-mop.fr/genepop
GENEPOP on Webhttp://wbiomed.curtin.edu.au/genepop/index.html
GENETIX http://www.univ-montp2.fr/~genetix/genetix.htm
GeneKonv http://www.rrz.uni-hamburg.de/OekoGenetik/software.htm
GSED http://uni-forst.gwdg.de/forst/fg/software.htm
HWEhttp://www.biology.ualberta.ca/old_site/jbrzusto/hwenj.html
INTRAPOP http://bioinformatics.weizmann.ac.il/software/linkage_and_map
ping/gene_ucl_uk/astrinidis/
L-POP http://statgen.iop.kcl.ac.uk/lpop/MSA http://i122server.vu-wien.ac.atMS_tools http://acer.gen.tcd.ie/~sdepark/ms-toolkit/PopDist http://genetics.sh.dk/~bg/popgenPopGen32 Http://www.ualberta.ca/~fyeh
Population http://www.cnrs-if.fr/pge/bioinfo/populations/
PowerMarker http://www.powermarker.netPowerStats http://www.promega.com/geneticidtools/PowerStats http://www.promega.com/geneticidtools/SAGE http://darwin.cwru.edu/sage/SPAGeDi http://www.ulb.ac.be/sciences/lagev/spagedi.html
SPAM http://www.cf.adfg.state.ak.us/geninfo/research/genetics/soft
ware/spampage.htm
STRAT http://pritch.bsd.uchicago.eduSTRUCTURE http://pritch.bsd.uchicago.eduTFPGA http://bioweb.usu.edu/mpmbio/tfpga.htm
Конвертируемость и корректировка форматов
Arlequin BIOSYS, GENEPOP, MEGA, PHYLIP, AMOVA
FSTAT GENEPOP
GDA BIOSYS, GeneStat-PC, GeneStrut, NEXUS, SAS, Weir
GENETIX Arlequin, BIOSYS, FSTAT, GENEPOP, text
GenKonv BIOSYS, GSED, GENEPOP, POPGENE
GENEPOP AMOVA, BIOSYS, FSTAT, LINKDOS
MS_tools Arlequin, DISPAN, FSTAT, GENEPOP, MicroSat
Populations Admix, FSTAT, GENEPOP, GENETIX, Immanc, LEA, MicroSat
PowerMarker Arlequin, Excel, GDA, Structure, text
Алгоритмы
• Современные компьютерные программы реализуют точные непараметрические процедуры и современную идеологию и методологию Бейесовской статистики.
• Их вычисление требует изощренных алгоритмов • Их вычисление требует изощренных алгоритмов и средств.
• В этой связи возникают новые проблемы, такие как например, проблема сходимости для процедур, использующих алгоритмы Markov chain Monte Carlo (MCMC).
Освойтесь с используемыми методами, включая
диагностику сходимости
K. L. Ayres, D. J. Balding
• Сходимость P-значений, оцененных методом MCMC, зависит от числа рандомизаций
• Пример: проверка равновесия Харди-Вайнберга. Программа Arlequin:
• 104 шагов →→→→ P = 0,782 ± 0,0008• 104 шагов →→→→ P = 0,782 ± 0,0008
• 105 шагов →→→→ P = 0,268 ± 0,0005
• 106 шагов →→→→ P = 0,373 ± 0,012
• 107 щагов →→→→ P = 0,424 ± 0,006
• 108 шагов →→→→ P = 0,460 ± 0,003
Различные критерии (даже точные) могут приводить к противоположным выводам
Критерий Р или ПИ Прграмма
χχχχ2 0,106 ChiHW, GDA, PowerMarker, etc.
χχχχ2с поправкой 0,092 GEN
Вероятность,
Guo-Thompson
0,026 Arlequin, GDA, GENEPOP, HWE, TFPGA, etc.
G2 асимптотический 0,163 POPGENE
FIS 0,141 FSTAT, GENETIX
95% ПИ для FIS -0,044; -0,015 HWMET
Вывод
Первый принцип GSP
Хорошей статистической практикой должен стать анализ данных с использованием стать анализ данных с использованием нескольких различных статистических методов и исследование согласованности получаемых результатов.
SANCT – Structural ANalysis of Contingency Tables –программа для статистического анализа структуры в
популяционных данных
Gustavo B. Lazzarotto
Nikita N. Khromov-Borisov
Tarso B. L. Kist
Institute of Biosciences, Institute of Biosciences,
Federal University of Rio Grande do Sul, Porto Alegre,
Brazil
Проблемы
• Разреженность таблиц сопряженности
• Множественность сравнений и(или) проверок гипотези(или) проверок гипотез
• Подбор адекватных мер расстояния
• Параллельные вычисления
Коллапсирование
• Представляется разумным комбинировать (коллапсировать) данные о родственных (генетически близких) группах в единый класс и рассматривать такой класс как более репрезентативную эталонную выборку.рассматривать такой класс как более репрезентативную эталонную выборку.
• Идея коллапсирования не нова.
• Она давно используется для решения проблемы разреженности таблиц и применимости критерия хи-квадрат и других статистик.
Диагностики
• Наиболее распространенной является рекомендация
объединять классы с малыми ожидаемыми
численностями (например, меньших 5-и).
• Теперь эту архаичную и примитивную рекомендацию
можно заменить более универсальными можно заменить более универсальными
диагностиками, которые предложили Simonoff & Tsai
и Mudholkar & Hutson.
• Более того, коллапсирование не должно быть
произвольным (обычным правилом является:
объединяй соседние категории).
• Коллапсируемость должна контролироваться с помощью статистических критериев.
Диагностика Simonoff-Tsai
• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при
{ }( )( )
( )∑∑
= =
−=
I
i
J
j ij
ijij
e
en
XS
1 12
3
2/32
2/12
3
;ανχ
• где χχχχ2{νννν; αααα} - критическое значение χχχχ2 при df = νννν и αααα;
• X2 - наблюдаемое значение для данной таблицы.
• Если S > 0,25-0,3, тогда применимость X2
сомнительна.
Стратегия
• Чтобы реализовать такой подход, в идеале
надо проанализировать все возможные
комбинации категорий (строк и/или столбцов)
в данной таблице.
• К сожалению, это мало выполнимо: с ростом
числа категорий число их возможных
объединений быстро становится
астрономическим.
• Например, уже для 25 выборок это число
превышает 1018.
Попарные сравнения
• Коллапсирование может быть основано на попарных
сравнениях между категориями.
• Такой подход заложен в программах Arlequin,
GENEPOP и др., которые обеспечивают вычисление
современных точных непараметрических критериев.
• К сожалению применяемые тесты являются
двухвыборочными.
• Другие программы используют различные
«генетические расстояния», большинство из которых
также являются двухвыборочными.
Как сравнивать две строки в данной таблице сопряженностей I ×××× J ?
n11 … n1j … n1J R1
n21 … n2j … n2J R2
n11 + n21 … n1j + n2j … n1J + n2J R1 + R2n11 + n21 … n1j + n2j … n1J + n2J R1 + R2
ИЛИ:
: ::: : ::: : :
nI1 … nIj … nIJ RI
C1 … Cj … CJ N
Квадратичное расстояние Кастнбаума-Хироцу для сравнения
пары строк в таблице сопряженностей (KHi2)(Kastenbaum, 1960; Hirotsu, 1978, 1983).
( ) ( )
( ) 111
ˆˆˆˆ2,1
21222
3 1
2
1 21
2
21
1 1
2
2
+
=
−+
+
+−
−== ∑∑∑∑∑
−
= === =
nnnnnn
Ne
n
ee
nnN
e
niKHi
JJ
I
i
J
j ij
ijJ
j jj
jjI
i
J
j ij
ij
( )
1)1)(2()1)(1(
111
ˆˆˆˆ 1
2
2
2
1
1
1
211 21
2
21
2
2
2
1
2
1
−=−−−−−=
−
+=
+
+−+= ∑∑
=
−
=
JJIJIdf
R
n
R
n
CRRN
ee
nn
e
n
e
n J
j
jj
j
J
j jj
jj
j
j
j
j
∑=
=J
jiji
nR1
∑=
=I
iijj
nC1
∑ ∑ ∑∑= = = =
===I
i
J
j
I
i
J
jijji
nCRN1 1 1 1 N
CRe
ji
ij=ˆ
Логарифм отношения правдоподобия
( ) ( ) ( )( )
( )( )
( )( ) ( )2lnln2
lnln2ln22,1
2212
2
211
1
1 3 121
21
21
1 1
2
×=
+
++
+
+=
=
+
+
++−==
∑
∑ ∑∑∑∑= = == =
JGnnR
RRnn
nnR
RRnn
CR
Nnn
CRR
Nnnnn
CR
NnniG
Jj
j
j
j
J
j
I
i
J
j ji
ij
ij
j
jj
jj
I
i
J
j ji
ij
ij
( ) ( ) ( )
( )( )
( )( ) ( ) 1;}2{
ующийСоответств
2lnln2
21
1 212
21
2
2
211
21
2
12
2
1 212
2
211
1
−=+−
+
++
+
+=×
×=
+
++
=
∑
∑
=
=
JdfRRnnR
RRn
nnR
RRnJX
X
JGnnR
nnnR
n
J
j jj
j
jj
j
j ji
j
ji
j
Множественные сравнения
• Сирого говоря, множественные попарные сравнения требуют определенного рода поправок на множественность.
• Обычно используемые поправки Bonferroni или Sidak (равно как и многочисленные их или Sidak (равно как и многочисленные их модификации), или так называемые «одновременные» процедуры (simultaneous test procedures) оказываются неадекватными для больших таблиц.
• Они приводят к противоречивым и ложным выводам.
Принцип редукции хи-квадрата
• Основная процедура, реализованная в SANCT,
состоит в последовательном коллапсировании
наиболее схожих (гомогенных) пар категорий.
• Для интегральной проверки внутренней
гомогенности внутри выявленных блоков
наиболее адекватным представляется принцип
редукции статистики хи-квадрат:
X2[original] - X2[collapsed] = X2[reduction]
Правила остановки• Коллапсирование прерывается, когда одна из
следующих статистик становится значимой:
• Редукция хи-квадрата
• Расстояние
• P-значение для текущего коллапсируемого • P-значение для текущего коллапсируемого
блока
• P-значение value с поправкой по Sidak для
текущего коллапситруемого блока
• Комбинирование P-значений по Фишеру и
• Интегральная гетерогенность для всех
сколлапсированных блоков
Меры «расстояний»
• X2 – хи-квадрат Пирсона
• G2 – логарифм отношениф правдоподобий
(информация Kullback-Leibler)
• Преобразование по Freeman-Tukey • Преобразование по Freeman-Tukey
• Критерий Neyman
• Модификация по Nass
• Поправка Williams для G2
• Преобразования по Anscombe
• Критерий Zelterman’а
• Поправка на дискретность по Mudholkar-
HutsonHutson
• Семейство статистик Cressie-Read
• Расстояние Hellinger со смешанными весами
• X2 со смешанными весами, etc.
X2 с поправкой на дискретность
где X02 – обычная статистика хи-квадрат, в
которой наблюдаемые численности nij замещены
2
0
22XXX
c−=
которой наблюдаемые численности nij замещены
числом, ближайшим к оцененным ожидаемым
Muldholkar GS, Hutson AD. Continuity corrected
approximations for and ‘exact’ inference with Pearson’s
X2. J. Stat. Plan. Inf. 59 (1997) 61-78.
Статистики Cressie-Read
( )
ratiolikelihoodLog0
sPearson'1
1ˆ1
2
2
2
1 1
G
e
nnC
I
i
J
j ij
ij
ij
−−=
−=
−
+= ∑∑
= =
λ
χλ
λλ
λ
λ
(1989) 43-19 (1) 57 Rev.,Stat. Intern. Review.eComparativA
:StatisticsRatiooodLoglikelihtheand sPearson' T.R.C. ReadN., Cressie
тсярекомендуеReadCressie32
Modified2
modified sNeyman'1
statisticTukey Freeman21
22
2
2
GX
G
−−=
−−=
−−=
−−−=
λ
λ
χλ
λ
Смешанно-взвешенные статистики
( )
прекрасный кактсярекомендуе91
ˆ1
ˆ
family distancellinger weight HeBlended
1 1
2
=
−+
−=∑∑
= =
α
ααα
I
i
J
j ijij
ijij
en
enBWHS
( )( )тсярекомендуе31
ˆ1
ˆ
family square-chi weight Blended
и между компромисс
прекрасный кактсярекомендуе91
1 1
2
22
=
−+
−=
=
∑∑= =
α
αα
α
α
I
i
J
j ijij
ijij
en
enBWCS
GX
Программирование
• В программе SANCT все указанные выше
статистики реализованы как в
асимптотической, так и точной версиях.
• Программа написана на объектно-
ориентированном языке C++ и успешно
функционирует на компьютерах с различной
архитектурой и операционными системами
(Windows, Linux).
Вычислительные средства
• Для анализа больших массивов (банков) данных (например, 300 выборок и более) требуются мощные вычислительные средства.средства.
• Параллельные вычисления проведены с использованием кластеров из 40 процессоров Pentium III или с использованием суперкомпьютера.
Система: D1S80
27 аллелей: от 14 до 41 повторов 16 п.н.
Северо-Запад России: вид со спутника
Северо-Западный округ России
152 города14,56 млн. жителей
113 выборок коллапсируют в 29 гомокластеров
D1S80
129Независимых выборок
←←←←NorthwestRussians
↓
←
Drawn with Tree Explorer of Dr. K.Tamura http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip
→
←
16 samples6 samples
10 samples
2 samples
7 samples
4 samples
5 samples
2 samples
3 samples
2 samples
3 samples
2 samples
2 samples
3 samples
2 samples
С использованием χχχχ2 выявляются 45 значимо различимых блоков
D1S80
Drawn with Tree Explorer of Dr. K. Tamura <http://evolgen.biol.metro-u.ac.jp/pub/MolEvol/TE212.zip>
3 samples
3 samples
8 samples
6 samples
3 samples3 samples
2 samples
2 samples2 samples
2 samples
2 samples
3 samples
3 samples
3 samples
2 samples
Au
str
ia
Po
lSo
uth
Au
stV
ien
na
Cro
atN
ort
h
Po
lan
d/3
0
Ba
sqSp
ain
Cro
atSouth
Be loru
ss
Ita ly/23
Po rtug/36C hile Pe hue
C hinaN E
Japan/62
Ko rea
Jap
an/55s
Ch
ina
Sin
ga
Ch
ina
Ho
ng
KP
hilM
an
ila
С использованием статистики Cressie-Read C2/3 получаются39 различимых групп
Po rtug/36
ItaA nc Parm
Franc e /11G re e c ePapuaN G -H l
HungRoma
Finla
nd
USH
ispSW
Co
lom
Ca
uc
Slo
va
kia
US
Sio
ux
I nd
i aG
oa
US
Pu
eb
lo
Po
rtu
g/3
5
Ca
na
da
Do
gr
USN
ava
jo
USA
lask
Inu
USAfrA
m/55
Zimbabw eBrazA raraBrW ayanA pa
U SC ham G uam
C hile Pe hue
выводы• SANCT – как методология. так и программапредставляются адекватными и надежнымиинструментами для выявления паттерна(структуры) сходства в крупных базахпопуляционных данных.
• Используя подходящие статистики критериев и• Используя подходящие статистики критериев ирасстояний проблема множественных сравнений(множественных проверок гипотез), решаетсяадекватно.
• Выявленные сходства между разнымипопуляциями оказываются разумными иинтерпретируемыми.
Интуиция и сила воли против
иллюзии объективности
• Большое заблуждение верить, что статистика привносит объективность в наши решения и выводы, принимаемые на основе результатов анализа.
• Статистика есть всего лишь здравый смысл, сведенный к вычислениям, и ничего более.
• Статистика дисциплинирует наш ум. Она привносит в анализ данных универсализацию, формализацию, стандартизацию (но не субъективность).универсализацию, формализацию, стандартизацию (но не субъективность).
• Не следует забывать, что обычно используемые фиксированные значения уровней значимости αααα (0,05, 0,01 или 0,001) имеют вне-статистическую природу; они суть результат соглашения (среди прочих), принятого научным сообществом.
• Наука всегда субъективна и решение о достаточности эксперимента есть ее величайшая проблема.
• В конечном счете, любые наши заключения, выведенные из результатов наших экспериментов, основаны на интуиции и силе воли. Все они суть акты интеллектуальной смелости.
Заключение
• Статистическая теория и анализ данных, несомненно, являются одними из главнейших научных технологий, развитых в ХХ век, наравне с другими научными и технологическими достижениями, такими как электроника, компьютеры, электроника, компьютеры, биотехнология, интернет и проч.
• Изобретение Пирсоном критерия хи-квадрат входит в двадцатку величайших изобретений ХХ века, как первая мера согласия теории и практики.
Публикации и соавторы• Глотов Н. В., Животовский Л. А., Хованов Н. В., Хромов-
Борисов Н. Н. Биометрия. Л.: ЛГУ, 1982, 263 с.• Хромов-Борисов Н. Н. Биометрические аспекты
популяционной генетики. Новые генетическиемеханизмы и их роль в генетико-популяционныхпроцессах. В кн.: Кайданов Л. З. Генетика популяций. М.:Высш. шк., 1996, с. 251-308.
• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,• Иващенко Т. Э., Глазков П. Б., Хромов-Борисов Н. Н.,Баранов В. С. Популяционное исследование CTGтринуклеотидных повторов в гене миотонин-киназы I.Генетика 33 (1997) 1098-1101.
• Khromov-Borisov N.N., Henriques J.A.P. Good statisticspractice (GSP) in genetic toxicology. Mutat. Res. 405 (1) 97-108 (1998).
• Khromov-Borisov N.N., Rogozin I.B., Henriques J.A.P., deSerres F.J. Similarity pattern analysis in mutationaldistributions. Mutat. Res. 430 (1) 55-74 (1999).
• Khromov-Borisov N.N., Picada J,N, Henriques J.A.P. Dose finding in theAmes Salmonella assay. Mutat. Res. 435 (1) 36-47 (2000).
• Smolyanitsky A. G., Smolyanitskaya A. I., Popov V. L., Zaslavsky G. I., Khromov-Borisov N. N. Polymorphism of LDLR, GYPA, HBGG, D7S8, GC, HLA-DQA1, Ig-JH, D17S30, ApoB and D1S80 loci in northwestern Russians.Forensic Sci. Int. 137 (1) 100-103 (2003).
• В Smolyanitsky A.G., Khromov-Borisov N.N., Popov V.L., Zaslavsky G.I., Rogozin I.B., Henriques J.A.P., Kist T.B.L., Scheil H.-G. Statistical pattern analysis of D1S80 alleles in Northwestern Russians and worldwide database using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.using COLLAPSE software. Progr. Forensic Genet. 9 (2002) 665-671.
• Khromov-Borisov, N.N., Saffi, J. and Henriques, J.A.P. Perfect order plating: principle and applications. Technical Tips Online (TTO), 2002, Vol. 144, No. 1,T02638http://research.bmn.com/tto/browse/record?uid=TTO.elstto00_01689525_144_t02638&node=TOC@@TTO@001@144@001_144
• Smolyanitsky A. G., Ivanov P. L., Kornienko L. V., Zamaraev V. S., Perepechina I. O., Komarovsky Yu. A., Pushkarev V. P., Khromov-Borisov N. N. Towards Russian reference population data on STR loci. Progr. ForensicGenet. 10 (2004). Vol.10. (в печати).
Спонсоры и грантодатели
-• CNPq - Conselho Nacional de Desenvolvimento Cientifico
e Tecnologia, BRAZIL
• CAPES - Coordenadoria de Formacao de Pessoal de Nivel
Superios, BRAZIL
• DAAD - German Academic Exchange Service, Bonn, • DAAD - German Academic Exchange Service, Bonn,
GERMANY
• Computing Facility of Federal University of Rio Grande do
Sul, Porto Alegre, BRAZIL
• RFBR - Russian Foundation on Basic Research, RUSSIA
• Wallenberg Foundation, Sweden
ПризнательностиБлагодарю Drs., Karen L. Ayres and David J. Balding,
Laura C. Lazzeroni и Kenneth Lange, и John Brzustowski
за любезное предоставление их программ(HWMET, GEN и HWE, соответственно).
Премного благодарен им и авторам других программ и публикаций, использованных в этом программ и публикаций, использованных в этом сообщении: Drs. Angel Carracedo, Laurent Excoffier, Jerome Goudet, Kejun Liu, Tristan Marshall, Mark P. Miller, Eleanor Morgan, Michel Raymond, Francois Rousset, Hans-Georg Scheil, Bruce S. Weir, Николая Глотова, Льва Животовского, Дмитрия Зайкина, Светлану Лимборскую
за полезное и плодотворное обсуждение.
Контакты
• Никита Николаевич
Хромов-Борисов
• г. Санкт-Петербург
• Тел.: (812) 234-18-40 – дом.
• 8-952-204-89-49 – моб.