Учет синтаксических связей при поиске коллокаций.
Недошивина Е.
1. Понятие коллокации
Существует несколько определений коллокации.
В корпусной лингвистике под коллокацией чаще всего понимают последовательность слов, которые встречаются вместе чаще, чем можно было бы ожидать исходя из случайности распределения
Понятие коллокации
Более узкое определение (Фирт): коллокация данного слова – указание того, где оно обычно встречается.
Коллокации отражают ограничения совместного использования слов, например, указывают, какие предлоги употребляются с данным глаголом.
Понятие коллокации
Коллокация – статистически устойчивое сочетание в тексте. По степени устойчивости можно выделить: свободные сочетания, связанные сочетания, идиомы.
2. Статистические методы выделения коллокаций Самый простой способ выявления
коллокаций в тексте – составление частотных списков слов, оказавшихся слева и справа от ключевого. Часто используется список стоп-слов, состоящий из служебных и незначащих слов.
Статистические методы выделения коллокаций Аппаратом установления связи между
случайной и обусловленной встречаемостью слов служат меры ассоциации (устойчивости).
Статистические методы выделения коллокаций f(n) – частота встречаемости данного
существительного в тексте f(c) – частота встречаемости данного
прилагательного в тексте f(n,c) – частота совместной встречаемости
данного существительного и данного прилагательного
N – общее число слов в тексте
Статистические методы выделения коллокаций МI-score MI = Варианты MI-score:MI =
S – рассматриваемый диапазон (размер окна)
Log-log =
)()(
*),(log 2 cfnf
Ncnf
Scfnf
Ncnf
*)(*)(
*),(log 2
)),((log2 cnfMI
Статистические методы выделения коллокаций T-score
t-score = Log-Likelihood
log-likelihood = Z-score
z-score =
),(
)(*)(),(
cnfN
cfnfcnf
)()(
),(log),(
cfnf
Ncnfcnf
N
cfnfN
cfnfcnf
)(*)(
)(*)(),(
3. Учет грамматических связей
Следует учитывать, что существуют правила грамматики и следует принимать во внимание структурные формулы, которые лежат в основе коллокаций. Комбинация статистических подходов и учета грамматических связей, предположительно, может дать неплохие результаты, хотя на практике пока не используется.
Учет грамматических связей
Мы разрабатываем свою программу, которая будет осуществлять подсчет статистических мер синтагматической устойчивости и накладывать полученные результаты на структурно-синтаксические формулы, представленные в корпусе, выдавая, таким образом, наиболее значимые результаты по каждой модели.
Учет грамматических связей
Поскольку в языке ограниченное количество синтаксических формул, они все могут быть заданы формально.
Типы связи в языке: согласование, управление, примыкание.
Учет грамматических связей
Согласование: прилагательное-существительное.
При поиске коллокаций мы учитываем, что прилагательное может отстоять от существительного на некотором расстоянии (большой красивый дом), но всегда находится в том же роде, числе и падеже
Учет грамматических связей
Управление: существительное-существительное
В данном случае мы выделим разные случаи в зависимости от формы зависимого слова.
Таким образом, мы получи модели типа существительное – существительное в определенном падеже, при этом между ними может быть прилагательное (согласованное с зависимым словом)
Учет грамматических связей
Воробьевы горы: словоформа Воробьевы почти со стопроцентной вероятностью указывает на горы, однако обратное не верно.
Учет грамматических связей
Системы управления – Управление системами
Поскольку оба эти словосочетания состоят из существительных «управление» и «системы», то статистические меры будут получены одинаковые. Однако очевидно, что первое сочетание относится к области физики, а второе – к области менеджмента. Различаются они только грамматически:
Учет грамматических связей
Системы управления – система (любая форма) управления (ед.ч., Род.п)
Управление системами – управление (любая форма) системами (мн.ч., Т.п.)
Top Related