collocations in search

17
Учет синтаксических связей при поиске коллокаций. Недошивина Е.

description

Lecture on collocations

Transcript of collocations in search

Page 1: collocations in search

Учет синтаксических связей при поиске коллокаций.

Недошивина Е.

Page 2: collocations in search

1. Понятие коллокации

Существует несколько определений коллокации.

В корпусной лингвистике под коллокацией чаще всего понимают последовательность слов, которые встречаются вместе чаще, чем можно было бы ожидать исходя из случайности распределения

Page 3: collocations in search

Понятие коллокации

Более узкое определение (Фирт): коллокация данного слова – указание того, где оно обычно встречается.

Коллокации отражают ограничения совместного использования слов, например, указывают, какие предлоги употребляются с данным глаголом.

Page 4: collocations in search

Понятие коллокации

Коллокация – статистически устойчивое сочетание в тексте. По степени устойчивости можно выделить: свободные сочетания, связанные сочетания, идиомы.

Page 5: collocations in search

2. Статистические методы выделения коллокаций Самый простой способ выявления

коллокаций в тексте – составление частотных списков слов, оказавшихся слева и справа от ключевого. Часто используется список стоп-слов, состоящий из служебных и незначащих слов.

Page 6: collocations in search

Статистические методы выделения коллокаций Аппаратом установления связи между

случайной и обусловленной встречаемостью слов служат меры ассоциации (устойчивости).

Page 7: collocations in search

Статистические методы выделения коллокаций f(n) – частота встречаемости данного

существительного в тексте f(c) – частота встречаемости данного

прилагательного в тексте f(n,c) – частота совместной встречаемости

данного существительного и данного прилагательного

N – общее число слов в тексте

Page 8: collocations in search

Статистические методы выделения коллокаций МI-score MI = Варианты MI-score:MI =

S – рассматриваемый диапазон (размер окна)

Log-log =

)()(

*),(log 2 cfnf

Ncnf

Scfnf

Ncnf

*)(*)(

*),(log 2

)),((log2 cnfMI

Page 9: collocations in search

Статистические методы выделения коллокаций T-score

t-score = Log-Likelihood

log-likelihood = Z-score

z-score =

),(

)(*)(),(

cnfN

cfnfcnf

)()(

),(log),(

cfnf

Ncnfcnf

N

cfnfN

cfnfcnf

)(*)(

)(*)(),(

Page 10: collocations in search

3. Учет грамматических связей

Следует учитывать, что существуют правила грамматики и следует принимать во внимание структурные формулы, которые лежат в основе коллокаций. Комбинация статистических подходов и учета грамматических связей, предположительно, может дать неплохие результаты, хотя на практике пока не используется.

Page 11: collocations in search

Учет грамматических связей

Мы разрабатываем свою программу, которая будет осуществлять подсчет статистических мер синтагматической устойчивости и накладывать полученные результаты на структурно-синтаксические формулы, представленные в корпусе, выдавая, таким образом, наиболее значимые результаты по каждой модели.

Page 12: collocations in search

Учет грамматических связей

Поскольку в языке ограниченное количество синтаксических формул, они все могут быть заданы формально.

Типы связи в языке: согласование, управление, примыкание.

Page 13: collocations in search

Учет грамматических связей

Согласование: прилагательное-существительное.

При поиске коллокаций мы учитываем, что прилагательное может отстоять от существительного на некотором расстоянии (большой красивый дом), но всегда находится в том же роде, числе и падеже

Page 14: collocations in search

Учет грамматических связей

Управление: существительное-существительное

В данном случае мы выделим разные случаи в зависимости от формы зависимого слова.

Таким образом, мы получи модели типа существительное – существительное в определенном падеже, при этом между ними может быть прилагательное (согласованное с зависимым словом)

Page 15: collocations in search

Учет грамматических связей

Воробьевы горы: словоформа Воробьевы почти со стопроцентной вероятностью указывает на горы, однако обратное не верно.

Page 16: collocations in search

Учет грамматических связей

Системы управления – Управление системами

Поскольку оба эти словосочетания состоят из существительных «управление» и «системы», то статистические меры будут получены одинаковые. Однако очевидно, что первое сочетание относится к области физики, а второе – к области менеджмента. Различаются они только грамматически:

Page 17: collocations in search

Учет грамматических связей

Системы управления – система (любая форма) управления (ед.ч., Род.п)

Управление системами – управление (любая форма) системами (мн.ч., Т.п.)