интелектуальный анализ экономических данных в...

33
Интеллектуальный анализ экономических данных в системе “КАРКАС”

Transcript of интелектуальный анализ экономических данных в...

Интеллектуальный анализ экономических данных в системе “КАРКАС”

Data Mining или Knowledge in Databases (добыча данных, интеллектуальный анализ данных , обнаружение знаний в базах знаний)

Большинство статистических методов для выявления закономерностей в данных используют идею усреднения по выборке, то есть используют данные не присутствующие в выборке. А методы Data

Mining для поиска закономерностей используют только исходные данные.

К методам Data Mining относятся:

Задачи Data Mining :Задача классификации сводится к

определению класса объекта по его xaрактеристикам. Множество классов известно заранее.

Задача регрессии подобно задаче классификации позволяет определить по известным характеристикам объекта значение некоторого параметра из множества действительных чисел.

При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций)

Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных.

Практическое применение Data MiningИнтернет-технологииперсонализация посетителей Web-сайтовпоиск случаев мошенничества с кредитными

картамиWeb Mining: Web content mining и Web usage mining Торговля анализ рыночных корзин и сиквенциональный

анализТелекоммуникациианализ доходности и риска потери клиентов защита от мошенничества,выявление категорий клиентов с похожими

стepeoтипами пользования услугами и разработка привлекательных наборов цен и услуг

Промышленное производствопрогнозирование качества изделия

в зависимости от замеряемых параметров технологического процесса.

Медицина и биологияпостроение диагностической

системы исследование эффективности

хирургическoгo вмешательстваБиоинформатика – изучение генов,

разработка новых лекарствБанковское делооценка кредитоспособности

заемщика

Модели Data Mining

Предсказательные моделимодели классификациимодели последовательностей

Описательные моделирегрессионные моделимодели кластеровмодели исключенийитоговые моделиассоциативные модели

Предсказательные модели

модели классификации описывают правила или набор правил, в соответствии с которыми можно отнести описание любого новогo объекта к одному из классов. Такие правила строятся на основании информации о существующих объектах путем разбиения их на классы;

модели последовательностей описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров. Они строятся на основании данных об изменении некоторого параметра за прошедший период времени.

Описательные модели реrрессионные модели описывают

функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме. Они описывают функциональную зависимость не только между непрерывными числовыми параметрами, но и между категориальными параметрами;

модели кластеров описывают группы (кластеры), на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть "похожими" друr на друrа и отличаться от объектов, вошедших в другие кластеры. Чем сильнее "похожи" объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация;

Описательные моделиoмодели исключений описывают

исключительные ситуации в записях (например, отдельных пациентов), которые резко отличаются чем либо от основного множества записей (группы больных). Знание исключений может быть использовано двояким образом. Возможно, эти записи представляют собой случайный сбой, например ошибки операторов, вводивших данные в компьютер. С другой стороны, отдельные исключительные записи могут представлять самостоятельный интерес для исследования, т. к. они могут указывать на некоторые редкие, но важные аномальные заболевания.

Описательные моделиитоговые модели - выявление

оrраничений на данные анализируемоrо массива. Например, при изучении выборки данных по пациентам не старше 30 лет, перенесшим инфаркт миокарда, обнаруживается, что все пациенты, описанные в этой выборке, либо курят более 5 пачек сигарет в день, либо имеют вес не ниже 95 Kr. Построение итоrовых моделей заключается в нахождении каких либо фактов, которые верны для всех или почти всех записей в изучаемой выборке данных, но которые достаточно редко встречались бы во всем мыслимом мноrообразии записей;

ассоциативные модели - выявление закономерностей между связанными событиями.

Кластерный анализ

Кластерный анализ (кластеризация, таксономия, самообучение, обучение без учителя) предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации (cluster — гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством).

Стратегия проведения кластеризации

Для решения задачи кластерного анализа с помощью системы

"КАРКАС" рекомендуется выполнить ряд операций:

1. Матрицу "объект-признак" записать в базу данных;

2. Произвести предварительную обработку данных (заполнение

пропусков в данных, взвешивание, редактирование и отбор признаков);

3. Отобрать наиболее информативные, репрезентативные признаки по методу главных компонент, а также с помощью кластер-процедур, где в качестве меры близости групп признаков Al и Aq положено:

где и – число признаков, составляющих группы Al и Aq соответственно, а положительное число r выбирается исследователем; rij – коэффициент корреляции между признаками pi и pj.

5. Выбрать различные меры близости между кластерами (К-обобщенное расстояние по Колмогорову) по формуле:

4. Выбрать различные меры близости между объектами:

взвешенное евклидовое расстояние 2/1

1

2)(),(

p

kkjkikji xxwxxd ;

обобщенное расстояние Махалонобиса

)()(),( 12ji

TTjiji xxWxxxxD

.

r

Sx Sxji

rmlml

Kr

li mi

xxdnnSSd

/1

1)( ),()(),(

где nl, и nm – количество объектов xi (соответственно xj ) в кластерах Sl (соответственно Sm). В частности,при r имеем расстояние, измеряемое по принципу "ближайшего соседа", при r имеем расстояние, измеряемое по принципу "дальнего соседа", при г = 1 имеем расстояние, измеряемое по принципу "средней связи"

6. Использовать различные алгоритмы классификации многомерных объектов на классы:

7. Оценить и сравнить качество разбиения на кластеры, используя различные функционалы качества:

"среднее внутрикластерное рассеяние" r

Sk

i xSxli

ri

il

xxdxnSI

/1)(

1 )(

111 ),())(()(

;

"меру концентрации объектов, соответствующую разбиению"

rn

i

rir nxnSZSI

/1

1

112 )/)(()()(

,

где d – метрика факторного пространства; n – число объектов; S(xi) –

кластер, содержащий объект xi; )( ix – число элементов в кластере S(xi);

k(S) – число классов, получающихся при разбиении S; г - числовой

параметр, выбираемый экспертом;

различные комбинации функцианалов

)()( 21 SISI ;

)()( 21 SISI ;

где и – некоторые положительные числа, выбираемые экспертом.

Такая стратегия кластеризации позволяет эксперту получить дополнительную информацию о числе, форме и компактности кластеров, о количестве центров кластеров и их координатах, о расстоянии между кластерами и о размерности "аномальных" кластеров.

8. Интерпретировать и документировать результаты кластеризации: на экран дисплея выводится таблица расстояний между центрами кластеров, таблица дисперсий для получения

представления об относительном расположении образов внутри кластера и другое.

Правила БЗ для выбора процедуры кластеризации.

Правило_1. A#.

ЕСЛИ

A Признаки = Количественные

ТО

Метрика = Евклидова, к. д. п. = 1.000.

Правило_2. A#.

ЕСЛИ

A Признаки = Порядковые

ТО

Метрика = Инфимум, к. д. п. = 1.000.

Правило_3. A#.

ЕСЛИ

A Признаки = Бинарные

ТО

Метрика = Хеммингова, к. д. п. = 1.000.

Правило_4. A#.

ЕСЛИ

A Признаки = Качественные

ТО

Метрика = Стандартизованная, к. д. п. = 1.000.

Правило_5. A#.

ЕСЛИ

A Признаки = Смешанные

ТО

Метрика = Не используется, к. д. п. = 1.000.

Фрейм_6.

Имя слота | Тип слота | Наследование

Выбор | Замещение |

Метрика | Евклидова |

Число | Ввод |

Стратегия | Замещение |

Целевой слот.

Кластеризация | "Иерархическая".

Фрейм_7.

Имя слота | Тип слота | Наследование

Выбор | Замещение |

Метрика | Инфимум |

Число | Ввод |

Стратегия | Замещение |

Целевой слот.

Кластеризация | "Иерархическая".

Фрейм_8.

Имя слота | Тип слота | Наследование

Выбор | Замещение |

Метрика | Хеммингова |

Число | Ввод |

Стратегия | Замещение |

Целевой слот.

Кластеризация | "Иерархическая".

Фрейм_15.

Имя слота | Тип слота | Наследование

Выбор | Замещение |

Метрика | Супремум |

Число | Нет |

Стратегия | Замещение |

Целевой слот.

Кластеризация | "Иерархическая".

Фрейм_16.

Имя слота | Тип слота | Наследование

Выбор | Замещение |

Метрика | Не используется |

Число | Нет |

Мощность | Замещение |

Степень принадлежности | Замещение |

Целевой слот.

Кластеризация | "Нечеткое динамическое сгущение".

Фрейм для выбора процедуры нечеткого динамического сгущения

Описание процесса кластеризации в системе

“КАРКАС”

4. Загрузить Ваш файл с расширением *.xls

7. Далее, нажмите на кнопку "Выполнить расчет KGS" и

наблюдайте за сообщениями на экране

8. После стабилизации работы алгоритма "К-внутригрупповых средних" можно

просмотреть результаты кластеризации

9. Для визуализации результатов выберите вкладку "Визуализация" и

нажмите на кнопку "Результат"

На предыдущем слайде представлены результаты кластеризации 8 объектов по 2 признакам. Из самого расположения объектов в признаковом пространстве следует, что при вычислительном эксперименте следовало бы выбрать число кластеров не 1 , а 2. Поскольку на слайде четко выражены 2 кластера: первый кластер содержит объекты (1 – 7), а второй кластер содержит один объект 8. Но если эксперт считает, что число объектов в кластерах должно быть больше 1, то результат кластеризации в этом случае подсказывает, что имеется 1 кластер форма, которого имеет вид вытянутого облака.

Аналогично следует выполнить вычислительный эксперимент с теми же данными, но используя алгоритм ISODATA (на шаге 7 следует нажать на кнопку "Выполнить ИСОМАД"). В этом случае можно в диалоговом режиме выбрать ряд дополнительных параметров: межкластерное расстояние, число объектов в кластере, наличие аномальных кластеров и так далее.