F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз....

155
МЕЖВУЗОВСКАЯ НАУЧНО-ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ «БИЗНЕС-АНАЛИТИКА. ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ. ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ DEDUCTOR В ДЕЯТЕЛЬНОСТИ УЧЕБНЫХ ЗАВЕДЕНИЙ» 24 июня 2010 года г. Москва СБОРНИК МАТЕРИАЛОВ КОНФЕРЕНЦИИ Рязань 2010

Transcript of F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз....

Page 1: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

МЕЖВУЗОВСКАЯ НАУЧНО-ПРАКТИЧЕСКАЯКОНФЕРЕНЦИЯ

«БИЗНЕС-АНАЛИТИКА. ВОПРОСЫ ТЕОРИИ ИПРАКТИКИ. ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ

ПЛАТФОРМЫ DEDUCTOR В ДЕЯТЕЛЬНОСТИУЧЕБНЫХ ЗАВЕДЕНИЙ»

24 июня 2010 годаг. Москва

СБОРНИК МАТЕРИАЛОВ КОНФЕРЕНЦИИ

Рязань 2010

Page 2: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

Бизнес-аналитика. Вопросы теории и практики. Использование ана-литической платформы Deductor в деятельности учебных заведений:сборник материалов межвуз. науч.-практ. конф. – Рязань: Лабораториябаз данных, 2010. – 155 с.

В сборник материалов научно-практической конференции «Бизнес-аналитика.Вопросы теории и практики. Использование аналитической платформы Deductor вдеятельности учебных заведений», проводимой BaseGroup Labs, включены работыпреподавателей вузов, активно использующих аналитическую платформу Deductor,из ряда вузов и организаций Москвы, Волгограда, Иваново, Луганска, Нижнего Нов-города, Рязани, Твери, Уфы, Харькова.

Включенные в сборник статьи разделены на две секции: 1) опыт преподаваниядисциплин с использованием аналитической платформы Deductor; 2) актуальные за-дачи бизнес-аналитики и их решение методами Data Mining.

Ответственный редактор сборника материалов конференции: кан-дидат технических наук Н.Б. Паклин (e-mail: [email protected])

© ООО «Лаборатория баз данных», 2010

Page 3: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

СОДЕРЖАНИЕ

Приветственное слово 5Паклин Н.Б. Образовательные инициативы BaseGroup Labs 2005-2010 гг. 9

СЕКЦИЯ «ОПЫТ ПРЕПОДАВАНИЯ ДИСЦИПЛИН С ИСПОЛЬ-ЗОВАНИЕМ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ DEDUCTOR»Завьялова Н.Б., Дьяконова Л.П. О подходе к преподаванию систембизнес-анализа в экономическом вузе 15

Кудряшова Э.Е. Подготовка студентов-бакалавров к решению задачмалого бизнеса методами инновационных технологий 22

Настащук Н.А. Опыт использования аналитической платформыDeductor при подготовке специалистов для экономики, основаннойна знаниях

24

Капузова В.И., Скрипченко Э.Н., Чернышева К.В. Использованиеаналитической платформы Deductor при подготовке специалистовэкономического профиля

29

Прокопенко Н.Ю. Обучение студентов направления «Прикладнаяинформатика» современным инструментам и технологиям анализаданных

32

Шамсутдинова Т.М. Проблемы обучения студентов концептуаль-ному анализу данных 40

Павленко Л.А., Тарасов А.В. Аналитическая платформа Deductor вмоделировании принятия оперативных управленческих решений 44

Александрова В.А. Использование аналитической платформы De-ductor при изучении учебной дисциплины «Информационные ана-литические системы»

52

Баллод Б.А., Муромкина А.В., Ковалев Д.Е. Пример использованияDeductor в подготовке специалистов по прикладной информатике вИГЭУ

55

Болотова Л.С., Кузнецов С.Н., Дёмина Н.Н. Проблемы примененияметодов интеллектуального анализа данных в системах поддержкипринятия решений

62

Носков В.В., Прокопенко Н.Ю., Рабынина В.В. Об интеграцииDeductor с другими информационными системами 66

Page 4: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

СЕКЦИЯ «АКТУАЛЬНЫЕ ЗАДАЧИ БИЗНЕС-АНАЛИТИКИ И ИХРЕШЕНИЕ АЛГОРИТМАМИ DATA MINING»Потюпкин А.Ю. Методы Data Mining в системах контроля состоя-ния сложных технических систем 75

Евтеева А., Карпузова В.И., Тарасова О.Б. Исследование социаль-но-экономического развития сельских территорий методом кла-стерного анализа

81

Мешков М., Карпузова В.И., Тарасова О.Б. Использование аналити-ческой платформы Deductor для исследования мировой конъюнкту-ры рынка подсолнечника

87

Золотарева И.А., Павленко И.А. Аналитическая платформа Deductorв оценке степени экологической безопасности регионов 89

Шамсутдинова Т.М., Мухаметшин Т.Р. Использование нейронныхсетей для анализа экономических показателей регионов Приволж-ского федерального округа

97

Нейский И.М., Филлипович А.Ю. Сегментация клиентов брокерско-го обслуживания 102

Климчук С.А. Применение аналитической платформы Deductor дляанализа прецедентов диагностики кранов мостового типа 111

Стулов В.В., Филиппович А.Ю. Метод кластеризации текстовHTECL 117

Паклин Н.Б., Крепышев Д.А. Популяционно-генетические методырешения задач дискретной оптимизации повышенной размерности 126

Боев Б.В., Болотова Л.С., Демина Н.Н. Интеллектуальный анализданных в системе противодействия распространению эпидемийгриппа

134

Медведева Т.В., Прокопенко Н.Ю. Применение современных ин-формационных технологий и интеллектуальных методов анализа взадаче оценки недвижимости

145

Page 5: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

5

ПРИВЕТСТВЕННОЕ СЛОВО

24 июня 2010 года на базе института информационных и иннова-ционных технологий НОУ «Международная Академия Бизнеса и Управ-ления» (г. Москва) состоялся уже традиционный съезд вузов-партнеровBaseGroup Labs. В этом году он проходил в формате межвузовской науч-но-практической конференции «Бизнес-аналитика. Вопросы теории ипрактики. Использование аналитической платформы Deductor в дея-тельности учебных заведений».

Это ежегодное мероприятие делается как для существующих пре-подавателей вузов-партнеров BaseGroup Labs, использующих аналитиче-скую платформу Deductor в учебном процессе, так и для новых предста-вителей высших учебных заведений, желающих ознакомиться с образо-вательной инициативой BaseGroup Labs. К конференции проявляют ин-терес руководители структурных подразделений вузов, заведующие ка-федрами, деканы, преподаватели, желающие применять современныеинформационно-аналитические системы при обучении студентов – бу-дущих прикладных информатиков, специалистов по информационнымсистемам, экономистов, финансистов, математиков. Впервые очныйсъезд был успешно проведен в июне 2009 года.

В 2010 году в работе конференции приняли участие 35 участниковиз 24 вузов России и Украины, в том числе 16 вузов-партнеровBaseGroup Labs. Как обычно, наибольшее число очных участников былоиз Москвы, но также приехали преподаватели из Твери, Нижнего Новго-рода, Иваново и Магнитогорска.

Работа конференции

По тематике присланных докладов и обсуждаемым вопросам мож-но выделить следующие направления работы конференции.

1. Опыт преподавания дисциплин с использованием аналитиче-ской платформы Deductor.

Page 6: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

6

2. Прикладные и исследовательские работы студентов, выполнен-ные на аналитической платформе Deductor.

3. Актуальные задачи бизнес-аналитики и их решение алгоритма-ми Data Mining.

4. Проблемы формирования программ учебных дисциплин, свя-занных с анализом данных.

Работа конференции началась с приветственного слова руководстваМеждународной Академии Бизнеса и Управления – проректора по учеб-ной работе к.и.н., доцента Тарасенко Ильи Вадимовича и директора Ин-ститута информационных и инновационных технологий МАБИУ к.т.н.,доцента Сергеева Сергея Александровича.

Тарасенко И.В. Сергеев С.А.

Конференцию открыл доклад руководителя группы корпоративногообучения BaseGroup Labs к.т.н. Николая Паклина. Он рассказал о резуль-татах образовательных инициатив компании за пятилетний период, са-мые главные из которых – 70 офици-альных вузов-партнеров, образова-тельный портал с дистанционнымикурсами, учебники и книги, выпущен-ные в центральных издательствах, атакже новые формы образовательноговзаимодействия – вебинары, онлайн-консультации, конкурс лучших ди-пломных проектов, выполненных сиспользованием аналитической плат-формы Deductor и многие другие.

Следующий доклад делал директор BaseGroup Labs Алексей Ару-стамов. Он рассказал о стратегии развития компании на ближайшие годыи роли в ней вузов-партнеров. Большая часть доклада была посвященаэволюции аналитической платформы и ее дальнейшему развитию, а так-же новой концепции сайта BaseGroup Labs.

Н.Б. Паклин

Page 7: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

7

Во второй части конференции выступали участники из вузов. Издоклада доцента Карпузовой Веры Ивановны (кафедра экономическойкибернетики РГАУ-МСХА) можно было узнать об успехах примененияаналитической платформы Deductor в учебном процессе университета,которая применяется там с 2006 года. За эти годы более 1000 студентовэкономических специальностей прошли обучение современным техноло-гиям анализа данных, а также аспиранты, магистранты и слушатели кур-сов повышения квалификации. Особую роль играет Deductor в научнойработе студентов; доклады, подготовленные студентами неоднократноотмечались призовыми местами на московских внутривузовских конфе-ренциях.

Следующий доклад был сделан профессором МИРЭА, д.т.н. Бо-лотовой Людмилой Сергеевной. В ее выступлении затрагивалось многотем: от проблемы отсутствия методологии проектирования хранилищданных до реальных применений Deductor в дипломном проектированиистудентов для разработки систем принятия решений по противодействиюэпидемиям гриппа (совместно с ГУ НИИ эпидемиологии и микробиоло-гии имени Н.Ф. Гамалеи). Профессор Болотова Л.С. выступила с ини-циативой создания ассоциации вузов-партнеров с целью их более актив-ного взаимодействия, озвучила пожелания разработчикам аналитическойплатформы.

В докладе Потюпкина А.Ю., начальника кафедры Военной акаде-мии РВСН имени Петра Великого, рассказывалось об особенностях при-менения методов Data Mining в задачах контроля состояния сложныхтехнических систем, концепции ХД в задачах контроля состояния и пер-спективах в этой области.

Аспирант МГТУ им. Баумана Иван Нейский выступил с докладом оразработанном алгоритме адаптивной кластеризации, который был апро-бирован для сегментации клиентов брокерского обслуживания и сравнилего эффективность с базовыми алгоритмами k-means и карты Кохонена,для чего использовал аналитическую платформу Deductor.

В докладе Прокопенко Натальи Юрьевны из ННГАСУ (г. НижнийНовгород) был представлен своеобразный годовой отчет о примененииDeductor в учебном процессе специальности «Прикладная информати-ка», продемонстрированы несколько выпускных квалификационных ра-бот, выполненных студентами по тематике информационно-аналитических систем.

В последнем сообщении Николая Паклина было анонсировано но-вое издание книги «Бизнес-аналитика: от данных к знаниям», котороевыходит в печать в июле 2010 года.

В завершении участники конференции пришли к мнению, что по-

Page 8: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

8

добные мероприятия важны и необходимы для вузов, обеспечивают об-мен мнениями и опытом в преподавании бизнес-аналитики. Предложенопродолжить ежегодные встречи в формате конференции и в следующем,2011 году снова на базе одного из московских вузов-партнеров.

В ваших руках находится сборник трудов этой конференции. В немвы найдете печатные версии сделанных очных докладов, а также при-сланные заочные работы. Мы надеемся, что с каждым годом интерес кнашему мероприятию будет расти и привлекать все больше вузов. До но-вых встреч!

Компания BaseGroup Labs выражает благодарность руководствуМеждународной Академии Бизнеса и Управления и лично доценту, к. ф.-м. н. Виктору Викторовичу Татаринову за помощь в организации и про-ведении конференции.

Page 9: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

9

ОБРАЗОВАТЕЛЬНЫЕ ИНИЦИАТИВЫBASEGROUP LABS 2005-2010 гг.

Паклин Н.Б., к.т.н., BaseGroup Labs

Нынешний год, 2010, в каком-то смысле знаковый для BaseGroupLabs: прошло пять лет с момента старта образовательных инициатив на-шей компании. Поэтому нам открылась хорошая возможность оглянуть-ся назад и проанализировать проделанную работу.

Все начиналось в середине 2005 года, когда стало очевидно – со-временная обстановка требует начинать изучение информационно-аналитических систем уже на студенческой скамье. Еще в конце 90-х гг.слова и аббревиатуры OLAP, хранилища данных, нейронные сети, кла-стеризация практически не встречались в учебных программах. Все из-менилось за каких-то 5-7 лет. Сегодня информационно-аналитическиетехнологии изучают будущие прикладные информатики, программисты,экономисты. В высшей школе быстро сформировалась потребность насоответствующее программное обеспечение для проведения лаборатор-ных работ. Почувствовав эту тенденцию, наша компания запустила пер-вую инициативу – бесплатно предоставлять комплект лицензий на обо-рудование компьютерного класса профессиональной версией Deductorвузам, заключившим соответствующее соглашение.

За два следующих года – 2005 и 2006 – нашими вузами-партнерамистали 25 вузов из России, Беларуси и Украины (рис. 1, 2). Deductor Studioпобеждал тем, что был легким приложением, но вместе с тем имел раз-витые ETL-средства и основные алгоритмы Data Mining.

Динамика роста вузов

13 12

9

17

10

16

2005 2006 2007 2008 2009 2010(Прогноз)

Рис. 1. Динамика подключения вузов-партнеров по годам

Page 10: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

10

Рис. 2. Динамика подключения вузов-партнеров по годам

Собственный веб-ресурс BaseGroup Labs к тому моменту насчиты-вал десятки научно-популярных статей по алгоритмам и технологиямData Mining, поэтому преподаватель вуза-партнера, потратив определен-ное время, мог сформировать на их основе конспекты лекций. Для лабо-раторных работ еще в 2005 году нами был разработан небольшой наборметодических материалов по хранилищам данных, OLAP-отчетности ипрогнозированию спроса, который поставлялся вместе с данными. Крометого, каждый преподаватель вуза-партнера приезжал на двухдневныйкурс обучения в офис BaseGroup Labs. Но к началу 2007 г. становитсяпонятным, что это не решение всех проблем в части методическогообеспечения преподавателей вузов-партнеров. Необходим системныйкурс, объем которого выходил бы за рамки двухдневного тренинга. Кро-ме того, бесплатная версия Deductor Lite, которую использовали вузы, невходящие в партнерскую программу, имела существенное ограничениена объем обрабатываемых записей. Поэтому наша компания принимаетнесколько решений, существенно повлиявших на дальнейшее развитиеобразовательной программы.

Во-первых, мы отказались от демо-версии Deductor Lite, выпустиввместо нее Deductor Academic. В нем отсутствует ограничение на объемобрабатываемых записей, значит, все аналитические алгоритмы стано-вятся доступными при любом числе экспериментальных примеров.

Во-вторых, закупается полноценная система дистанционного обу-чения (СДО) и начинается разработка системного курса «Корпоративныеаналитические системы», который уже в сентябре 2007 года придет насмену очным двухдневным тренингам преподавателей вузов-партнеров.

Этот дистанционный курс, разбитый на 12 разделов, содержит бо-лее 90 конспектов, 15 практикумов, 18 индивидуальных бизнес-задач исвыше 600 аттестационных вопросов по всем разделам. Его объем со-

Page 11: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

11

ставляет более 200 академических часов. При его разработке использо-вался весь накопленный практический опыт аналитиков BaseGroup Labsпри внедрении реальных проектов, а при написании теоретических кон-спектов мы ориентировались на лучшие западные книги и учебники (ксожалению, в учебниках по бизнес-аналитике и Data Mining Россия от-стала от Запада на несколько лет).

Появление дистанционного курса и его реализация на современ-ных e-learning технологиях позволило нам ввести систему сертификациианалитиков Deductor (рис. 3). К середине 2010 г. свыше 40 преподавате-лей вузов-партнеров прошло обучение либо продолжают учиться на об-разовательном портале BaseGroup Labs, 18 из них получили статус сер-тифицированного аналитика. К сожалению, среди преподавателей вузовне удается достичь 100% сертификации, но эта проблема заслуживаетотдельного разговора.

Рис. 3. Система дистанционного обучения BaseGroup Labs

В 2009 году образовательные инициативы продолжаются. Выходятв свет книги в центральных издательствах: «Практикум по анализу дан-ных на компьютере» (И. Кацко, Н. Паклин, учебное пособие с грифомУМО, издательство «КолосС»), «Бизнес-аналитика: от данных к знани-ям» (Н. Паклин, В. Орешков, издательство «Питер»). В основу последнейкниги лег дистанционный курс компании, и она имела большой успех нароссийском книжном рынке, оказалась востребованной преподавателямии студентами вузов, тираж в 1500 экземпляров был раскуплен в считан-

Page 12: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

12

ные месяцы. Через 1,5 года, в июле 2010 года, выйдет 2-е издание книги,переработанное и дополненное.

В этом же году совместно с НОУ «ИЭФ «Синергия» при РЭА им.Г.В. Плеханова открываются совместные программы повышения квали-фикации «Управление корпоративными аналитическими системами» свыдачей свидетельства государственного образца. Дистанционную со-ставляющую программ обеспечивает BaseGroup Labs. На образователь-ном портале возможность проходить обучение получают частные лица.В июне 2009 г. на базе «Синергии» проходит первый семинар для вузов-партнеров.

Развитие новых форм коммуникаций и рост пропускной способно-сти интернет-каналов позволило нам в 2010 году освоить новые формывзаимодействия – вебинары и онлайн-консультации тьюторов образова-тельного портала. Мы будем развивать эти формы и дальше.

Число официальных вузов-партнеров к середине 2010 года достиг-ло числа 70. По нашим приблизительным оценкам, еще около 100 вузовиспользуют аналитическую платформу Deductor в учебном процессе.Кроме того, нам удалось довольно точно подсчитать количество инстал-ляций Deductor Academic благодаря встроенной странице обновлений,открываемой при старте Deductor. Выяснилось, что насчитывается свы-ше 5 100 пользователей Deductor Academic 5.2. Можно смело предполо-жить, что на сегодня это самая популярная свободно распространяемаяаналитическая платформа в русскоязычном Интернете!

Желание нашей компании стимулировать вузы становиться наши-ми партнерами можно объяснить анонсирование двух ежегодных кон-курсов, которые будут проходить регулярно: «Лучший вуз-партнер» и«Конкурс студенческих дипломных работ, выполненных с использова-нием аналитической платформы Deductor». Итоги подводятся каждыйсентябрь независимым жюри, и все победители будут награждены цен-ными призами: оригинальные кубки, фирменные грамоты, лицензионныеключи Deductor Studio Professional, книги. А первая номинация предна-значена для поощрения учебно-методической и научно-исследовательской работы вузов-партнеров с применением Deductor.

На первый конкурс дипломных работ было прислано немного зая-вок, однако все работы интересные. Это и решение традиционных биз-нес-задач («Разработка автоматизированной информационной систе-мы принятия «инвестиционных решений на базе АП Deductor», «При-менение современных информационных технологий и интеллектуаль-ных методов анализа в задаче оценки недвижимости», ННГАСУ, Ниж-ний Новогород, науч. рук. доцент Прокопенко Н.Ю., «Модернизациясистемы информационного обеспечения кредитования физических

Page 13: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

13

лиц коммерческого банка», ИГЭТУ, Иваново, науч. рук. доцент БаллодБ.А.), так и технические приложения («Система биометрической аутен-тификации пользователей по распознаванию движений мыши», КГТУим. Туполева, Казань, науч. рук. доцент Катасев А.С.).

Конечно, не все 70 вузов-партнеров являются активными, таких небольше 15, хотя во многих случаях проблема в том, что наша компанияпредоставляет вузам мало способов для обратной связи. Тем не менее,нельзя не упомянуть инициативы вузов-партнеров, которые имеют за-конченный результат. Это совместная работа профессора И.А. Кацко идоцента Н.Б.Паклина по созданию учебно-методического пособия«Практикум по анализу данных на компьютере»; методическая разработ-ка по работе с Deductor для экономистов коллектива авторов из РГАУ-МСХА во главе с доцентом Карпузовой В.И. с оригинальными примера-ми из области сельского хозяйства; научная работа кафедры математиче-ских методов в социологии Алтайского государственного университета вобласти сегментации рынка труда, в ходе которой использовалась АПDeductor, а позже – опубликована монография (руководитель – доцентМальцева А.В.).

Проявляют активность вузы-партнеры Украины. Так, доцент Хо-мич С.В. (г. Ровно, РГГУ) на основе методических материалов BaseGroupLabs разработал сайт для студентов с презентациями, лекциями и прак-тикумами на украинском языке по аналитической платформе Deductor ибизнес-аналитике.

Более подробно ознакомиться с деятельностью вузов-партнеров, атакже узнать о том, как можно стать вузом-партнером, можно на сайтенашего образовательного портала по адресу: edu.basegroup.ru.

Компания BaseGroup Labs всегда уделяла большое внимание работес вузами. Интерес к нашим разработкам, аналитической платформе, кни-гам, конференциям, конкурсам убедительно говорит о том, что вместемы вносим большой вклад в подготовку грамотных и разбирающихся всовременной бизнес-аналитике специалистов.

Page 14: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

14

СЕКЦИЯ«ОПЫТ ПРЕПОДАВАНИЯ ДИСЦИПЛИН

С ИСПОЛЬЗОВАНИЕМ АНАЛИТИЧЕСКОЙПЛАТФОРМЫ DEDUCTOR»

Page 15: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

15

О ПОДХОДЕ К ПРЕПОДАВАНИЮ СИСТЕМ БИЗНЕС-АНАЛИЗАВ ЭКОНОМИЧЕСКОМ ВУЗЕ

Завьялова Н.Б., доцент Российской эко-номической академии им. Г.В. Плеханова,г. МоскваДьяконова Л.П., доцент Российской эко-номической академии им. Г.В. Плеханова,г. Москва

В настоящее время в комплексе современных инструментальныхсредств, обеспечивающих поддержку бизнеса, значительную роль игра-ют аналитические инструментальные средства. Развитие инфраструкту-ры компании и спектр решаемых аналитических задач зависит от уровнязрелости организации, ее стратегических и тактических целей, а такжестепени подготовки специалистов и их мотивации для использованияинновационных технологий.

В РЭА им. Г. В. Плеханова изучение систем бизнес-анализа (BI)включено в программы магистров и бакалавров по направлениям «Эко-номика» и «Менеджмент» в рамках таких дисциплин как «Информаци-онные технологии в управлении организацией», «Компьютерные техно-логии в бизнес-исследованиях» и др. Целью этих дисциплин (или от-дельных модулей) является формирование у студентов целостного пред-ставления о подходах к решению задач бизнес-анализа, принципах про-ектирования, внедрения и эксплуатации информационных аналитиче-ских систем на стратегическом, тактическом и оперативном уровняхуправления экономическими объектами.

С методической точки зрения процесс преподавания в большинст-ве случаев реализуется в соответствии с алгоритмом, представленным нарис. 1.

Этапы 1-3 позволяют направить исследовательскую работу студен-тов на детальное изучение предметной области и проблем, подлежащихавтоматизации средствами информационных технологий и систем.

Этап 4 «Выбор инструментальных средств» является чрезвычайноважным элементом исследовательского проекта, поскольку успех вне-дрения и модификации информационных систем во многом определяетсясоответствием ожиданий заказчиков реальным функциональным воз-можностям системы. На данном этапе осуществляется не только все-сторонний анализ функциональных возможностей аналитических системи приложений, но и оценка затрат на внедрение и эксплуатацию, адек-

Page 16: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

16

ватность лицензионной политики поставщика решения, доступность ипростота эксплуатации, наличие специалистов и развитых средств под-держки клиентов.

Концептуальное моделирование

Функциональное моделирование

Формулировка цели и задачисследования

Разработка и корректировка моделибизнес-исследования

Удовлетворительное

Анализ качества модели

Нет

Выбор инструментальных средств

Бизнес-анализ и интерпретациярезультатов

Удовлетворяетэкспертов

Да

Да

Конец исследования

Нет

1

2

3

4

5

6

7

8

Рис. 1. Пример алгоритма реализации исследовательской работы

Слушатели должны продемонстрировать свое знание основныхклассов аналитических систем, провести сравнительный анализ и осуще-ствить мотивированный выбор применяемых аналитических инструмен-тов.

Спектр инструментальных средств бизнес-анализа чрезвычайновелик, поэтому оценку и фиксацию результатов сравнительного анализаслушателям предлагается выполнить средствами функционального мо-делирования (программные продукты ARIS, BPwin/ AllFusion и др) в рам-ках модели, первый иерархический уровень которой представлен на рис.2. Такой подход позволяет не только структурировать процесс выбораинструментальных средств, но и также сформировать отчет в HTML-формате с последующей его публикацией на сайте. Примером являетсядекомпозиция работы А2 с последующим разбиением на подмодели ис-

Page 17: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

17

следований по каждому программному продукту.

Рис. 2 . Модель оценки процесса выбора BI-инструментария

Этапы 5-6 представляют собой основу проекта и содержат анали-тические исследования бизнес-ситуаций в компании.

Примером исследовательских работ может служить курсовой про-ект «Прогнозирование продаж продукции предприятия хлебопекарнойпромышленности», в котором перед слушателями ставится задача ана-лиза временного ряда продаж категории «Массовые сорта» на интервалеустойчивого заказа на производство продукции (60 дней), изучения воз-можностей инструментальных средств и анализ качества реализованныхмоделей.

Следует отметить, что прогнозирование ключевых показателеймаркетингового планирования является наиболее сложным видом иссле-дований, так как спрос и продажи зависят от сезонности, динамики раз-вития бизнеса, конкурентной среды, ценовой политики, специфическихособенностей продукции.

Экспресс-анализ данных с помощью хорошо изученных инстру-ментальных средств, например, MS Excel (рис. 3), позволяет исследова-телям сосредоточиться на изучении предметной области, получить пред-варительные результаты и сформулировать предварительные выводы. Вданном случае очевидно, что массовые сорта продукции играют домини-рующую роль в объемах продаж предприятия; снижение объемов продажвсех категорий продукции наблюдается в субботние и выходные дни;аномально низкие значения данных выявлены в первую неделю года, что

Page 18: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

18

обусловлено значительным снижением спроса в праздничные дни; нуле-вые данные или пропуски данных отсутствуют для массовых сортовпродукции, однако наблюдаются в других исследуемых рядах.

Рис. 3. Продажи продукции

На стадии углубленного анализа слушателям предстоит выполнитьрешение задачи прогнозирования, проведя исследования средствами раз-личных информационных аналитических систем. В рамках проекта«Прогнозирование продаж продукции предприятия хлебопекарной про-мышленности» изучались возможности построения прогнозных моделейпродаж средствами информационно-аналитической системы MarketingAnalytic (компания Курс), аналитической платформы Deductor (компанияBaseGroup Labs) и статистического пакета Statistica (компания StatSoft).

При выполнении этапа 5 «Разработка и корректировка модели биз-нес-исследования» слушатели демонстрируют владение инструменталь-ными средствами и методикой анализа.

Так, в рамках рассматриваемого проекта был выполнен прогнозпродаж методом авторегрессии без выделения сезонности путем на-стройки параметров ретропрогноза: порядка авторегрессии и собствен-ных значений. Исследования выполнялись средствами Marketing Analyticпутем настройки следующих параметров: порядок авторегрессии – 9,число собственных значений – 7, число точек – 10, выделен линейныйтренд. Результаты исследования (рис. 4) показали удовлетворительноекачество модели (ошибка прогноза не превышает 10%).

Page 19: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

19

Рис. 4. Результаты прогноза продаж массовых сортов продукции

Аналитическая платформа Deductor предоставляет более широкиевозможности для предварительной обработки и анализа данных. К рас-сматриваемому временному ряду были применены операции сглажива-ния и фильтрации, реализуемые в обработчике «Парциальная обработ-ка», что позволило снизить высокочастотные колебания внутри недель-ного цикла продаж.

Построение моделей прогноза продаж средствами аналитическойплатформы Deductor осуществлялось по алгоритму, реализованному ввиде сценария, представленного на рис. 5.

Рис. 5. Сценарий прогнозирования продаж

Алгоритм построения нелинейной модели на основе искусствен-ной нейросети сводился к определению архитектуры сети и запуска про-цесса обучения, позволяющего определить оптимальные значения весо-вых коэффициентов. При разбиении исходного набора данных на под-множества 95% выделялось для обучающего подмножества и 5% - длятестового. В качестве активационной функции была выбрана сигмоида, аусловием прекращения обучения является ошибка меньше 0,05 по дос-

Page 20: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

20

тижении эпохи 10000.Анализ диаграммы рассеяния показал, что разброс между эталон-

ными значениями выходного поля и значениями, рассчитанными моде-лью, достаточно невелик, а ошибка прогноза не превысила 8 % (рис. 6,рис. 7).

Рис 6. Диаграмма рассеяния Рис. 7. Исходный и аппроксими-рующий ряды

Реализованная по сценарию, представленному на рис. 5, линейнаямодель показала удовлетворительную качество модели на диаграммерассеяния (рис. 8, рис. 9) и низкую ошибку прогноза (2%).

Рис. 8. Диаграмма рассеяния Рис. 9. Исходный и аппроксими-рующий ряды

Пакет Statistica предоставляет широкие возможности по анализу ипрогнозированию временных рядов. Модуль Временные ряды и прогно-зирование пакета Statistica содержит большой набор процедур по обна-ружению систематических компонент ряда, построению автокорреляци-онных функций, визуализации данных.

Для достижения целей исследовательской работы и решения зада-чи прогнозирования рассматривались методы экспоненциального сгла-живания и АРПСС. Практика применения метода АРПСС подтвердилаего мощность и гибкость, однако потребовала от слушателей серьезныхзатрат времени на его освоение.

На начальной стадии исследования с применением метода АРПСС

Page 21: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

21

была проведена идентификация порядка модели – определение числа па-раметров авторегрессии (p) и скользящего среднего (q). Значения пара-метров моделей подбирались по первым 50 наблюдениям ряда, прогноз(ретропрогноз) проводился на следующие 10 дней. В результате анализаграфиков (корелограмм) АКФ и ЧАКФ был сделан выбор модели:АРПСС (0,1,1)(0,1,1), сезонный лаг 7.

Анализ остатков показал, что они некоррелированы и нормальнораспределены.

На рис. 10 показан график исходного ряда и ретропрогноза на 10дней для данной модели.

Forecasts; Model:(0,1,1)(0,1,1) Seasonal lag: 7Input: Массовые сорта

Start of origin: 1 End of origin: 50

-5 0 5 10 15 20 25 30 35 40 45 50 55 60 65

Observed Forecast ± 90.0000%

5E5

6E5

7E5

8E5

9E5

1E6

1.1E6

1.2E6

1.3E6

1.4E6

5E5

6E5

7E5

8E5

9E5

1E6

1.1E6

1.2E6

1.3E6

1.4E6

Рис. 10. Прогнозирование методом АРПСС

Результатом работы слушателей должны стать выводы в отноше-нии качества прогнозов, полученных несколькими методами и в различ-ных системах, и формирование таблицы-заключения по возможностирешения задачи прогнозирования продаж.

Следует отметить, что значительная часть специалистов, зани-мающихся маркетингом, имеет недостаточный уровень подготовки в об-ласти статистической обработки наблюдений. В связи с этим возникаетпотребность в программах, которые по своему научному уровню былибы достаточно совершенными, а по интерфейсу и технологии обработкиинформации – простыми. В то же время немаловажным требованием яв-ляется точность прогнозов, обеспечивающая качество принятия реше-ний.

Комплексный подход к изучению технологий бизнес-анализа с ис-

Page 22: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

22

пользованием различных инструментальных средств и методов позволя-ет расширить кругозор слушателей и, что самое главное, привить навы-ки исследовательской работы и принятия решений в области автоматиза-ции бизнеса.

Литература1. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к зна-

ниям (+CD). – Спб.: Питер, 2009. ─ 624 с.: ил.2. http://www.basegroup.ru/ – информационный ресурс компании

BaseGroup Labs.

ПОДГОТОВКА СТУДЕНТОВ-БАКАЛАВРОВ К РЕШЕНИЮ ЗА-ДАЧ МАЛОГО БИЗНЕСА МЕТОДАМИ ИННОВАЦИОННЫХ ТЕХ-

НОЛОГИЙ

Кудряшова Э.Е., доцент, профессорРАЕ, г. Волгоград

При вхождении России в систему Европейского образования в со-ответствии с Болонской конвенцией структура дисциплин на базе бака-лавриата в вузах не содержит ряд тем, необходимых современному спе-циалисту с высшим образованием. Если рассматривать выпускников-бакалавров как специалистов, подготовленных к трудоустройству напредприятиях малого бизнеса на современном уровне, то недостаточны-ми являются знания инновационных технологий в области искусственно-го интеллекта, автоматизации задач бизнес-планирования и т.д.

В условиях сложной экономической ситуации становится актуаль-ным обеспечение специалистов предприятий малого бизнеса автомати-зированным инструментарием оперативного принятия управленческихрешений. Оперативное принятие управленческих решений, адекватныхизменяющимся условиям экономической и социальной среды, позволитгибко управлять хозяйственной деятельностью предприятия малого биз-неса.

В социуме присутствует такая важная общая характеристика, каксамоорганизация – одна из форм синергизма. Обобщающий взгляд, ха-рактерный для синергетики, обладает большой эвристической ценностьюпри анализе таких явлений, как «экономика, основанная на знаниях»(knowedge-based есоnоmу, инновационная экономика), экономическиекатастрофы и ряд других. Основой современной «новой экономикки»представляется инновационный взрыв в сфере информационных тех-

Page 23: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

23

нологий (компьютеры, программное обеспечение, телекоммуникации иInternet). Использование новых информационных технологий: методовискусственного интеллекта, компьютерных средств когнитивного моде-лирования и т.д., открывает новые возможности специалистам пред-приятия малого бизнеса. Включение представления знаний в автомати-зированную систему искусственного интеллекта рассматривается вовзаимосвязи с качественными и количественными параметрами когни-тивной модели с позиций синергетики.

Для подготовки студентов, обучающихся в структуре бакалавриа-та, к решению современными методами практических задач малогобизнеса возможно создание неформального межвузовского Студенче-ского научно-инновационного центра. Студенты, заинтересованные вуглублении знаний, могут заниматься на курсах, раскрывающих сле-дующие темы.

Экономика, основанная на знаниях. Рассматриваются методы из-влечения знаний на базе интеллектуальных моделей. Демонстрируютсяинтеллектуальные возможности аналитической платформы Deductor приобработке экономических данных.

Онтологическое моделирование при проектировании автоматизи-рованных систем. Разрабатываются онтологические модели на при-мерах задач предприятий малого бизнеса.

Автоматизация разработки бизнес-процессов на примерах задачпредприятий малого бизнеса. Моделирование бизнес-процессов на осно-ве SADT-методики.

Инновации и риски в деятельности предприятия малого бизнеса.Методики стратегического анализа (GAP-анализ, матрица Ансоффа,SWOT-анализ, PEST-анализ, BSC-анализ) в применении к задачам ма-лого бизнеса.

«Качественное» моделирование. Рассматривается когнитивное мо-делирование деятельности предприятия малого бизнеса в условиях не-чёткой многосвязной среды.

Литература1. Кудряшова Э.Е. Методы и модели проектирования информаци-

онных систем / Монография. – М.: «Академия естествознания»,2009. – 128 с.

Page 24: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

24

ОПЫТ ИСПОЛЬЗОВАНИЯ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫDEDUCTOR ПРИ ПОДГОТОВКЕ СПЕЦИАЛИСТОВ ДЛЯ ЭКО-

НОМИКИ, ОСНОВАННОЙ НА ЗНАНИЯХ

Настащук Н.А., доцент Ом-ского государственного педаго-гического университета, г.Омск

Перспективным направлением информатизации сферы экономикиявляется профессиональная деятельность по управлению знаниями, ко-торая основана на применении средств интеллектуальных информацион-ных технологий (ИИТ). В связи с этим в качестве одной из приоритетныхцелей высшего экономического образования определяется подготовкасовременного экономиста к профессиональной деятельности по управле-нию знаниями в экономике и совершенствованию механизмов их вопло-щения в инновации (Н.И. Лапин, А.М. Лялин, Б.З. Мильнер и др.), а так-же реализация модели образования для экономики, основанной на знани-ях (Я.И. Кузьминов) [5]. Кроме того, решение задачи управления зна-ниями потребовало внести заметные изменения в организационныеструктуры финансовых и промышленных компаний, результатом кото-рых стало появление новых должностей: директор по управлению зна-ниями, вице-президент по управлению интеллектуальным капиталом,менеджер по интеллектуальным активам, брокер знаний, экспедиторырешений и др. [2].

Управление знаниями рассматривается как совокупность процес-сов, управляющих созданием, распространением, обработкой и исполь-зованием знаний в рамках организации [1]. Технологической основойсистем управления знаниями являются хранилища данных. Анализ ин-формации в хранилищах данных базируется на технологиях интеллекту-ального анализа данных, целью которого является извлечение знаний изнакопленных данных за некоторый промежуток времени.

Таким образом, появляются новые технологии организации, хране-ния и обработки экономической информации. Примером таких техноло-гий являются так называемые Business Intelligence средства, предостав-ляющие конечному пользователю возможности доступа и последующегоанализа прикладных структурированных данных с целью прогнозирова-ния и принятия решений в сфере экономики и бизнеса [4].

К средствам Business Intelligence относятся хранилища данныхData Warehouse, генераторы отчетов и средства аналитической обработ-

Page 25: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

25

ки OLAP, а также средства поиска закономерностей – Data Mining. Busi-ness Intelligence средства (или искусство преобразовывать данные в зна-ния) являются одним из аспектов управления знаниями. Вышеуказанныесредства в полной мере реализует аналитическая платформа Deductor.Хотя, академическая данной системы имеет некоторые ограничения, ноэто никак не отражается на возможности полноценного изучения еефункционала и, соответственно, подготовке будущих специалистов дляэкономики, основанной на знаниях.

Обучение использованию аналитической платформы Deductor oдля решении предстоящих задач в области управления знаниями реко-мендуется проводить при подготовке как студентов информационно-экономического профиля (специальности «Прикладная информатика вэкономике», «Прикладная информатика в менеджменте» и направленияподготовки «Прикладная информатика», «Бизнес-информатика»), так иэкономических специальностей (например, «Бухгалтерский учет, анализи удит», «Финансы и кредит» и др.).

Определим обобщенную схему решения задач в экономических ис-следованиях средствами Business Intelligence, в частности Deductor, сле-дуя логике системного подхода, который определяет методологическуюоснову современной информационной деятельности специалиста и при-нятия решений, характерных для управления знаниями [3]:

1. провести анализ предметной области, к которой принадлежитхранилище данных, и очертить круг проблем, характерных дляданной предметной области;

2. определить цель или сформулировать гипотезу поставленнойзадачи;

3. выявить набор существенных атрибутов, которые наиболее точ-но и полно характеризуют цель поставленной задачи;

4. выбрать необходимое Business Intelligence средство и построитьмодель решения задачи;

5. на основе полученных результатов, в том числе, графических(диаграммы, графики и т.д.), сформулировать выявленные зако-номерности, поведение фирмы на рынке и др.

Необходимо отметить, что в ходе проведения диссертационногоисследования [5], посвященного исследованию проблемы обучения ИИТи определению возможных путей и средств развития учебно-познавательной компетенции при данном обучении в рамках высшегоэкономического образования, была использована аналитическая плат-форма Deductor для реализации технологии Business Intelligence. Даннаятехнология базируется на интеллектуальном анализе данных, которыйотносится к машинному обучению – одному из актуальных направлений

Page 26: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

26

научной области «Искусственный интеллект». При этом построена итеоретически обоснована модель обучения ИИТ для развития даннойкомпетенции, разработана и реализована методика обучения ИИТ, осно-ванная на использовании учебных эвристических задач с экономическимсодержанием.

К эвристическим относят задачи, направленные на постановкупроблемы и реализацию ее решения на тактическом и стратегическомуровнях управления предприятием в условиях быстро меняющейся ры-ночной экономики и внедрением инноваций, зачастую в условиях неоп-ределенности (наличие неполной информации и нечетких исходных дан-ных). Эвристическая задача характеризуется тем, что для нее не известенформальный математический алгоритм, способ решения, а также нали-чие качественных суждений. При этом познавательная деятельность бу-дущих экономистов сводится к формализации неопределенности и не-точности экономической информации, содержащейся в задаче, что тре-бует умений системного видения предмета решаемой задачи [5].

Рассмотрим конкретный пример решения учебной эвристическойзадачи с экономическим содержанием, которую можно предложить сту-дентам на одной из лабораторных работ в рамках дисциплины «Интел-лектуальные информационные системы» (специальности «Прикладнаяинформатика в менеджменте» и «Прикладная информатика в экономи-ке»). Данная задача решается с помощью аналитической платформы De-ductor.

Задача. Требуется выявить группы риска заемщиков компании Nна основе применения технологии интеллектуального анализа данных(технология Data Mining). Для этого следует ответить на вопросы:

· Каков тип кредитоспособных заемщиков?· Каков тип некредитоспособных заемщиков, которым отказали в

выдаче кредита?· Какие факторы оказывают наибольшее и наименьшее влияние

на необходимость отказа в кредите?· Какие факторы оказывают наибольшее и наименьшее влияние

на выдачу кредита?· Какова стратегия привлечения заемщиков с другими профиля-

ми?Методические рекомендации к решению задачи.На первом, втором и третьем шагах решения задачи студенту

необходимо сформулировать несколько гипотез, исходя из проблематикизаданной предметной области. Следующим шагом является выявлениесущественных и менее существенных факторов, характерных для выдви-нутого предположения. Результатом данного шага должен быть список с

Page 27: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

27

описанием всех факторов, которые рекомендуется оформить в виде таб-лицы (табл. 1).

Таблица 1Оценка значимости факторов

ФакторЭкспертная оценказначимости (1 - 100)

Среднегодовой доход 100

Сумма кредита 90

Семейное положение 80

Пол 45

Возраст 75

Профессия 62

Срок проживания в городе 20

Образование 70

Автомобиль 90

После подготовки таблицы с описанием факторов нужно экспертнооценить значимость каждого из факторов, используя метод экспертныхоценок, который способствует снятию неопределенности и выявлениюболее существенных и менее существенных факторов.

На четвертом шаге необходимо выбрать соответствующую мо-дель для реализации компьютерного интеллектуального анализа инфор-мации. На основе полученного результата значимость факторов можетменяться и, соответственно, корректируется или отвергается одна из ги-потез. В данном случае выбирается такой метод Data Mining как дереворешений.

На пятом шаге в результате проведенного компьютерного анализавыяснилось, что кредитоспособными являются следующие лица: 1) муж-чины и женщины, берущие сумму кредита меньше 24 тыс. руб., срокпроживания в данной местности меньше 11 лет и среднегодовой доходсоставляет 160 – 180 тыс. руб. в год; 2) мужчины в возрасте 28 – 48 лет свысшим или средним образованием, наличие автомобиля, срок прожива-ния в данной местности больше 11 лет. Далее студент, руководствуясьизвлеченными знаниями из базы данных, отвечает на поставленные во-просы задачи и формулирует окончательное решение задачи, используяметод конструирования правил.

Например:Если физическое лицо обладает <перечисление выявленных значи-

мых условий>, То это физическое лицо является кредитоспособным.Если физическое лицо обладает <перечисление выявленных значи-

мых условий>, То это физическое лицо не является кредитоспособным.

Page 28: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

28

Затем студентам рекомендуется продолжить решение данной зада-чи в следующем творческом направлении: разработайте тактику выдачикредита населению согласно выявленным значимым и менее значимымфакторам, влияющим на кредитоспособность.

Методика обучения решению задач, ориентированных на управле-ние знаниями, посредством применения аналитической платформы De-ductor внедрена и продолжает совершенствоваться при подготовке сту-дентов по следующим специальностям: «Прикладная информатика в ме-неджменте» на факультете информатики Омского государственного пе-дагогического университета, а также «Бухгалтерский учет, анализ и ау-дит», «Управление персоналом», «Прикладная информатика в экономи-ке» и направления подготовки «Прикладная информатика» Омского эко-номического института.

Таким образом, аналитическая платформа Deductor играет значи-мую роль при подготовке специалистов для экономики, основанной назнаниях, при этом наглядно демонстрирует функциональные возможно-сти Business Intelligence средств, которые составляют технологическуюоснову управления знаниями.

Литература1. Гаврилова Т.А. Логико-лингвистическое управление как введе-

ние в управление знаниями // Новости искусственного интел-лекта. 2002. – № 6. – С. 36–40.

2. Мильнер Б. З. Управление знаниями в современной экономике /Б.З. Мильнер // Проблемы теории и практики управления. –2006. – № 9. – С. 8 – 13.

3. Настащук Н. А. Системный подход к использованию BusinessIntelligence средств в экономических исследованиях /Н. А. Настащук // Информационная среда вуза: материалы XIVМеждунар. науч.-техн. конф. – Иваново, 2007. – С. 302-305.

4. Настащук Н. А. Некоторые аспекты использования Business In-telligence средств в профессиональной подготовке студентовспециальности "Прикладная информатика в экономике" /Н. А. Настащук// Научно-практический журнал "Экономика,статистика и информатика. Вестник УМО". – 2008. – № 2. – С.69-71.

5. Развитие учебно-познавательной компетенции у будущих эко-номистов в процессе обучения интеллектуальным информаци-онным технологиям : автореф. дис. на соиск. учен. степ. канд.пед. наук / Н. А. Настащук; Омск. гос. пед. ун-т. – Омск, 2009. –21 с.

Page 29: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

29

ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫDEDUCTOR ПРИ ПОДГОТОВКЕ СПЕЦИАЛИСТОВ ЭКОНОМИ-

ЧЕСКОГО ПРОФИЛЯ

Карпузова В.И., доцент, СкрипченкоЭ.Н., профессор, Чернышева К.В., до-цент, Российский государственныйаграрный университет – МСХА имениК.А.Тимирязева, г. Москва

В Российском государственном аграрном университете – МСХАимени К.А. Тимирязева большое внимание уделяется подготовке высо-коквалифицированных кадров, способных решать задачи современнойэкономики с использованием новейших информационных систем и тех-нологий.

В зависимости от специальности подготовки экономистов учебны-ми планами предусмотрены разные дисциплины для изучения систем итехнологий: «Информационные системы в экономике», «Автоматизиро-ванные информационные системы в экономике», «Информационныетехнологии в управлении», «Автоматизированные информационные тех-нологии в экономике», «Автоматизация решений учетных и аналитиче-ских задач» и др.

Информатизация общества и разработанная программа «СозданиеЕдиной системы информационного обеспечения АПК России» (ЕСИОАПК) обязывают наших выпускников быть грамотными пользователямии, возможно, принимать участие в развитии данной системы.

ЕСИО АПК осуществляет интегральную взаимоувязанную инфор-мационную поддержку всех процессов федерального, регионального имуниципального уровней государственного управления и регулированияв сфере АПК.

В учебном процессе университета по вышеназванным курсам ис-пользуются разные автоматизированные информационные системы итехнологии, решающие широкий спектр управленческих задач.

Для оперативного уровня управления используем системы обра-ботки данных (СОД) – программный комплекс 1С:Предприятие 7.7,обеспечивающий учетную функцию управления. В данном программномпродукте основной технологией обработки данных является OLTP-технология (Online Transaction Processing).

Следующая группа программных продуктов – 1С:Предприятие 8.1,БЭСТ 5, БЭСТ-Маркетинг, БЭСТ-Финансы. Это информационные сис-

Page 30: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

30

темы управления (ИСУ), реализующие планирование, учет, анализ, кон-троль, применяются для функционального (тактического) уровня управ-ления. В них наряду с OLTP-технологиями используются OLAP-технологии (Online analytical processing).

Кафедрой экономической кибернетики накоплен большой опытпреподавания автоматизированных информационных систем для опера-тивного и функционального уровней управления на основе вышепере-численных и других программных продуктов.

Современные условия деятельности организаций и разных структуруправления в век кибер-экономики диктуют более широкое использова-ние систем поддержки принятия управленческих решений (СППР). Настратегическом уровне можно использовать такие СППР, как Deductor,SAS Enterprise Guide, работающие на основе OLAP-технологий и храни-лищ данных. Хранилища данных могут заполняться из баз данных СОДи ИСУ.

Аналитическая платформа Deductor компании BaseGroup Labsприменяется в университете с 2006 г. За истекший период с аналитиче-ской платформой познакомились более 1000 студентов разных специ-альностей: «Математические методы в экономике», «Бухгалтерскийучет, анализ и аудит», «Финансы и кредит», «Экономика и управление напредприятии (по отраслям)», «Профессиональное обучение (экономика иуправление)», а также магистры, аспиранты и преподаватели сельскохо-зяйственных вузов.

Студенты начинают работать с аналитической платформой Deduc-tor, в зависимости от специальности, со второго по пятый курс.

Для проведения лабораторных занятий разработаны учебные посо-бия с реализацией интерактивного способа обучения «сквозная задача»средствами Deductor Studio и SAS Enterprise Guide. Изложенные в посо-биях задания обеспечивают выполнение разнообразных функций, вклю-чающих сбор данных из различных источников, преобразование и за-грузку их в хранилище, хранение информации, получение отчетности,создание произвольных запросов, многомерный анализ и др. Выбор кон-кретных заданий зависит от курса обучения, степени подготовки студен-тов и часов, предусмотренных рабочими программами.

В практической части пособия реализованы межпредметные ивнутрипредметные связи. Студенты закрепляют знания по информаци-онным и телекоммуникационным технологиям, математическим мето-дам, статистике, анализу, прогнозированию и планированию и др.

Внутрипредметные связи обеспечивают закрепление знаний потерминологии экономической информации и соответствию ее термино-логии OLAP-технологий, теории проектирования структурных элементов

Page 31: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

31

АИС.При выполнении заданий обращается внимание на научную логику

построения, взаимосвязь информационных систем 1С: Предприятие,БЭСТ 5 и аналитических платформ Deductor, SAS.

Большое внимание уделяем организации самостоятельной работыстудентов. Так, студенты специальности «Математические методы вэкономике» уже на третьем курсе в рамках функционирующего на ка-федре научного студенческого кружка «Современные информационныетехнологии и системы» закрепляют теоретические знания по использо-ванию математических методов и различных вариантов их реализации.Кроме того, в рамках кружка студентами ведутся исследования с исполь-зованием статистических методов: кластеризации, корреляционного,регрессионного анализа, прогнозирования временных рядов, что позво-ляет закрепить теоретические знания и практические навыки по дисцип-лине «Математическая статистика».

При выполнении индивидуальных заданий на производственнуюпрактику после третьего и четвертого курсов студенты специальности«Математические методы в экономике» собирают информацию по объ-екту исследования в соответствии с тематикой выпускной квалификаци-онной работы для применения аналитической платформы Deductor.

Результаты научных исследований студенты представляют в формевыступлений и стенд-докладов на вузовских и межвузовских научныхконференциях, курсовых и выпускных квалификационных работ.

Исследования студентов с использованием аналитической плат-формы Deductor были отмечены призовыми местами на конференциях.Наши студенты принимали участие в межвузовских научно-практических конференциях, проводимых в Государственном универси-тете – Высшая школа экономики, Московском государственном универ-ситете печати, Московском государственном университете экономики,статистики и информатики и др.

Аналитическая платформа Deductor используется аспирантами ка-федры и факультета при подготовке диссертационных работ по специ-альностям 08.00.05 «Экономика и управление народным хозяйством(экономика, организация и управление предприятиями, отраслями, ком-плексами – АПК и сельское хозяйство)» и 08.00.13 «Математические иинструментальные методы экономики».

В перспективе планируется расширение применения аналитическойплатформы Deductor в учебном процессе и научных исследованиях.

С сентября 2010 г. на кафедре экономической кибернетики преду-сматривается подготовка магистров по программе «Информационноеобеспечение управления АПК» направления 080500.68 «Менеджмент».

Page 32: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

32

Использование аналитической платформы возможно и при реализациидругих магистерских программ (опыт имеется).

Важность применения систем поддержки принятия управленческихрешений отмечена Департаментом научно-технологической политики иобразования Министерства сельского хозяйства Российской Федерации.Кафедрой экономической кибернетики совместно с департаментом под-готовлена «Программа повышения квалификации профессорско-преподавательского состава высших учебных заведений, подведомствен-ных Минсельхозу России по теме «Системы поддержки принятия управ-ленческих решений». Программа рассчитана на 72 часа обучения.

Таким образом, использование в учебном процессе новых инфор-мационных и телекоммуникационных технологий, включая аналитиче-скую платформу Deductor, обеспечивает качественное преподаваниедисциплин, повышает привлекательность их для студентов и тем самымреализуется задача подготовки специалистов для современного инфор-мационного общества в соответствиии с государственными образова-тельными стандартами второго и третьего поколений.

ОБУЧЕНИЕ СТУДЕНТОВ НАПРАВЛЕНИЯ «ПРИКЛАДНАЯИНФОРМАТИКА» СОВРЕМЕННЫМ ИНСТРУМЕНТАМ И ТЕХ-

НОЛОГИЯМ АНАЛИЗА ДАННЫХ

Прокопенко Н.Ю., доцентНижегородскогогосударственного архитектурно-строительного университета, г.Нижний Новгород

Процесс повсеместной информатизации приводит к накоплениюогромных объёмов данных во всех сферах жизни общества – от науки,бизнеса и производства до образования и здравоохранения. Принятиерешений в современных условиях – процесс, требующий обработки ги-габайтов информации, обусловил возрастание роли информационно-аналитических систем, под которыми понимают комплекс аппаратных,программных средств, информационных ресурсов, методик, которые ис-пользуются для обеспечения автоматизации аналитических работ в целяхобоснования принятия управленческих решений и других возможныхприменений.

Задачами любой информационно-аналитической системы являются

Page 33: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

33

эффективное хранение, обработка и анализ данных. В связи с большимобъёмом и сложностью аспект проблемы собственно анализа имеет дванаправления: оперативный анализ данных – On-Line Analytical Processing(OLAP), интеллектуальный анализ информации – Data Mining.

Основной задачей оперативного или OLAP-анализа является бы-строе (в пределах секунд) извлечение необходимой аналитику или лицу,принимающему решения, информации, требуемой для обоснования илипринятия решения.

Интеллектуальный анализ данных (ИАД) представляет собой ана-литический процесс исследования человеком большого объема инфор-мации с привлечением компьютерных технологий автоматизированногопоиска в исходных данных неочевидных закономерностей, что расширя-ет возможности аналитика, позволяя не только проверять имеющиесягипотезы, но и генерировать новые, априорно не прогнозируемые иссле-дователем.

Методы ИАД стали весьма широко и эффективно применяться всвязи с бурным развитием в последнее десятилетие самих методик DataMining и соответствующих инструментальных средств. Они находятприменение в тех ситуациях, когда обычные методы анализа трудно илиневозможно применить из-за отсутствия сведений о характере или зако-номерностях исследуемых процессов, взаимозависимостях явлений, фак-тов, поведении объектов и систем из различных предметных областей, втом числе в социальной и экономической.

Задачами интеллектуального анализа являются:· выявление взаимозависимостей, причинно-следственных свя-

зей, ассоциаций и аналогий, определение значения факторавремени, локализация событий или явлений по месту.

· классификация событий и ситуаций, материальных и другихобъектов по совокупностям признаков, определение профилейразличных факторов;

· прогнозирование событий, хода процессов;· оценка эффективности деятельности, проектов.Если традиционный анализ данных опирался, в первую очередь, на

методы прикладной статистики, то новое направление обработки данных– ИАД – использует технологии нейронных сетей, генетических алго-ритмов, нечеткой логики и другие инструменты современной математи-ки, логики, теории искусственного интеллекта. Методы Data Mining при-званы не только описать зависимости и взаимосвязи, но и объяснить их.Они не налагают априорных гипотез на данные, не навязывают реально-сти заранее выбранных шаблонов, работая даже тогда, когда данные (азначит и описываемая ими предметная область) имеют сложную, запу-

Page 34: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

34

танную структуру.В настоящее время большую актуальность приобретает профессио-

нальное владение современными технологиями анализа данных. Про-граммы нечеткой логики, генетических алгоритмов, нейронных сетейпредназначены не для программистов, а для управленцев, менеджеров,инженеров. Они являются незаменимыми помощниками при принятиирешений, анализе ситуации, прогнозировании развития событий. Именнопоэтому актуальной является задача подготовки нового поколения спе-циалистов, способного на практике осознано применять новые информа-ционные технологии, составной частью которых являются интеллекту-альные средства обработки информации.

Для того чтобы студенты направления «Прикладная информатика»могли свободно пользоваться современными IT-технологиями, мы ис-пользуем три пути.

1. Чтение специальных курсов, посвященных ИАД: «Интеллекту-альные информационные системы», «Компьютерные технологии в науке,образовании и производстве». Главная цель этих дисциплин – получениебазовых знаний в области интеллектуальных информационных систем,изучение методов и средств интеллектуального анализа данных, приоб-ретение навыков работы со средствами Data Mining.

2. Внедрение в другие курсы: «Базы данных», «Эконометрика»,«Логистика», «Методы прогнозирования». Активное использованиемежпредметных связей перечисленных учебных дисциплин играет важ-ную роль в повышении практической и научно-теоретической подготов-ки студентов, существенной особенностью которой является овладениеими обобщенным характером познавательной деятельности.

3. Индивидуальная работа со студентами (НИР, курсовые и ди-пломные работы).

Для научно-исследовательской работы студентов, как для одной изформ учебного процесса, характерно удачное сочетание обучения ипрактики. В рамках этой работы студент приобретает сначала основныенавыки исследовательской работы, а затем начинает воплощать теорети-ческие знания в научных исследованиях, выполняемых на кафедре. Ееосновные формы – участие в факультетских, университетских, межву-зовских научных конференциях и студенческие публикации, а также пи-лотные проекты и исследовательская работа в области учета и анализаданных.

Подчеркнем, что интеллектуальный анализ данных невозможнореализовать без специализированных пакетов программ, реализующихэвристические алгоритмы выявления закономерностей, релевантных какнакопленным данным, так и целям их обработки. ИАД предполагает на-

Page 35: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

35

личие данных (числовых, текстовых или других), цели, определяющейвид искомой закономерности (ассоциации, классификации, кластериза-ции или др.), математического аппарата, способного решить задачупоиска определенного вида закономерности, и программного инстру-мента, реализующего соответствующий математический метод.

Для обучения студентов в качестве универсальной моделирующейсреды для создания прикладных решений в области анализа данных намибыла выбрана аналитическая платформа Deductor (отечественнаяразработка компании BaseGroup Labs). Выбор этого программногопродукта был обусловлен рядом причин:

· наличие учебной версии;· наличие в Deductor Academic самых современных методов из-

влечения, манипулирования, визуализации данных, кластериза-ции, прогнозирования и многих других технологий интеллекту-ального анализа данных;

· различные методические материалы (демо-сценарии, примеры,аналогии), объясняющие сложные понятия, термины, принципыработы тех или иных методов анализа и механизмов построенияаналитических решений;

· множество способов визуализации данных (кроме традицион-ных таблиц, графиков и диаграмм используются специальныевизуализаторы такие как граф нейронной сети, сети Кохонена,деревья решений, рок-диаграмма, таблица сопряженности);

· доступность для освоения пользователями, имеющими разныеуровни компьютерной и математической подготовки.

Конечно, знание таких дисциплин как общий курс высшей матема-тики, теории вероятностей и математической статистики является необ-ходимым фундаментом изучения методов Data Mining. Но в тоже времяиспользование самообучающихся методов и мастеров для настройки,множества способов визуализации данных делает современные техноло-гии доступными широкому кругу пользователей, позволяя снизить тре-бования к уровню математической подготовки студентов.

Важной особенностью интеллектуального анализа данных являетсято, что он позволяет более полно использовать способности человека,освобождая его не только от рутинных вычислений, но даже от форму-лировки гипотез (естественно, при наличии «сильной» интеллектуальнойсистемы, оснащенной «хорошим» математическим аппаратом, позво-ляющим реализовать методологию генерации и отбора наиболее инте-ресных гипотез). Однако ИАД не решает задачи за аналитика, а всеголишь служит инструментом, который способствует поиску нетривиаль-ных решений содержательных задач. Кроме того, ИАД предполагает со-

Page 36: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

36

вместное использование различных методов и алгоритмов в процессеанализа эмпирических данных. В данном контексте особое значениеприобретают математические знания, навыки компьютерной реализацииразличных методов анализа данных и корректной интерпретации полу-ченных результатов.

Условия успеха в интеллектуальном анализе данных:· ясность в представлении цели анализа;· подготовка существенных для проводимого исследования дан-

ных;· правильный выбор методов и программных средств;· квалифицированное и тщательное выполнение методов анализа;· решение о применении результатов анализа.Свободно распространяемая академическая версия аналитической

платформы Deductor имеет большое значение для подготовки специали-стов в области IT-технологий, в сфере экономики, маркетинга и менедж-мента, так как очевидно, что теоретических знаний молодым специали-стам недостаточно, нужно уметь применять полученные знания к реше-нию прикладных задач. Добиться этого можно, только проведя доста-точно много времени за компьютером, осваивая соответствующие про-граммные продукты. Применение АП Deductor позволяет двигаться по-степенно от простых задач к более сложным, получая отдачу на каждомшаге. Любой набор данных на каждом этапе анализа можно визуализи-ровать каким-либо доступным способом или несколькими способами,поскольку визуализация помогает интерпретировать построенные моде-ли. Такой подход значительно облегчает восприятие студентами содер-жания решаемых бизнес-задач. Благодаря доступности и наглядностиметодов анализа данных, реализованных в Deductor, студентам остаетсяглавным образом творческая работа: изучение предметной области, вы-бор методов решения, интерпретация результатов.

Возможность применять в конкретных ситуациях, при решении ре-альных задач знания и умения, полученные во время учебных теоретиче-ских и практических занятий, появляется у студентов с момента прохож-дения производственной и преддипломной практики, целью которой яв-ляется освоение самых современных информационных технологий, оз-накомление и исследование новейших тенденций и разработок в областиинформационных технологий по созданию систем поддержки принятиярешений.

Цель производственной практики – изучение опыта создания иприменения конкретных информационных технологий и систем инфор-мационного обеспечения для решения реальных задач организационной,

Page 37: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

37

управленческой и научной деятельности в условиях конкретных произ-водств, организаций или фирм.

Цель преддипломной практики – сбор необходимого материаладля выполнения выпускной квалификационной работы. Осуществляетсяуглубление и закрепление полученных студентами теоретических ипрактических навыков в различных областях деятельности информатика-экономиста (организационно-управленческая, проектно-технологическая, маркетинговая, экспериментально-исследовательская,консалтинговая, аналитическая и эксплуатационная); приобретение иминавыков практического решения информационных задач на конкретномрабочем месте.

Значительное внимание при прохождении практики уделяется та-ким вопросам, как:

· учет и автоматизацию каких бизнес-процессов необходимо на-ладить в первую очередь;

· в каких случаях и для решения каких задач применять тот илииной инструментарий;

· как подготовить данные для анализа;· как интерпретировать результаты для выработки эффективных

управленческих решений;· как комбинировать методы анализа;· как быстрее получить нужный результат, не снижая качества.Проблемой при решении этих задач является необходимость попу-

ляризации новых информационных технологий, так как сотрудники вомногих компаниях зачастую задавлены текучкой, и не успевают следитьза новостями на IT-рынке. Достаточно часто студенты-практикантысталкиваются еще и с тем фактом, что предприятия при выборе инфор-мационной системы ставят во главу угла не ее функциональные возмож-ности, а исключительно стоимость. Они привыкли работать, используяуже имеющиеся программные продукты, и не хотят внедрять новые (де-лают простейшую аналитику в Excel и считают, что этого им достаточ-но). Кроме того, поскольку технологии ИАД являются мультидисципли-нарной областью, для разработки приложений, включающих методыData Mining, необходимо задействовать специалистов из разных облас-тей, а также обеспечить их качественное взаимодействие. Однако спе-циалистов по Data Mining, которые бы хорошо разбирались в бизнесе,еще очень мало. К сожалению, на предприятиях, где студенты проходятпрактику, не всегда есть возможность получить консультацию у экспер-тов – руководителей и специалистов организации, которые, ссылаясь напроизводственную загруженность, в лучшем случае предоставляют толь-

Page 38: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

38

ко данные и ждут готовых результатов.Для того чтобы готовить интересные, имеющие реальное практиче-

ское значение выпускные квалификационные работы, необходимо взаи-модействие вуза с организациями, использующими или внедряющимисовременные интеллектуальные информационные системы. У нас ужеесть положительный опыт – это сотрудничество с компаниямиBaseGroup Labs и ее партнера BIGroup Labs (г. Нижний Новгород,www.bi-grouplabs.ru), основной образовательной целью которых являетсяподготовка грамотных специалистов, понимающих потребности бизнесаи умеющих применить современные информационные технологии дляих удовлетворения. Огромные усилия компания BaseGroup Labs вклады-вает в образовательную программу: открыт образовательный портал изапущена полноценная система дистанционного обучения, где предло-жены самые современные курсы обучения и сертификации для препода-вателей вузов по анализу данных; выпустила академическую версиюаналитической платформы Deductor Academic, на основе которой изуча-ются все практические аспекты технологий анализа данных.

Используя функциональность и аналитические возможности плат-формы Deductor, студенты в ННГАСУ готовят курсовые и дипломныеработы, которые отличаются новизной подходов и практической значи-мостью. Так, например, ими были получены интересные аналитическиерешения в области бизнеса и управления, оформленные в виде выпуск-ных квалификационных работ: «Разработка интегрированной информа-ционно-аналитической системы поддержки принятия решений регио-нального управления» (Д.В. Власенко), «Разработка интегрированнойсистемы информационно-аналитического обеспечения деятельностиНижегородской областной детской клинической больницы» (О.В. Рабы-нина), «Применение современных информационных технологий и ин-теллектуальных методов анализа в задаче оценки недвижимости» (Т.В.Медведева), «Разработка автоматизированной информационной системыпринятия инвестиционных решений на базе АП Deductor» (И.В. Ильин).

Целью первых двух работ является разработка методологии ис-пользования различных информационных систем (офисных, интеллекту-альных, геоинформационных) и новых информационных технологий дляинтегрированной обработки экономической и медицинской информациив системах поддержки принятия решений. В дипломных проектах рас-сматривались теоретические аспекты и практическая реализация интег-рированной информационно-аналитической системы поддержки приня-тия решений, которая состоит из 4 подсистем.

1. Подсистема сбора и хранения данных реализована средствамиMS Access и АП Deductor. Создание интегрированного хранилища дан-

Page 39: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

39

ных, а также организация обработки накопленной в MS Access информа-ции было реализовано на базе Deductor Warehouse.

2. Подсистема очистки и подготовки данных к анализу и построе-нию аналитических моделей реализована в Deductor Studio, где имеютсявсе необходимые обработчики для проведения аудита данных, подготов-ки данных к анализу и построению аналитических моделей. Аудит дан-ных включает в себя: проверку и устранение дубликатов и противоречий,обработку пропусков, выявление выбросов и фильтрацию.

3. Подсистема моделирования и прогнозирования реализована набазе Deductor Studio. Она включает несколько прогностических и клас-сификационных моделей. С помощью обработчиков в Deductor былпроведен корреляционный анализ отобранных показателей и построенымодели прогноза: линейная регрессионная модель и нейросетевой про-гноз временного ряда.

4. Подсистема аналитической отчетности и географического ото-бражения данных реализована средствами АП Deductor и геоинформаци-онной системы MapInfo. Подсистема построения отчетов предполагаетграфическое представление данных в виде графиков, диаграмм, карт Ко-хонена, а также предполагает нанесение результатов анализа и прогнози-рования рассматриваемых показателей на карту Нижегородской областидля сравнительного анализа состояний муниципальных районов.

Аналитическая отчетность в Deductor обеспечивает быстрый дос-туп к результатам анализа, не требуя от пользователя навыков анализаданных и работы в АП. При работе с отчетами пользователь не видитсценарий анализа данных, ему доступны только конечные результаты(выдержки) из работы аналитика. Отчеты построены в виде древовидно-го иерархического списка, каждым узлом которого является отдельныйотчет или папка, содержащая несколько отчетов. Каждый узел дерева от-четности связан со своим узлом в дереве сценария. Для каждого отчетабыли построены OLAP-кубы, а также настроены другие способы ото-бражения: гистограммы, кросс-таблицы, кросс-диаграммы.

В дипломном проекте «Применение современных информационныхтехнологий и интеллектуальных методов анализа в задаче оценки не-движимости» описываются новые подходы к решению задач оценки не-движимости. При помощи аналитической платформы Deductor был по-строен сценарий, решающий задачи классификации и прогнозированиястоимости жилья. Задачи классификации решены при помощи моделейдерева решений и нейронной сети, задачи прогнозирования – при помо-щи модели нейронной сети и модели множественной регрессии. Такжебыло проведено сравнение модели на основе показателей оценки их ка-чества.

Page 40: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

40

Основным результатом дипломного проекта «Разработка автома-тизированной информационной системы принятия инвестиционных ре-шений на базе АП Deductor» является вывод о том, что данная аналити-ческая платформа может эффективно справляться с задачами отчистки иобработки информации, а благодаря встроенному полнофункционально-му нейросетевому аппарату, может быть использована для решения ши-рокого круга задач оценки и прогнозирования различных финансовыхвеличин.

Опыт преподавания методов Data Mining показывает, что большин-ство студентов, ориентированных после окончания университета рабо-тать по специальности, интересуются возможностями технологий ИАД исогласны прилагать усилия, чтобы разобраться в их тонкостях, несмотряна сложность теоретических и прикладных аспектов интеллектуальныхвычислений. Мотивацией к изучению ИАД, как нам представляется, мо-жет служить ознакомление с результатами его применения. Наша собст-венная практика применения ИАД в дипломных проектах дает основанияс уверенностью утверждать, что ИАД является очень полезным, инстру-ментом познания действительности, решения разнообразных бизнес-задач. Освоение методов ИАД будущими специалистами по информаци-онным технологиям является важным шагом в повышении уровня ихпрофессиональной культуры.

ПРОБЛЕМЫ ОБУЧЕНИЯ СТУДЕНТОВ КОНЦЕПТУАЛЬНОМУАНАЛИЗУ ДАННЫХ

Шамсутдинова Т.М., доцент Башкир-ского государственного аграрного уни-верситета, г. Уфа

Концептуальный анализ данных является одним из основных эта-пов проектирования интеллектуальных информационных систем, осно-ванных на концепции использования баз знаний. К интеллектуальнымсистемам такого типа относятся системы с интеллектуальным интерфей-сом, экспертные системы, самообучающиеся и адаптивные информаци-онные системы [1].

Как известно, база знаний – это хранилище единиц знаний, описы-вающих атрибуты и действия, связанные с объектами проблемной облас-ти. Для представления единиц знаний в них обычно используются пра-вила, описывающие поведение и взаимодействие исследуемых объектов.

Page 41: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

41

Цель концептуального анализа данных при построении баз знаний– провести содержательный анализ проблемной области, выявить в нейосновные понятия и их взаимосвязи.

Можно выделить следующие основные уровни концептуальногоанализа данных [2, 3].

Объектно-структурный уровень. На данном уровне концепту-ального анализа данных разрабатывается структурная модель исследуе-мой предметной области. Данная модель описывает структуру предмет-ной области как совокупности взаимосвязанных объектов, отражает фак-туальное знание о составе объектов, их свойствах и связях. Элементар-ной единицей структурного знания является факт, описывающий односвойство или одну связь объекта и представляемый в виде: предикат(Объект, Значение). Для представления данных моделей используютсясредства ER-описаний, например, модель «Сущность-Связь».

Функциональный уровень. Функциональная модель предметнойобласти отражает основные функциональные связи между объектами,описывает преобразования фактов и зависимости между ними, показыва-ет, как определенные факты образуются из других. В качестве единицыфункционального знания используется зависимость фактов в виде: А →B. Формами представления функциональных моделей являются IDEF-диаграммы, деревья целей, графы И-ИЛИ.

Поведенческий уровень. Поведенческая модель предметной об-ласти рассматривает взаимодействия объектов во временном аспекте.Данная модель отражает изменение состояний объектов в результатевозникновения некоторых событий, влекущих за собой выполнение оп-ределенных действий. Для представления поведенческих моделей ис-пользуются описания потоков событий, например, DFD-диаграммы.

К прикладным методикам концептуального анализа предметнойобласти при этом можно отнести:

· выявление корреляционных и регрессионных зависимостей ме-жду данными;

· анализ данных методом главных компонент;· кластерный анализ (в том числе с применением самооргани-

зующихся карт Кохонена);· построение деревьев решений;· анализ данных с применением нейронных сетей;· построение ассоциативных правил и др.Для обучения студентов методикам концептуального анализа дан-

ных в Башкирском государственном аграрном университете использует-ся аналитическая платформа Deductor, позволяющая реализовать основ-

Page 42: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

42

ные стратегии извлечения знаний. Опыт использования данного про-граммного продукта на учебных занятиях составляет три года, занятияведутся на старших курсах специальности 080801 «Прикладная инфор-матика (в экономике)» в рамках дисциплины СД.Ф.02 «Интеллектуаль-ные информационные системы».

В ходе занятий студенты выполняют цикл лабораторных работ,связанных с изучением методики интеллектуального анализа данных наоснове построения деревьев решений, нейронных сетей, карт Кохонена ит.д. Далее студенты выполняют курсовую работу, связанную с проекти-рованием экспертных систем, в которой они должны провести концепту-альный анализ данных с целью построения базы знаний своей эксперт-ной системы.

К основным этапам проектирования экспертных систем традици-онно относят такие этапы как:

1. идентификация проблемной области;2. концептуализация проблемной области;3. формализация базы знаний;4. реализация экспертной системы;5. тестирование;6. внедрение и опытная эксплуатации.Из всех перечисленных этапов наибольшее затруднение у студен-

тов, как правило, вызывает именно этап концептуализации проблемнойобласти. На данном этапе студентами совершается достаточно большоеколичество ошибок, существенно снижающих ценность выполненнойработы.

Исходя из опыта преподавательской работы в вузе, была сформу-лирована следующая система оценки качества концептуального анализаданных в курсовых работах студентов специальности «Прикладная ин-форматика (в экономике)» по дисциплине «Интеллектуальные информа-ционные системы». Для оценки объема и качества проведенного концеп-туального анализа предлагается использовать следующую систему кри-териев:

· актуальность темы работы;· четкость формулирования цели концептуального анализа дан-

ных;· полнота составления исходной выборки данных, включая коли-

чество рассматриваемых факторов;· уровень структурированности рассматриваемых факторов;· наличие системного подхода к рассмотрению факторов;· четкость формулирования гипотез;

Page 43: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

43

· количество использованных методик концептуального анализа;· качество построенных моделей концептуального анализа дан-

ных;· степень согласованности построенных моделей анализа данных;· степень глубины проведенного концептуального анализа;· полнота рассмотрения отдельных аспектов предметной области;· степень соответствия между результатами концептуального

анализа и строящейся далее базой знаний;· шаблонность работы и объем «заимствований» по системе «ан-

типлагиат»;· выполнение графика сдачи этапов работы.К наиболее типичным ошибкам студентов при проведении концеп-

туального анализа данных можно отнести бессистемность и неполнотуисходной выборки данных, несогласованность построенных моделейанализа, низкую степень глубины проведенного концептуального анали-за, слабое соответствие между результатами концептуального анализаданных и строящейся далее базой знаний. Достаточно часто проведен-ный анализ носит поверхностный характер и плохо раскрывает связимежду объектами проблемной области.

Довольно много проблем возникает у студентов при проведениикластерного анализа данных. Не всем студентам удается выделить общиедля кластеров свойства объектов, четко сформулировать критерии отне-сения объектов к тому или иному кластеру. Бывают случаи, когда выборвходных и выходных полей карт Кохонена, например, вообще не соот-ветствует общей концепции анализа проблемной области.

Ряд сложностей возникает у студентов и при анализе данных с ис-пользованием нейронных сетей. Причем здесь есть как проблемы прак-тического характера (непонимание принципов нормализации полей, вы-бора топологии сети, настройки параметров ее обучения), так и пробле-мы аналитического характера, связанные с отсутствием четкого понима-ния итоговой цели применения нейронной сети для концептуальногоанализа своей проблемной области.

После этапа концептуализации проблемной области должен реали-зовываться этап формализации базы знаний, на котором формализуютсялогические правила базы знаний экспертной системы. Многие студенты,нарушая целостность процесса проектирования своей системы, состав-ляют правила, не согласующиеся с результатами проведенного концеп-туального анализа данных. При этом вводятся совершенно новые факто-ры, не рассмотренные ранее и не имеющие своего места в уже сформи-рованной структуре поля знаний.

Page 44: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

44

В заключение можно только добавить, что проблема обучения сту-дентов навыкам концептуального анализа данных носит комплексныйхарактер. Для ее решения необходимо повышать уровень абстрактностимышления студентов, формировать у них творческий подход к решениюисследовательских задач, развивать аналитические способности и навы-ки системного подхода к анализу данных.

Литература1. Андрейчиков А.В. Интеллектуальные информационные систе-

мы. – М.: Финансы и статистика, 2003.2. Тельнов Ю.Ф. Интеллектуальные информационные системы. –

М: Московский международный институт эконометрики, ин-форматики, финансов и права, 2004.

3. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуаль-ных систем. – СПб: Питер, 2000. – 384 с.

АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTOR В МОДЕЛИРО-ВАНИИ ПРИНЯТИЯ ОПЕРАТИВНЫХ УПРАВЛЕНЧЕСКИХ

РЕШЕНИЙ

Павленко Л.А., доцент Харьковского на-ционального экономического универси-тета, г. ХарьковТарасов А.В., доцент Харьковского на-ционального экономического универси-тета, г. Харьков

Оперативный анализ информации о деятельности предприятийлюбой формы собственности, вида и масштаба деятельности являетсяосновой принятия, как оперативных, так и стратегических управленче-ских решений.

Обучение вопросам анализа данных студентов направления «Ком-пьютерные науки» на кафедре информационных систем ХНЭУ ориенти-ровано на ведущую роль эксперта, как аналитика или лица принимающе-го решение (ЛПР) в диалоге с системой поддержки принятия решений(СППР). СППР рассматривается как интерактивная прикладная система,которая обеспечивает конечного пользователя, быстрым, удобным дос-тупом к данным и моделям с целью принятия решений в сложных ситуа-циях [1]. При этом конечных пользователей СППР относят к одной изтрех категорий: низшее, среднее и высшее звено руководящих работни-

Page 45: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

45

ков. Первые используют, как детализированные, так и слабо агрегиро-ванные данные. Вторые используют слабо и высоко агрегированныеданные, относящиеся к сфере деятельности отдельного подразделения,для принятия тактических решений. Третьи использует высоко агрегиро-ванные данные, отображающие деятельность организации в целом, дляпринятия стратегических решений [2].

Моделирование процедур принятия решений неразрывно связанос концепцией OLAP – технологии обработки данных, сформулированнойЕ. Коддом и связанной с ней проблемой организации баз данных [3].Изучение вопросов проектирования баз данных (БД) на кафедре ориен-тировано на принцип разделения базы на транзакционную и аналитиче-скую компоненты.

Транзакционной часть БД является первым шагом в создании хра-нилища данных и используется для разработки разнообразных информа-ционных модулей учета выполнения тех или иных бизнес-процессов.Характерными чертами транзакционной базы являются:

1. реляционная структура (преимущественно);2. накопление значительных объемов фактических данных;3. выполнение операций добавления, удаления, редактирования

записей;4. отсутствие агрегированных (вычисленных) данных.Аналитическая часть БД используется при выполнении оператив-

ного анализа информации и разработке моделей для систем поддержкипринятия решений. Характерными чертами аналитической БД являются:

1. многомерная структура (поддержка моделей: MOLAP, ROLAP,HOLAP);

2. хранение агрегированных данных;3. отсутствие операций удаления и редактирования агрегатов дан-

ных и накопление их, как правило, по хронологии.Сегодня для моделирования бизнес-процессов и разработки схем

данных существует множество CASE-инструментов. На этапе, предше-ствующем разработке схемы данных, связанном с описанием бизнес-процессов, используются пакеты: структурного моделирования BPwin,объектно-ориентированного моделирования Rational Rose, ARIS и дру-гие.

При разработке логической и физической схем данных использу-ются такие пакеты, как ERwin, Oracle Designer, Visio и множество дру-гих. Инструментальная среда разработки многомерных моделей являетсянеотъемлемой частью любой мощной СУБД. Но далеко не все фирмымогут позволить себе приобретение и поддержку легальной версии тако-го инструмента как Oracle Designer. Особую актуальность для фирм ма-

Page 46: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

46

лого и среднего бизнеса имеет вопрос использования недорого профес-сионального инструмента, обладающего средствами обмена данными ирезультатами моделирования с широко распространенными инструмен-тами MS Office.

Кроме того, изучение студентами такого инструментария позволя-ет приобрести навыки и достичь необходимого уровня компетенции ввопросах манипулирования данными и многомерного анализа. Такимпростым и удобным в использовании инструментом является аналитиче-ская платформа Deductor [4].

В данной работе приведено сравнение возможностей различныхOLAP-схем и инструментов организации хранения и анализа данных напримере исследования популярности у покупателей продукции различ-ных фирм-производителей. Результаты анализа необходимы руководствуторгующей организации для принятия решений о дальнейшем сотрудни-честве с фирмами-производителями.

Подобные задачи решаются в ходе проведения лабораторных ра-бот со студентами. В данном случае решение выполнено средствами ER-win, MS Access, MS Excel и Deductor Academic.

Даны результаты фиксации сумм платежей, выручаемых торгую-щей организацией от ежедневных продаж продукции трех фирм-производителей: «АРГО», «НОВЬ», «БЛЕСК». Данные накапливались втечение нескольких лет в ROLAP-модели «Снежинка». Учет выполняет-ся по разным производителям, годам, месяцам, дням недели, конкретнымдатам. Причем продажи осуществляются ежедневно, без выходных.

Схема данных ROLAP, разработанная в среде ERwin, приведена нарис. 1. Та же схема, полученная инструментом прямого инжинирингафизической модели данных пакета ERwin в среду MS Access, приведенана рис. 2.

В модели различаются таблицы измерений: Год, Месяц, День неде-ли, Дата, Фирма и таблица фактов: Платеж.

Достоинствами ROLAP-модели являются следующие.1. Возможность реализации в среде реляционной СУБД и выпол-

нения SQL запросов с последующим построением диаграмм играфиков анализа данных.

2. Модель позволяет выполнить операции «Подъема» и «Спуска»по измерениям и получить «Срез» данных по произвольно вы-бранным измерениям.

Page 47: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

47

Фирма

Код фирмы

Фирма

Дата

ДатаКод дня недели (FK)

Примечания

День недели

Код дня недели

Год (FK)Код месяца (FK)День недели

Год

Год

Примечания

Месяц

Год (FK)Код месяца

Месяц

Платеж

Дата (FK)Код дня недели (FK)Код фирмы (FK)

Сумма платежа, Є

Рис. 1. Схема данных ROLAP в среде ERwin (нотация IDEF1X)

Рис. 2. Схема данных ROLAP в среде Access

Например, зафиксировав определенный год и выполнив операциюестественного соединения таблиц Фирма, Платеж, Дата, День недели,Месяц, можно получить информацию о суммах, вырученных от реализа-ции продукции по датам и фирмам за все дни недели и месяцы этого го-да.

Недостатком модели является (особенно это касается календарядат) избыточность данных. Например, в таблице Месяц дублируются на-именования месяцев, в таблице День недели дублируются наименованиядней недели. Цепочка таблиц Год, Месяц, День недели, Дата представ-ляют собой «древовидный» громоздкий календарь, неудобный, как приразработке структуры, так и в процессе работы с ним. В отличие от негокалендарь, ориентированный на реляционную модель, состоит из норма-лизованных таблиц и позволяет выполнять все операции поиска и фик-сации необходимых дат.

Page 48: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

48

Альтернативой ROLAP является кубическая модель. Простым,доступным и удобным средством построение такой модели является ин-струмент MS Excel «Сводная таблица».

Результат соединения таблиц схемы рис. 2 был экспортирован всреду Excel. На рис. 3 представлен фрагмент полученной по этим дан-ным сводной таблицы. Модель позволяет фиксировать: год, месяц, дату,день недели, фирму, как в отдельности, так и поочередно, по желаниюпользователя, с целью анализа результатов фильтрации данных и приня-тия управленческих решений.

На рис. 4 приведена соответствующая этой таблице диаграмма дляянваря 2010 года, которая перестраивается при изменении фиксации из-мерений. Можно поочередно фиксировать: год, месяц, дату, день недели,фирму и анализировать результаты выбора данных.

Рис. 3. Фрагмент сводной таблицы в среде Excel

Page 49: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

49

Недостатком инструмента Excel «Сводная таблица» является от-сутствие возможности быстрого транспонирования матрицы данных, какна уровне таблицы, так и на уровне диаграммы, то есть выполнения опе-рации «Вращение куба», что замедляет процесс анализа данных.

Рис. 4. Диаграмма, построенная по сводной таблице данных (рис. 3)

Для построения многомерной модели «Куб» средствами DeductorAcademic данные таблицы рис. 2 были сохранены как текстовый файл иимпортированы в среду пакета.

На рис. 5 приведен результат построения куба в среде DeductorStudio Academic.

OLAP-инструментарий аналитической платформы Deductor прост,понятен и удобен, как в процессе построения модели, так и в процессеанализа данных.

1. По желанию пользователя можно анализировать данные в са-мом кубе и во вспомогательной таблице детализации, отра-жающей данные определенных ячеек куба.

2. Структуру куба можно перестраивать в процессе анализа.3. Диаграмма для данных куба оперативно вызывается на одном

листе с данными (рис. 6).4. Deductor позволяет выполнять все необходимые операции ана-

лиза данных: «Подъема», «Спуска», «Вращения» (транспониро-вание матрицы данных), «Среза». Причем транспонировать

Page 50: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

50

матрицу можно как в поле сводной таблицы, так и поле диа-граммы, что повышает оперативность анализа.

5. Возможно выполнить экспорт результатов моделирования вWord, Excel, сохранить в формате HTML.

Рис. 5. Результат построения куба в аналитической платформе Deductor

Page 51: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

51

Рис. 6. Диаграмма анализа данных

В результате выполнения вращения куба и фильтрации данных надиаграмме (рис. 7) отражены платежи за приобретенную продукцию ввоскресные и субботние дни января 2010 года, сгруппированные пофирмам.

Рис. 7. Диаграмма анализа отфильтрованных данных в транспонирован-ной матрице

Page 52: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

52

Полученная модель позволяет аналитику торгующей организациисделать вывод о том, что продукция фирмы «НОВЬ» пользуется боль-шим спросом у покупателей и приносит более стабильный доход, чемпродукция фирм «АРГО» и «БЛЕСК». И в выходные дни продукцияфирмы «НОВЬ» пользуется большим спросом. Модель позволяет анали-зировать более удачные дни недели, месяцы и годы реализации продук-ции разных фирм и делать соответствующие организационные выводы.

В результате проведения лабораторных работ студенты приобре-тают навыки и умения в выполнении операций анализа и принятияуправленческих решений на основе многомерной организации данных.

Несомненные достоинства средств построения OLAP-моделей ана-литической платформы Deductor позволяют эффективно использовать еекак на занятиях со студентами, так и в качестве рабочего инструментааналитиков фирм различных видов и уровней деятельности.

Литература1. Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, плани-

рование решений в экономике. — М.: Финансы и статистика,2002. – 368 с.

2. Лямец В.И., Тевяшев А.Д. Системный анализ. – Харків: ХНУРЕ,2004. – 448 с.

3. Павленко Л.А. Корпоративні інформаційні системи. Навчальнийпосібник. – Харків: Вид. ”ІНЖЕК”, ХНЕУ, 2005. – 260 с.

4. http://www.basegroup.ru/download/deductor/.

ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫDEDUCTOR ПРИ ИЗУЧЕНИИ УЧЕБНОЙ ДИСЦИПЛИНЫ «ИН-

ФОРМАЦИОННЫЕ АНАЛИТИЧЕСКИЕ СИСТЕМЫ»

Александрова В.А., старший препода-ватель Тверского филиала Московскогогосударственного университета эконо-мики, статистики и информатики, г.Тверь

На всех уровнях управления современными компаниями актуаль-ной является поддержка принятия своевременных и качественныхуправленческих решений. Использование в работе современных техно-логий поддержки принятия решений позволяет снизить риски, связанныес принятием необоснованных решений, корректировать тактику и стра-

Page 53: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

53

тегию поведения на рынке в условиях быстро меняющейся ситуации.Внедрение информационно-аналитических систем помогает в решенииэтой задачи, обеспечивая возможность всестороннего анализа бизнеса,финансового планирования, прогнозирования, получения консолидиро-ванной отчетности.

Специалисты в различных областях (маркетинг, менеджмент, ан-тикризисное управление, финансы и кредит и др.) должны имеет пред-ставление о содержании аналитической работы и владеть ее основнымнавыками. В связи с этим при подготовке специалистов в высших учеб-ных заведениях актуальным является учебный курс «Информационныеаналитические системы».

В ТФ МЭСИ в соответствии с учебным планом на изучение курса«Информационные аналитические системы» отводится 32 часа (16 часов– лекции, 16 часов – практические занятия). Дисциплина изучаетсястудентами 3 и 4 курсов (в зависимости от специализации).

Согласно учебной программе целью изучения дисциплины являет-ся получение сведений о проблематике «автоматизации анализа инфор-мационной подготовки принятия управленческих решений с использо-ванием современных инструментальных средств широкого применения испециализированных пакетов прикладных программ, освоение техноло-гий оперативного и интеллектуального анализа данных, отражающихдеятельность в различных предметных областях»1.

В процессе изучения дисциплины студенты знакомятся с техноло-гиями анализа, принципами и системами сбора и повышения качестваисходных данных для анализа и последующего принятия решений,структурами информационных хранилищ, комплексами инструменталь-ных средств, поддерживающих технологии анализа данных.

При изучении дисциплины «Информационные аналитические сис-темы» используется академическая версия аналитической платформыDeductor, разработанная компанией BaseGroup Labs.

ТФ МЭСИ является партнером компании BaseGroup Labs в областиобразовательных программ.

Преподаватели вузов, обучающиеся по партнерской образователь-ной программе компании, имеют возможность использовать в учебномпроцессе отдельные методические материалы для лабораторных практи-кумов и дополнительные бизнес-задачи с исходными данными. Эти ма-

1 Рабочая учебная программа дисциплины «Информационные аналитические системы», 2008.

Page 54: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

54

териалы размещаются в специальном разделе для вузов-партнеров насайте компании. Необходимо подчеркнуть, что это помогает в методиче-ской организации учебного курса, совершенствовании его теоретическо-го и практического наполнения.

Также имеется возможность свободного доступа к размещеннымна сайте компании теоретическим материалам по вопросам анализа дан-ных. Примеры применения реализованных в Deductor аналитическихтехнологий для решения реальных бизнес-задач приводятся в разделе«Практика анализа» (http://basegroup.ru/library/practice/). При изучениидисциплины «Информационные аналитические системы» студентам ре-комендуется знакомиться с этими и другими материалами сайта компа-нии (http://www.basegroup.ru/). В процессе изучения дисциплины налекциях излагаются теоретические вопросы курса в соответствии сучебным планом. На практических занятиях студенты выполняют зада-ния по созданию и наполнению хранилища данных, извлечению инфор-мации из хранилища; знакомятся с реализованными в аналитическойплатформе Deductor технологиями OLAP. Необходимо отметить, чтоDeductor отличается высококачественным дружественным интерфейсоми содержательной справочной системой, что играет немаловажную рольпри обучении студентов. Следует также обратить внимание на встроен-ный в Deductor механизм визуализации, обеспечивающий удобное пред-ставление результатов анализа с точки зрения их интерпретации.

В рамках лекционного курса и практикума большое вниманиеуделяется технологиям Data Mining.

В процессе чтения лекций освещаются теоретические основы ин-теллектуального анализа данных и рассматриваются основные классызадач, решаемых методами Data Mining. При выполнении практическихзаданий студенты используют встроенные в Deductor инструментальныесредства для решения задач классификации, кластеризации, поиска ас-социативных правил, прогнозирования временных рядов, прогнозирова-ния на основе линейных и нейросетевых моделей. Причем в процессерешения конкретной задачи строятся несколько моделей с различнымипараметрами. Такой прием представляется методически обоснованным,поскольку важным этапом построения аналитических решений являетсяоценка качества моделей. Студентами анализируются построенные мо-дели, оценивается их качество с помощью таблиц сопряженности илидиаграмм рассеяния, делаются аргументированные выводы по выборумодели. Следующим этапом является предложение и обоснование управ-ленческих решений, которые можно принять, используя результаты ана-лиза. В процессе выполнения заданий практикуется совместное обсуж-

Page 55: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

55

дение наиболее интересных или сложных моментов по определенной те-матике.

Среди тем, изучаемых в курсе «Информационные аналитическиесистемы» актуальной, по моему мнению, является тема, посвященнаявопросам качества данных, используемых для разработки аналитическихрешений. На лекции даются понятия качества данных и методы их оцен-ки; обосновывается необходимость предварительной обработки исход-ных данных для улучшения их качества; рассматриваются инструментыпредобработки, реализованные в Deductor, и особенности их использо-вания. Это материалы в дальнейшем используется при выполнении прак-тических заданий в процессе изучения различных разделов курса. Так,например, при решении задач прогнозирования строятся несколько ней-росетевых моделей и оценивается их качество. Студенты проводят срав-нительный анализ моделей. При этом имеется возможность убедиться втом, что наличие аномальных значений, дубликатов и противоречийприводит к построению моделей ненадлежащего качества; использова-ние таких моделей, соответственно, оказывает влияние на снижениедостоверности результатов анализа.

Практическое использование аналитической платформы Deductorпри изучении дисциплины «Информационные аналитические системы»в сочетании с необходимым уровнем теоретической подготовки способ-ствует приобретению навыков аналитической работы, что является важ-ным для будущих специалистов.

ПРИМЕР ИСПОЛЬЗОВАНИЯ DEDUCTOR В ПОДГОТОВКЕСПЕЦИАЛИСТОВ ПО ПРИКЛАДНОЙ ИНФОРМАТИКЕ В ИГЭУ

Баллод Б.А., доцент Ивановского госу-дарственного энергетического универ-ситета, г. Иваново, Муромкина А.В.,к.м.н., врач-кардиолог, Ковалев Д.Е.,студент ИГЭУ

Аналитическая платформа Deductor используется в Ивановском го-сударственном энергетическом университете в учебном процессе подго-

Page 56: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

56

товки специалистов по прикладной информатике с 2005 года. Студентыизучают основы использования платформы в специальном разделе (ин-формационно-аналитические системы) курса «Информационные систе-мы». В дальнейшем они активно используют полученные знания привыполнении курсовых и дипломных проектов, а также при выполнениитворческих научно-исследовательских работ.

В качестве примера рассмотрена информационная система меди-цинской диагностики, а именно – прогнозирования восстановления рит-ма у больных с фибрилляцией предсердий.

К наиболее трудоемким задачам медицины относятся постановкадиагноза и выбор курса лечения. Традиционно врачи решали эти задачи,полагаясь лишь на собственную интуицию и опыт. Сегодня в их арсеналвсе чаще входят способы, основанные на высоких технологиях и позво-ляющие обрабатывать большие потоки информации. Для этой цели при-меняются разнообразные модели, основанные на применении техноло-гии интеллектуального анализа данных (Data Mining): деревья реше-ний, нейронные сети, карты Кохонена и др.

Анализ вариабельности ритма сердца (ВРС) является неотъемле-мой частью обследования кардиологических больных. В последние годыпредпринимаются попытки оценки ВРС у больных с фибрилляциейпредсердий (ФП). Разброс кардиоциклов объясняется отсутствием еди-ного водителя ритма и особенностями атриовентрикулярного проведенияпри ФП.

Цель исследования: разработка интеллектуальной системы при-нятия решений о вероятности восстановления синусового ритма у боль-ных с фибрилляцией предсердий.

На базе Data Mining легко создавать советующие системы для ди-агностики заболеваний, которые используют накопленные данные кли-нических исследований, автоматически выявляют значимые признаки имоделируют сложные зависимости между симптомами и заболеваниями.

Для проведения анализа была составлена обучающая выборка, со-держащая значения факторов ВРС пациентов кардиологического диспан-сера, объемом более 100. После исключения выбросов и пропусков объ-ем выборки, фрагмент которой представлен в табл. 1, составил N=86.

Page 57: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

57

Таблица 1Фрагмент обучающей выборки

ФИО Группа TP VLF LF HF RRNN SDNNfSDNNf\RRNNf

Пет*** A 11 379 1 611 2 094 7 675 704 131 0,186Афе**** A 21 513 1 726 4 568 15 219 517 149 0,288Ста***** B 29 072 2 175 6 572 20 325 709 190 0,268Фед**** A 32 528 5 393 9 532 17 602 903 195 0,216

Абр****** B 24 624 2 124 6 790 15 710 769 175 0,228и т.д.

Обозначения в таблице:· Группа А – пароксизмальная форма нарушения ритма;· Группа В – постоянная форма нарушения ритма;· TP – общая мощность спектра ритмограммы;· VLF – очень медленные волны;· LF – медленные волны;· HF – быстрые волны;· RRNN – средняя продолжительность интервала между кардио-

циклами;· SDNNf – стандартное отклонение, квадратный корень из раз-

броса интервалов RR;· SDNNf \RRNNf – отношение стандартного отклонения к сред-

ней продолжительности интервала между кардиоциклами.Деревья решений как вариант решения проблемы. Задачи клас-

сификации с большим успехом решаются одним из методов Data Mining– при помощи деревьев решений. Деревья решений – классификатор, по-лученный из обучающего множества, содержащего объекты и их харак-теристики, на основе обучения. Дерево состоит из листьев, указывающихна класс, и узлов, содержащих правила классификации. Оно может ис-пользоваться для классификации объектов, не вошедших в обучающеемножество. Получаемая модель – это способ представления правил в ие-рархической, последовательной структуре, где каждому объекту соот-ветствует единственный узел, дающий решение.

Построение дерева решений по алгоритму C4.5 реализовано соот-ветствующим модулем аналитической платформы Deductor, диалоговоеокно которого показано на рис. 1.

Page 58: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

58

Рис. 1. Пример дерева решений

Полученную модель можно использовать при определении классазаболевания, к которому следует отнести вновь поступившего больного.

В алгоритме C4.5 каждый узел дерева решений может иметь не-скольких потомков. Для выбора оптимального разделяющего правилаиспользуется функция оценки качества разбиения. Оценка качества раз-биения формализована в индексе Gini. Если набор данных Т содержитданные n классов, тогда индекс Gini определяется как:

å=

-=n

iipTGini

1

21)( ,

где pi – вероятность (относительная частота) класса i в T.На рис. 2 представлены ошибки классификации на обучающей вы-

борке объемом N=86. Количество ошибок в группе А = 5, в группе В = 3,что составляет менее 10% от числа диагностируемых. Такой результатвполне пригоден для практического использования.

Page 59: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

59

0

10

20

30

40

50

60

А В

группа

Набл

Ошиб

Рис. 2. Результат тестирования модели

Для практического применения модель дерева решений была реа-лизована средствами MS Excel популярного офисного пакета MS Office.Интерфейс программы приведен на рис. 3.

Рис. 3. Диалоговое окно программы «ДИСК_З»

Page 60: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

60

Технология диагностирования больных в разработанной информа-ционной системе предусматривает следующие этапы.

Этап 1. С помощью программы «Поли-спектр» производится за-пись и первичный анализ кардиограммы больного (рис. 4).

Отделение: кардио - 3Пациент: Ива*****, 44 года, 180 см, 80,0 кг, ИМТ: 24,7 (норма)Предварительный диагноз: ГБ 2ст. Персист. ФП (перед ЭИТ).Тип обследования: ВРС от 18.08.2009Прибор: Поли-Спектр-8/EX

Фоновая записьПоложение пациента при записи: лежа. Продолжительность записи

сердечного ритма 5 мин.(300 с). Зарегистрировано комплексов QRS: 366.Ритм ФП. Средняя ЧСС: 73 уд./мин. – нормальная частота сердеч-

ного ритма.

Ритмограмма Спектрограмма

Частота, Гц0,40,350,30,250,20,150,10,05

Ам

плит

уда,

мс^

2/Гц

* 1

000 700

600

500

400

300

200

100

0

Показателивременного анализа спектрального анализа Структура спектра

Параметр Значение Параметр Значение Параметр Значение

R-R min, мс 465 TP, мс^2 34251 %VLF 8,42

R-R max, мс 1667 VLF, мс^2 2883 %LF 19,9

RRNN, мс 819 LF, мс^2 6830 %HF 71,6

SDNN, мс 213 HF, мс^2 24538

RMSSD, мс 316 LF norm, n.u. 21,8

pNN50, % 85,8 HF norm, n.u. 78,2

CV, % 26,1 LF/HF 0,278

Рис. 4. Фрагмент протокола анализ кардиограммы больного

Этап 2. Данные предварительного анализа заносятся в диалоговуюформу программы «ДИСК_З», представленную на рис. 3.

Время4:103:202:301:400:500:00

R-R

, с

1,61,41,21,00,80,60,40,20,0

Page 61: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

61

Этап 3. После выполнения расчета в окне «прогноз» выводитсярешение интеллектуальной системы: «ВОССТАНОВЛЕН» (или«АРИТМИЯ») (рис. 3), что означает прогнозируемую оценку восстанов-ления ритма сердца после соответствующего лечения. Такое решениепринято, потому что в процессе диагностирования по результатам пред-варительного анализа больной был отнесен к группе «В» – с пароксиз-мальной формой нарушения ритма сердца, т.е. с исходом в восстановле-ние ритма.

Одобренное врачом решение заносится в базу данных, котораяслужит обучающей выборкой для дальнейшей корректировки моделиДерева с помощью аналитической платформы Deductor.

Этап 4. На основании предварительного анализа ВРС и решенияинтеллектуальной системы врач делает заключение о вероятности вос-становления синусового ритма у конкретного пациента с ФП.

Выводы.1. Методом интеллектуального анализа данных (Data Mining) на

основе алгоритма деревья решений аналитической платформы Deductorпостроена модель диагностирования формы ФП (пароксизмальная илипостоянная) и прогнозирования восстановления ритма у этих больных.

2. Модель реализована в виде программного продукта ДИСК_З, иможет использоваться в виде интеллектуального помощника врача-кардиолога.

Литература1. Паклин Н.Б., Орешков А.И. Бизнес-аналитика: от данных к зна-

ниям(+CD). – СПб.: Питер, 2009.2. Михайлов В.М. Вариабельность ритма сердца. – Иваново: Ней-

роСофт, 2000.3. Баллод Б.А., Чайкин М.О. Разведка данных в среде Deductor. –

Иваново: ГОУ ВПО ИГЭУ, 2008.

Page 62: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

62

ПРОБЛЕМЫ ПРИМЕНЕНИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГОАНАЛИЗА ДАННЫХ В СИСТЕМАХ ПОДДЕРЖКИ ПРИНЯТИЯ

РЕШЕНИЙ

Болотова Л.С., профессор, КузнецовС.Н., студент, МИРЭА, Демина Н.Н.,студент, РГУИТП

Наш интерес к интеллектуальному анализу данных (ИАД) начал-ся со знакомства с монографией по бизнес-аналитике [1], выпущенной всередине 2009 года.

В МИРЭА читаются достаточно серьезные курсы по теории при-нятия решений и системам искусственного интеллекта. При этом акцен-тируется внимание на проблемы разработки Баз Знаний (БЗ) для системподдержки принятия решений (СППР). В основу курсов положены ав-торские разработки – метод ситуационного анализа и проектирования БЗили модели предметной области (МПрО) произвольной природы [2, 3, 4].На основе метода разработана сквозная технология, программные сред-ства, обеспечивающие построение БЗ СППР и их реализацию. Техноло-гия предполагает, что в результате направленной работы с экспертамипроектируется концептуальная модель предметной области, которая за-тем переводится в объектно-ориентированное представление, так назы-ваемую понятийно-объектную модель. Она является основой для авто-матической генерации БЗ в любом из нужных представлений: продукци-онном, фреймовом, гибридном – в зависимости от используемой длявывода решений инструментальной системы логического вывода.

Как известно, СППР является вершиной айсберга любой автомати-зированной системы управления, информационно и программно связан-ной через Хранилище Данных (ХД) с системой Баз Данных (БД), обес-печивающих функционирование триады: Данные от объекта управле-ния и внешнего мира → ХД → СППР.

Однако в настоящее время эта триада разорвана на две практиче-ски независимые части: Данные и система их обработки, включая интел-лектуальный анализ данных и, собственно, СППР, тоже со своими ин-формационными и программными средствами. На наш взгляд, такая си-туация является тормозом для развития как теоретических, так и инстру-ментальных средств этих частей, как единого целого.

Именно этот аспект стал основой нашего интереса к методамИАД. Мы занимались СППР без опоры на реальные потоки данных, а

Page 63: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

63

для БЗ не предусматривалась возможность автоматического её пополне-ния (обучения) за счет скрытых знаний, выявляемых в результате их ана-лиза.

В этой связи мы задались рядом вопросов, на которые пытаемсясегодня ответить:

· каким образом формировался документооборот предприятий и,соответственно, состав показателей и БД (стихийно – историче-ски или на основе сознательного (целевого) проектирования);

· как руководители распознают проблемные ситуации на пред-приятиях;

· в какой мере потребности ЛПР удовлетворяются существую-щей отчетностью;

· какой должна быть система показателей и отчетности предпри-ятия, для того, чтобы они наилучшим образом соответствовалитребованиям руководителей разных уровней;

· какие запросы могут поступать от системы поддержки принятиярешения;

· как должно быть организовано ХД, исходя из потребностейЛПР.

Известно, что ХД – разновидность систем хранения, ориентиро-ванная на поддержку процесса анализа данных, обеспечивающая целост-ность, непротиворечивость, и хронологию данных, а так же высокуюскорость выполнения аналитических запросов [1]. Хранилище данныхмаксимально обеспечивает возможность обработки и анализа данных,выявление закономерностей и правил, которые в свою очередь являютсянеобходимыми критериями точности работы СППР.

Основой хранилища данных является некий процесс, модель кото-рого строится в хранилище (полный спектр необходимых объектов,субъектов, их свойств, действий и компонентов действий). Здесь возникряд вопросов по поводу технологии проектирования самих ХД:

· каким образом формируется структура ХД: как набираются из-мерения, атрибуты, процессы;

· как технология проектирования ХД поддерживается теоретиче-ски и т.д.

Мы пришли к выводу, что общий подход к определению структу-ры ХД – числа процессов, связей между процессами, числа измерений иатрибутов, отсутствует, что данная проблема теоретически разработанаслабо и в данный момент построение хранилища данных можно отнестик искусству инженера-аналитика.

Page 64: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

64

Мы начали с того, что в курс по системам искусственного интел-лекта, был введен раздел по ИАД, включающий методы Data Mining, вчастности, методы кластеризации, классификации и ассоциации, а такжеметод ДСМ – автоматического порождения гипотез, разработанный Фин-ном В.К. [5, 6, 7]. Соответственно, были разработаны методики и вари-анты проведения лабораторных работ по этим методам. А в качествеобучающих выборок из БД мы предлагали темы курсовых работ, кото-рые студенты выполняли в рамках курса по теории принятия решений.При этом они самостоятельно выбирали предметную область, определя-ли типы проблемных ситуаций, требующих принятия решений, строилимодель предметной области по нашей методике с помощью авторскихпрограммных средств и, в конце концов, создавали БЗ и прототип экс-пертной системы. Им предлагалось, исходя из концептуальной модели иБЗ, спроектировать основную систему показателей и необходимых БДдля обеспечения полного цикла функционирования СППР, т.е. всейтриады: Данные от объекта управления и внешнего мира → ХД →СППР. Во втором варианте, который был также поставлен и проверен налабораторных работах, состоял в том, что мы предлагали выполнитьраспознавание и классификацию конкретных объектов из обучающейвыборки путём построения прототипа нечеткой экспертной системы, азатем, используя методы построения дерева решений и ассоциации про-верить их достоверность. В итоге мы стремились к формированию устудентов навыков для оценки применимости различных методов ИАДи сознательного выбора наиболее подходящих в каждом конкретномслучае. Кроме того, такой подход обеспечивает формирование концепту-ального мышления и системного взгляда на проблему у студентов.

С использованием методов ИАД на материале лаборатории эпиде-миологической кибернетики НИИ им. Гамалея Н.Ф. выполнен проект поразработке информационного и программного обеспечения СППР дляпротиводействия распространению эпидемий посредством авиапасса-жирского трафика. Основная идея проекта состояла в сборе, подготовкеи обработке оперативных данных по авиапассажирскому трафику на ос-нове расписаний полетов самолетов по всем столицам мира пока толькона основе расписания полетов США1. Мы считаем эту работу очень ин-тересным опытом использования методов ИАД в составе СППР. Начатыеработы мы предполагаем продолжить и в следующем учебном году.Нужно добавить, что такого рода работы относятся к научно-исследовательским, и надеемся, что это поможет не только обогатить

1 См. соответствующую статью авторов Болотова Л.С., Боев Б.В., Демина Н.Н. в этомсборнике

Page 65: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

65

учебный процесс, но и воспитать молодых ученых с современным взгля-дом на важные проблемы человечества в целом.

Опыт работы одного года позволил нам уже сформулировать по-желания к разработчикам аналитической платформы Deductor:

· в академической версии желательно расширить число возмож-ных источников данных, текстового формата недостаточно;

· в документации желательно расширить теоретические основы ипрактические возможности по построению многомерных хра-нилищ данных;

· неплохо бы продумать создание единого обменного фонда БДдля решения различных типов задач: медицины, сельского хо-зяйства, производства, а не только по бизнесу и управлению.

Такой обмен между вузами мог бы существенно расширить и сти-мулировать работы по ИАД. И ещё одно пожелание. Может быть, ком-пания возьмет на себя опеку и помощь вузам в становлении научно-образовательных центров по бизнес-аналитике, т.е. созданию центров,ведущих коммерческую деятельность, помогающих в трудоустройствевыпускников. Очевидно, для этого должны быть разработаны соответст-вующие правовые основы.

Литература1. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к зна-

ниям. – СПб.: Питер, 2009. – 624 с.2. Болотова Л.С. Модели представления знаний в системах искус-

ственного интеллекта. Ч. 1. Теоретические основы искусствен-ного интеллекта и формальные модели: Учеб. пособие. – М.:РГУИТП, 2009. – 129 с.

3. Болотова Л.С. Модели представления знаний в системах искус-ственного интеллекта. Ч. 2. Неформальные модели: Учеб. посо-бие. – М.: РГУИТП, 2009. – 130 с.

4. Болотова Л.С., Смольянинова В.А., Смирнов С.С. Концептуаль-ное проектирование модели предметной области при помощипрограммных систем разработки баз знаний для интеллектуаль-ных систем поддержки принятия решений // Наукоемкие техно-логии. – М.: Радиотехника, 2009. – Т.10. – №8. – С. 23–28.

5. Арский Ю.М., Финн В.К. Принципы конструирования интел-лектуальных систем // Информационные технологии и вычисли-тельные системы. – 2008. – № 4. – С. 95–127.

6. Аншаков О.М. Об одном подходе к порождению гипотез вДСМ-методе // Десятая национальная конференция по искусст-венному интеллекту с международным участием КИИ-2006: Тр.конф. – М: Физматлит, 2006.

Page 66: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

66

7. Получение знаний для формирования информационных образо-вательных ресурсов: Учеб. пособие для вузов / А.Д. Иванников[и др.]. – М.: Информика, 2008. – 438 с.

ОБ ИНТЕГРАЦИИ DEDUCTOR С ДРУГИМИ ИНФОРМАЦИОН-НЫМИ СИСТЕМАМИ

Носков В.В., доцент, Прокопенко Н.Ю.,доцент,, Рабынина О.В., студент, Ни-жегородский государственный архи-тектурно-строительный университет,г. Нижний Новгород

Современные тенденции создания интегрированных автоматизиро-ванных систем включают разные аспекты интеграции – интеграцию дан-ных, технологий и технических средств.

Технологии интеграции различных систем обработки данных былиреализованы еще в эпоху дисковых операционных систем. В качествепримера можно назвать такие интегрированные пакеты (распространяе-мые еще в СССР), как Open Access, Framework и др. Классическим при-мером современных интегрированных систем являются распространен-ные пакеты MS Office и Open Office.

Интеграция данных (Data integration) – процесс объединения дан-ных из различных источников для получения их согласованного пред-ставления. В широком смысле – это процесс организации регулярногообмена данными между различными информационными системами (ИС)предприятия или организации. Проблема интеграции данных являетсянеотъемлемым аспектом проблематики развития информационной ин-фраструктуры и следуемого объекта (предприятия или организации).

В данной работе реализована интеграция информационных систем,имеющих разные специализации, но включающих в свои процессы обра-ботки данных идеологию реляционных структур данных. В качестве ба-зовых информационных систем используются СУБД MS Access [2], ана-литическая платформа Deductor Academic [1] и геоинформационная сис-тема MapInfo [3]. На базе этих трех систем строится информационно-аналитическая система (ИАС) анализа детской смертности по Нижего-родскому региону. Основная часть обработки информации выполняетсяв приложении СУБД MS Access, аналитическая обработка в DeductorAcademic, а графическая интерпретация результатов в MapInfo.

Разработанная интегрированная ИАС предназначена для комплекс-ного информационно-аналитического обеспечения информационной иметодической поддержки сотрудников организационно-методического

Page 67: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

67

отдела Нижегородской областной детской клинической больницы(НОДКБ), для повышения качества и оперативности принятия решенийпо проблемам детской смертности. Данную систему предполагается ис-пользовать в НОДКБ и её территориальных органах.

Цели создания системы:· повышение полноты и достоверности электронных баз данных

и данных статистической отчётности;· уменьшение трудозатрат, сокращение времени сбора и подго-

товки отчетных и аналитических материалов детской областнойбольницей;

· сокращение объема бумажного документооборота и улучшениекоординации совместной работы отделений НОДКБ и органовгосударственной статистики (ОГС) при подготовке аналитиче-ских материалов;

· совершенствование процедур оперативного анализа значенийпоказателей детской смертности Нижегородского региона, атакже моделирования и прогнозирования показателей смертно-сти и рождаемости.

Объектом автоматизации является система информационного взаи-модействия между подразделениями НОДКБ и ОГС. Информационноевзаимодействие осуществляется посредством предоставления ОГС ста-тистических данных НОДКБ, а также через получение оперативных дан-ных о детской смертности организационно-методическим отделомНОДКБ, данных из других отделений больницы и аккумуляции их вЦентрализованном хранилище данных.

В качестве исходной информации для ИАС были взяты данные запериод 1998-2008 гг. Данные представляют собой статистику рождаемо-сти за последние 10 лет и данные о смертности детей в возрасте от 0 до17 лет.

На рис. 1 приводится схема модели, описывающая потоки данных вИАС. Диаграмма потоков данных показывает внешние по отношению ксистеме источники данных, которые принимают информацию от систем,а также идентифицируют хранилища данных, к которым осуществляетсядоступ системы.

Анализ данной модели приводит к следующему составу подсис-тем АИС (рис. 2):

· подсистема сбора и хранения данных;· подсистема очистки и подготовки данных к анализу и построе-

нию аналитических моделей;· подсистема моделирования и прогнозирования;

Page 68: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

68

· подсистема аналитической отчетности и географического ото-бражения данных.

Рис. 1. Диаграмма потоков данных

Рис. 2. Подсистемы ИАС

ИАС предполагает повышение эффективности исполнения рабочихпроцессов организационно-методическим отделом путем сокращения

Подсистемасбора и хра-

нения данных

Подсистема очи-стки и подго-

товки данных канализу и по-

строению анали-тических моде-

лей

Подсистема мо-делирования и

прогнозирования

Подсистема ана-литической от-четности и гео-

графического ото-бражения данных

Page 69: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

69

непроизводительных и дублирующих операций, операций, выполняемых«вручную», оптимизации информационного взаимодействия участниковпроцессов.

ИАС предназначена для решения следующих основных задач:· сбор, интеграция, структурирование, хранение и ретроспектив-

ное накопление информации о детской смертности в хранили-ще данных, содержащем общую статистику о случаях леталь-ных исходов среди детей трех возрастных групп (младенческая,детская и подростковая) по районам нижегородской области занесколько лет;

· обработка, группировка данных и построение аналитическойотчетности;

· комплексный анализ проблемных вопросов с использованиемматематических, интеллектуальных методов и современныхинформационных технологий, получение агрегированных те-кущих и прогнозных оценок, как по отдельным причинам, таки по возрастным группам;

· нанесение полученных данных на карту Нижнего Новгорода иНижегородской области;

· комплексная оценка проблемы детской смертности в Нижего-родской области;

· информационно-аналитическое и информационно-справочноеобеспечение руководителей организационно-методического от-деления и руководителей смежных отделений детской област-ной больницы.

Подсистема сбора и хранения информации реализуется средства-ми СУБД MS Access и Deductor Academic. Существуют две идеологиихранения данных: базы данных и хранилища данных. База данных пред-назначена для хранения оперативных и статистических данных, которыеиспользуются в процессе подготовки аналитических отчетов. Данныехранятся в виде коллекции таблиц, где общие поля используются длясвязей. Эта часть системы реализована в СУБД MS ACCESS. Хранилищеданных – разновидность систем хранения. Это специально организован-ная база данных, ориентированная на решение задач анализа данных иподдержки принятия решений, обеспечивающая максимально быстрый иудобный доступ к информации, целостность, непротиворечивость и хро-нологию данных, а также высокую скорость выполнения аналитическихзапросов.

Назначение хранилища данных – своевременно обеспечить анали-тика всей информацией, необходимой для проведения анализа, построе-

Page 70: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

70

ния моделей и принятия решений. Хранилище данных реализовано набазе Deductor Academic.

Цель хранилища данных не анализ данных, а подготовка данныхдля анализа и их консолидация. Поэтому хранилище данных входит и вподсистему очистки и подготовки данных к анализу. Эта подсистемапредназначена для аудита данных, подготовки данных к анализу и по-строению аналитических моделей. Аудит данных включает в себя: про-верку и устранение дубликатов и противоречий, обработку пропусков,выявление выбросов и фильтрацию. Качество данных, которые собира-ются и консолидируются для анализа из различных источников, являетсяодной из самых больших проблем аналитических технологий. Недоста-точное внимание к проблеме качества данных способно свести на нет всепреимущества самых современных и мощных методов анализа, все уси-лия аналитиков и экспертов по созданию аналитических решений. С це-лью повышения качества данных используется комплекс методов и алго-ритмов, получивших название «очистка данных».

Подсистема моделирования и прогнозирования реализуется в инст-рументальной среде аналитической платформы Deductor Academic, кото-рый включает в себя универсальные мастера и обработчики, обеспечи-вающие импорт, обработку, построение моделей, визуализацию и экс-порт данных. Подсистема моделирования и прогнозирования предназна-чена для поиска функциональных и логических закономерностей в нако-пленной медико-статистической информации, для построения моделей иправил, которые объясняют найденные закономерности и прогнозируютизменение медико-статистических показателей, развитие медико-демографических процессов.

Автоматизированный процесс исследования тенденций, моделей ивзаимосвязей в данных включает в себя применение статистических ме-тодов и методов искусственного интеллекта для анализа исходной ин-формации и выявления скрытых закономерностей, которые не могутбыть обнаружены непосредственно или на интуитивном уровне.

На этапе анализа проверяется корреляция между факторами регион,причина, возраст неонатальный, группа возрастная, местность, местосмерти, масса тела. Расчет парной корреляции между факторами, кото-рые могут быть ранжированы (упорядочены) производят с помощьюрангового коэффициента Спирмена. Для пары признаков причина и воз-раст неонатальный, причина и возрастная группа было доказано сущест-вование корреляционной зависимости между факторами. В работе былтакже рассчитан коэффициент множественной корреляции по Кендаллу(коэффициент конкордации) и был сделан вывод, что зависимость междувсеми факторами в совокупности незначительная.

Page 71: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

71

Подсистема прогнозирования ИАС строит три модели: нейросете-вой прогноз временного ряда показателей детской смертности, прогно-зирование временного ряда с использованием парциальной обработки искользящего окна, прогнозирование временного ряда на основе линейнойрегрессии. Производится сравнений моделей и делаются выводы о том, спомощью какой модели получается наиболее точный прогноз. Лучшейоказалась модель прогноза временного ряда с использованием парциаль-ной обработки и скользящего окна, так как полученная разница междуфактическим значением детской смертности за 2009 год и полученнымпрогнозным значением всего 1 %. Аналогичным образом для показате-лей рождаемости было построено три модели прогноза. В случае прогно-зирования рождаемости лучшей является первая модель – нейросетевойпрогноз временного ряда (разница между прогнозным и фактическимзначением – менее 1 %).

Для представления результатов анализа и прогнозирования для ко-нечных пользователей используется подсистема аналитической отчетно-сти и географического отображения данных. Целью создания подсисте-мы отображения данных является визуализация данных: получение ана-литических отчетов OLAP-средствами и карт с помощью геоинформаци-онных систем (ГИС).

Было создано ряд отчетов средствами Access (по требованию заказ-чика) и в Deductor. Аналитическая отчетность в Deductor обеспечиваетбыстрый доступ к результатам анализа, не требуя от пользователя навы-ков анализа данных и работы в системе. При работе с отчетами пользо-ватель не видит сценарий анализа данных, ему доступны только конеч-ные результаты (выдержки) из работы аналитика. Отчеты построены ввиде древовидного иерархического списка, каждым узлом которого яв-ляется отдельный отчет или папка, содержащая несколько отчетов. Каж-дый узел дерева отчетности связан со своим узлом в дереве сценария.Для каждого отчета были построены OLAP-кубы, а также настроеныдругие способы отображения: гистограммы, кросс-таблицы, кросс-диаграммы.

Как средство визуализации в подсистеме отображения данныхиспользуются также геоинформационные системы (ГИС) (рис. 3). ГИСпредназначены для сбора, хранения, анализа и графической визуализа-ции пространственных данных и связанной с ними информации о пред-ставленных в ГИС объектах. ГИС предоставляет набор средств созданияи объединения баз данных с возможностями их географического анализаи наглядной визуализации в виде различных карт, графиков, диаграмм,прямой привязке друг к другу всех атрибутивных и графических данных.Геоинформационные системы – многофункциональные средства анализа

Page 72: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

72

сведенных воедино табличных, текстовых и картографических данных.Подсистема географического отображения реализована средствами гео-информационной системы MapInfo. ГИС расширяет возможности систе-мы и позволяет упростить аналитические работы с координатно-привязанной информацией.

Главная форма ИАС, реализованная средствами СУБД MS Access,выполняет функцию интеграции приложений и является главной пане-лью управления, представляя запуск систем MS Access, Deductor,MapInfo, а также работу с подсистемами.

Рис. 3. Тематическая карта – относительные показатели детскойсмертности по регионам Нижегородской области

Page 73: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

73

Литература1. Карпузова В.И. Системы поддержки принятия решений на базе

решений аналитической платформы Deductor Studio Academic5.1: учеб. Пособие / Карпузова В.И., Скрипченко Э.Н., Страто-нович Ю.Р., Чернышева К.В.. – М.: ФГОУ ВПО РГАУ – МСХА,2010 – 75 с.

2. Джон Вескас. Эффективная работа с Microsoft Access 2003. –СПб.: Питер, 2005. – 1168 с.

3. Рекомендации по пользованию системой MapInfo 5.0 –http://www.map-info.ru.

Page 74: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

74

СЕКЦИЯ«АКТУАЛЬНЫЕ ЗАДАЧИ

БИЗНЕС-АНАЛИТИКИ И ИХ РЕШЕНИЕАЛГОРИТМАМИ DATA MINING»

Page 75: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

75

МЕТОДЫ DATA MINING В СИСТЕМАХ КОНТРОЛЯ СОСТОЯ-НИЯ СЛОЖНЫХ ТЕХНИЧЕСКИХ СИСТЕМ

Потюпкин А.Ю., начальник ка-федры Военной академии РВСНимени Петра Великого, г. Москва

Сложные системы сегодня представляют уже не только теоретиче-ский интерес. Сложными являются практически любые системы, спо-собные к непредсказуемому для наблюдателя поведению, обладающиетем, что принято называть скрытыми закономерностями поведения.Сложные системы нелинейны, они способны к необратимому качествен-ному развитию, обладают свойствами самоорганизации и саморазвития.Такая система для наблюдателя всегда остаётся «вещью в себе». Пред-сказать её поведение абсолютно точно невозможно. Как правило, к такимсистемам относят эргатические системы, в которых очень велико влия-ние человеческого фактора. Однако и технические системы, сконструи-рованные как «простые», зачастую ведут себя как сложные системы.Помимо «больших» технических систем, в которых число подсистемочень велико, а состав разнороден, сложными являются и относительнонебольшие системы, обладающие встроенными средствами ЭВТ с разви-тым программным обеспечением. Такие системы, функционируя боль-шей частью по известным алгоритмам, и являясь для наблюдателя доста-точно «простым» объектом, вдруг начинают вести себя непредсказуемо ибыстро становятся «сложными». На практике всякая нештатная ситуацияможет быть отнесена к проявлениям сложности системы.

Управление сложной системой, как и любой системой, предпола-гает контроль её состояния, который по своей сути является обратнойсвязью в контуре управления. В общем виде процесс определения техни-ческого состояния состоит из трех последовательных и взаимосвязанныхэтапов:

1. накопления и обобщения априорной информации о системе;2. получения контрольно-диагностической информации о системе;3. разработки и применения правил принятия решений о техниче-

ском состоянии.Структура процесса контроля в целом представлена на рис. 1.

Page 76: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

76

Рис. 1. Структура процесса контроля

Конечной целью этапа накопления и анализа априорной информа-ции о системе является создание своего рода среднего эталонного образакаждого класса технического состояния.

Этап получения контрольно-диагностической информации о сис-теме имеет целью получение апостериорной информации посредствомпроизводства измерений контролируемых параметров и представлениярезультатов измерений на языке словаря признаков контроля.

Заключительным этапом является этап применения разработанныхна первом этапе правил принятия решения о техническом состоянии, илиэтап «распознавания» образов технических состояний в результате ком-позиции априорной и апостериорной информации о системе. Этот этапявляется наиболее сложным и ответственным, так как его результатом

Накопление и обобщение априорной информацииоб объекте контроля

§ формирование алфавита классов технических состоя-ний

§ выбор модели объекта контроля (выбор и обоснованиесловаря признаков контроля)

§ описание алфавита классов моделями объекта контро-ля

§ разработка решающих правил распознавания техниче-ских состояний

Получение и обработка контрольно-диагностическойинформации об объекте контроля

§ производство измерений§ предварительная обработка§ первичная обработка§ вторичная обработка

· идентификация модели объекта контроля· определение оценок признаков контроля

Применение правил принятия решенияо техническом состоянии

· выбор варианта композиции априорной и апостериор-ной информации о технических состояниях объектаконтроля

· вычисление показателя эффективности контроля· принятие решения о техническом состоянии

Page 77: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

77

является заключение о техническом состоянии системы. Данный этапрассматривают как этап анализа контрольно-диагностической информа-ции с целью получения заключений о состоянии системы.

В штатных ситуациях, то есть ситуациях, предусмотренных экс-плуатационно-технической документацией, задача анализа состояния яв-ляется обычной задачей классификации. Однако в нештатных ситуациях,когда налицо проявление признаков сложности системы – нелинейно-сти, проявления скрытых тенденций поведения, возникает необходи-мость решения задач выделения и распознавания новых состояний, оп-ределения неявных зависимостей между параметрами системы, выявле-ния наиболее влияющих факторов, формирования дополнительных при-знаков контроля и ряда других. Такие задачи могут быть отнесены к за-дачам идентификации или в ряде случаев кластерного анализа, задачампоиска ассоциаций, секвенционального анализа, задачам регрессионногои факторного анализа.

В существующих контурах управления техническими системамизадачи контроля и анализа полученной контрольно-диагностической ин-формации в основном автоматизированы, например, процессы сбора иобработки информации с целью подготовки исходных данных для анали-за состояния являются практически полностью автоматизированными.Однако применяемое программно-алгоритмическое обеспечение анализаобладает ограниченными возможностями – как правило, оно рассчитанона штатные условия функционирования, при этом анализу подвергаютсятолько явные тенденции поведения системы, объект контроля рассмат-ривается только как «простая» система. В нештатных ситуациях про-граммные комплексы анализа не позволяют решать задачи контроля, ианализ состояния проводится полностью силами специалистов – анали-заторов. В связи с этим говорить об автоматизации анализа сложныхтехнических систем не представляется возможным – автоматизация ана-лиза на практике скорее исключение, чем правило, что свидетельствует оналичии ряда существенных противоречий, порождающих проблемныевопросы.

В общем случае автоматизация предполагает создание модели объ-екта на базе формального аппарата моделирования, обеспечивающегоадекватность модели, и её реализацию в виде совокупности алгоритмови программ. В связи с этим, проблема автоматизации не существует изо-лированно, она тесным образом увязана с вопросами обеспечения адек-ватности моделей и выбора формально-математического аппарата. Прирешении задачи анализа состояния сложных систем модель должна от-ражать сложность объекта анализа, а формальный аппарат обеспечиватькорректность её решения как обратной задачи. В силу этого, проблема

Page 78: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

78

автоматизации анализа должна рассматриваться комплексно наряду спроблемами обеспечения корректности анализа и моделирования слож-ных систем.

Ситуация осложняется и высокими требованиями по оперативно-сти управления, в том числе вплоть до реального масштаба времени,большими объёмами контрольно-диагностической информации – до де-сятков тысяч одновременно измеряемых параметров, высокими требова-ниями по надёжности программного обеспечения.

Можно констатировать, что анализ сложной технической системыпредставляет собой крайне сложную задачу и может быть реализовантолько на принципах динамического анализа с привлечением разнород-ных источников информации, а сама система анализа должна представ-лять собой интеллектуальную систему. В силу этого проблема анализасложной системы может быть разрешена путем создания системы анали-за с логикой, близкой к человеческому мышлению, способной к воспри-ятию и обработке разнородных источников информации, как синтакси-ческой так и семантической. Такая система должна быть устойчивой поотношению к влиянию неопределенных факторов для обеспечения кор-ректности анализа, что достигается целенаправленным вмешательствомв процесс не только анализа, но и сбора и первичной обработки для под-готовки исходных данных.

Кроме того, не следует упускать из виду проявления так называе-мой глобальной проблемы технической кибернетики: «проецированиятеоретически оптимальных методов на ограниченные возможности вы-числительной техники». От того, каким образом будет реализована напрактике система анализа, являющаяся средством специалиста-анализатора, зависит и выполнение требований корректности и интел-лектуальности анализа. В частности, немаловажную роль играет обеспе-чение дружественного интерфейса «человек – машина», основой кото-рого должен послужить в первую очередь естественный язык. В рамкахтакой системы будет реализовываться технология анализа, как целена-правленная совокупность процессов подготовки исходных данных, ана-лиза (идентификации состояния) и выработки заключений о состояниианализируемого объекта.

В связи с этим актуальной является разработка универсальныханалитических платформ анализа, ориентированных в первую очередь натехнические приложения. Такие платформы должны быть сертифициро-ваны, позволять оперативно обрабатывать большие объёмы количест-венной и качественной информации, обеспечивать высокую достовер-ность выдаваемых результатов.

Представляется, что методологической основой таких комплексов

Page 79: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

79

могут послужить методы Data Mining, которые, во-первых, позволяютпостроить адекватную информационную модель сложной техническойсистемы, а во-вторых, предоставляют аналитику разнообразный инстру-ментарий для решения многих задач анализа. На сегодняшний моментразработан и широко известен ряд программных приложений, реали-зующих методы Data Mining. Однако главным их недостатком являетсяузконаправленность и ориентированность в основном на сферу экономи-ки и торговли, где сами методы получили наибольшее распространение.

К числу задач контроля и анализа состояния сложных техническихсистем, решаемых с помощью методов Data Mining, можно отнести сле-дующие.

1. Задача классификации – определение класса объекта по его ха-рактеристикам – как задача определения одного из штатныхтехнических состояний системы.

2. Задача регрессии – определение по известным характеристикамобъекта некоторых его параметров – как задача факторного ана-лиза.

3. Задача поиска ассоциативных правил – нахождение частых за-висимостей (ассоциаций) между объектами или событиями –как задача определения неявных зависимостей между парамет-рами системы, задача секвенционального анализа.

4. Задача кластеризации – поиск независимых групп (кластеров) иих характеристик во всем множестве анализируемых данных –как задача выделения и распознавания новых (нештатных) со-стояний, то есть задача идентификации.

С помощью результатов решения всех вышеперечисленных задачможно осуществить и прогноз состояния системы.

Анализ ряда успешных применений Data Mining в техническихприложениях позволяет утверждать, что методы Data Mining вполнеприменимы как средство анализа состояния «простой» системы и неза-менимы при анализе «сложной» системы.

Однако в процессе поиска новых знаний в массиве информацииприменение самих методов Data Mining является лишь одним из его эта-пов, и они сами по себе не позволяют получить новые знания. Эффек-тивное применение методов Data Mining предполагает наличие доста-точно полных исходных данных для анализа. В случае анализа состояниясложных систем в качестве таковых выступают оценки контролируемыхпризнаков, получаемые в результате обработки полученного объема из-мерительной информации, а также информации об условиях и режимахфункционирования наблюдаемых систем, синхронизированной во вре-мени. Однако при возникновении нештатных ситуаций возникает задача

Page 80: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

80

оперативного получения оценок дополнительных контролируемых при-знаков из принятого объема измерительной информации для обеспече-ния полноты исходных данных для анализа.

Инструментарием, позволяющим организовать подготовку исход-ных данных, их оперативное восполнение и применение методов DataMining, являются среды измерительного программирования, напримерLabVIEW [3]. Такая среда в рамках организации системы анализа позво-ляет решать следующие задачи:

· организация первичной измерительной системы без внесениятехнических изменений в объект контроля с целью полученияисходной измерительной и сигнальной информации о его со-стоянии;

· формирование информационно-адресной системы регистрацииданных с целью их дополнительной обработки методами DataMining на момент нештатной ситуации;

· формирование базы знаний и данных исходных средств обра-ботки измерительной и сигнальной информации с целью выбо-ра и реализации гибких технологий интеллектуального анализа;

· организация системы всестороннего автоматизированного ана-лиза исходной информации с целью выявления скрытых зако-номерностей на момент нештатной ситуации.

Перечисленные возможности сред измерительного программиро-вания позволяют оперативно решать задачи получения оценок дополни-тельных контролируемых признаков состояния сложных систем в случаеневыполнения требований по полноте исходной информации для прове-дения анализа средствами Data Mining.

В силу этого, перспективные аналитические платформы анализасостояния сложных технических систем должны быть совместимы с су-ществующими компьютерными средствами измерений, реализующиминовые измерительные технологии, например в рамках сред измеритель-ного программирования.

Представляется, что в этом случае специалисты-анализаторы полу-чат мощное средство поддержки и принятия решений, позволяющееобеспечить выполнение требований по оперативности и достоверностианализа сложных технических систем не только в штатных, но и привозникновении нештатных ситуаций.

Литература1. Потюпкин А.Ю. Научно-методические основы решения задач

анализа состояния объектов ракетно-космической техники в ус-ловиях неопределенности – М.: ВА РВСН, 2003.

Page 81: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

81

2. Н. Паклин, В.Орешков. Бизнес-аналитика: от данных к знаниям.– СПб.: Питер, 2009.

3. http://www.labview.ru.

ИССЛЕДОВАНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГОРАЗВИТИЯ СЕЛЬСКИХ ТЕРРИТОРИЙ МЕТОДОМ КЛАСТЕРНО-

ГО АНАЛИЗА

Евтеева А., студентка, Карпузова В.И.,доцент, Тарасова О.Б., профессор Рос-сийского государственного аграрногоуниверситета – МСХА имениК.А.Тимирязева, г. Москва

Целью работы является разбиение сельских территорий Москов-ской области (МО) на кластеры по комплексу существенных социально-экономических показателей и выявление, какие из них являются наиме-нее и наиболее развитыми, а какие занимают срединные позиции.

Тема является актуальной, так как картина развития сельских тер-риторий может быть передана наиболее точно лишь при рассмотрениивсех факторов социально-экономического характера в совокупности, аобъективная и полная информация – основа для принятия верных управ-ленческих решений относительно устойчивого развития сельских терри-торий.

Для достижения поставленной в работе цели используется рабочееместо аналитика Deductor Studio, которое входит в состав аналитическойплатформы Deductor. Данное приложение содержит набор механизмовимпорта, обработки, визуализации и экспорта данных для быстрого иэффективного анализа информации. Для решения проблемы доклада бы-ла использована одна из возможностей аналитической платформы, аименно – карта Кохонена, которая позволяет проводить кластеризациюданных.

Особенностью кластерного анализа, как метода многомернойгруппировки является, то, что классифицируются многомерное наблю-дения, каждое из которых описывается набором исходных переменных.Целью кластерного анализа является образование групп схожих междусобой объектов, которые принято называть кластерами.

Поскольку сельские территории Московской области занимаютбольшую часть от всей ее площади, были проведены исследования,

Page 82: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

82

имеющие цель установить, как развиты по социально-экономическимпоказателям сельские территории районов МО.

При проведении анализа были взяты данные по социально-экономическому развитию сельских поселений районов МО. По сель-скому хозяйству были взяты данные ВСХП о поголовье скота (котороебыло переведено в условное поголовье) и показатели по растениеводст-ву. По социальному развитию были взяты 17 наиболее важных показате-лей, связанные с образованием, культурой, здравоохранением и другимиотраслями социального развития. Все признаки представлены относи-тельными величинами интенсивности. Часть этих данных были переве-дена на 1000 человек сельских поселений района, а остальная часть пока-зателей на 100 га площади этих селений. Такой перевод является важнымдля объективной оценки территорий по уровню их развития и комплекс-ной обеспеченности объектами социально-культурного быта.

Далее полученные данные были подготовлены для обработки ваналитической платформе Deductor и экспортированы в программу.

Сначала был проведен кластерный анализ районов по развитиюсельского хозяйства. В качестве выходного признака было взято поголо-вье крупного рогатого скота (КРС), так как животноводство – основнаяотрасль области. Результатом кластеризации является самоорганизую-щаяся карта Кохонена и выходная таблица с номерами кластеров (табл.1).

Таблица 1Выходная таблица с номерами кластеров

Page 83: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

83

Сельские территории были разбиты на шесть кластеров (рис. 1).Градация цветов от синего к красному позволяет определить положениерайонов. Синий цвет – отсталые районы, красный – передовые.

Лидерами в сельском хозяйстве оказались Нарофоминский, Один-цовский, Подольский и Раменский районы.

Рис. 1. Кластеризация районов Московской области по сельскохозяйст-венным показателям развития

Они попали в наивысший кластер. Аутсайдерами оказались Лото-шинский, Пушкинский, Мытищинский и Красногорский районы. Каквидно из рис. 1, наиболее передовые районы – это западные районы Мо-сковской области, так как в эти сельские поселения идет большая долясубсидий на сельское хозяйство.

Аналогичным образом с помощью аналитической платформы De-ductor проведен кластерный анализ социально-бытового развития рай-онов (табл. 2).

Результатом стало разбиение районов на шесть групп (рис. 2).На карте (рис. 2) видно, что в самый развитый по всем показателям

кластер попали районы, окружающие Москву. А самые неразвитые ока-зались на периферии области.

Page 84: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

84

Таблица 2Выходная таблица с номерами кластеров

Рис. 2. Кластеризация районов Московской области по показателям со-циально-бытового развития

Далее было рассмотрено совокупное влияние сельскохозяйствен-ных и социально-бытовых факторов на развитие сельских поселений.Для этого был проведен кластерный анализ по всем показателям (табл.

Page 85: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

85

3). Результатом проведенного исследования были шесть кластеров сель-ских территорий (рис. 3).

Таблица 3Выходная таблица с номерами кластеров

Рис. 3. Кластеризация районов Московской области по сельскохозяйст-венным и социально-бытовым показателям

Лидирующее положение имели три района, расположенные наюго-западе и в непосредственной близости к Москве. Это Одинцовский,Подольский, Раменский районы.

Page 86: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

86

Четвертый кластер – имеет наибольший удельный вес районов в ихобщем количестве. Этот кластер характеризуется тем, что в нем высокиепоказатели и по сельскому хозяйству и довольно хорошие по социально-бытовому обеспечению.

Для последующих двух кластеров – третьего и второго характернынизкие показатели по развитию сельского хозяйства, но средние по соци-альному развитию.

Первый и нулевой кластер – аутсайдеры, эти районы находятся наокраинах Московской области. Этим районам необходима поддержка го-сударства, как и в экономическую сторону, так и в социальную. В их от-сталом от остальных районов развитии играет роль удаленность от Мо-сквы.

Проведенное исследование позволило сделать следующие выводы:· сельские поселения характеризуются системой трех взаимосвя-

занных групп показателей: развития сельского хозяйства, раз-вития социально-культурной сферы жизни сельского населения,состояния экономики хозяйствующих субъектов;

· кластерный анализ по отдельным группам показателей позволя-ет выделить объективно существующие типы сельских поселе-ний с позиций развития производственно-экономической дея-тельности на сельских территориях и социальной жизни сель-ского населения по всему комплексу признаков;

· типы поселений по производственным и социальным признакамуказывают на тесную связь экономики и социально- бытовойинфраструктуры села;

· кластеризация сельских поселений по всему комплексу произ-водственно-экономических и социально-культурных признаковобеспечила типизацию объекта исследования для принятияуправленческих решений в вопросах развития сельских терри-торий.

Page 87: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

87

ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ DEDUC-TOR ДЛЯ ИССЛЕДОВАНИЯ МИРОВОЙ КОНЪЮНКТУРЫ РЫН-

КА ПОДСОЛНЕЧНИКА

Мешков М., студент, Карпузова В.И.,доцент, Тарасова О.Б., профессор Рос-сийского государственного аграрногоуниверситета – МСХА имени К.А. Тими-рязева, г. Москва

В проведенном исследовании была поставлена цель – изучить ми-ровой рынок подсолнечника, оценить по индикаторам конъюнктурысложившийся тип рынка, выявить типы участников рынка подсолнечни-ка и определить их динамическое развитие за период 1990-2008 гг., атакже оценить роль России в формировании и развитии рынка.

Источниками информации послужили материалы ФАО. Основны-ми методами при реализации цели были кластерный анализ стран участ-ников рынка по комплексу показателей конъюнктуры рынка в сочетаниис анализом рядов динамики на базе аналитической платформы Deductor.

В ходе работы для анализа мировой конъюнктуры по странам запериод с 1990 по 2008 годы. изучены следующие показатели:

· посевные площади подсолнечника (га);· урожайность (ц/га);· цена за 1 тонну подсолнечника (USD/т);· валовые сборы подсолнечника (тыс. т.);· производство растительного масла (тыс. т.);· экспорт семян подсолнечника (тыс. т.);· импорт семян (тыс. т.).Обобщение данные по странам мира показало, что количество уча-

стников рынка подсолнечника составляет 158 стран с небольшими коле-баниями по годам.

Анализ индикаторов рынка показал, что рынок подсолнечника от-носится к типу развивающегося. Об этом свидетельствуют темпы ростаэкспортных и импортных операций, расширение посевов культур приросте урожайности культуры по большинству стран и, как следствие,расширение объемов производства продукции.

По посевным площадям базисный темп прироста в мире составил46,8% (1990 – 2008 гг.), по урожайности – 6,7% (1990 – 2007 гг.), по про-изводству – 57% (1990 – 2008 гг.), по экспорту 52,3% (1990 – 2008 гг.).

Page 88: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

88

Среднегодовой прирост за те же промежутки времени по произ-водству в мире составил 719 тыс. т., по экспорту 63 тыс. т., урожайности0,1 ц/га.

В России прирост урожайности, также как и в мире, составил 0,1ц/га, производства – 265 тыс. т., несмотря на сокращение экспорта (сред-нее абсолютное сокращение за рассматриваемый период –4,7 тыс. т.).

С ростом производства подсолнечника в мире увеличилось произ-водство подсолнечного масла: базисный темп прироста составил 25,6%(1990 – 2008 гг.), среднегодовой абсолютный прирост – 163 тыс. т.

В России темп прироста составил – 61,7 %, что значительно вышемирового значения, среднегодовой абсолютный прирост – 83,3 тыс. т.

Дальнейший анализ показал, что на мировом рынке роль отдель-ных стран существенно различается. Основными производителями иэкспортерами являются 15 стран, на долю которых приходится примерно90 % всего производимого подсолнечника.

Учитывая наличие множества разнородных признаков-индикаторов рынка подсолнечника, был реализован метод кластеризациистран по основным параметрам. Кластеризация стран проводилась с ис-пользованием самоорганизующейся карты Кохонена. Кластеры на картеКохонена разделены с учетом интенсивности изучаемых признаков: отхудших по параметрам единиц совокупности до стран с самыми благо-приятными параметрами развития рынка. В качестве основополагающегоили выходного параметра был взят экспорт семян подсолнечника.

В результате кластеризации мы получили восемь кластеров стран сразличными экономическими характеристиками (таблица 1).

Таблица 1Сводная таблица по итогам кластеризации

Количество странв кластереКраткое описание кластера

1999 2007Страны-импортеры 35 42Страны-реэкспортеры (осуществляют экспортно-импортные операции без собственного производства) 19 29Слабые участники мирового рынка подсолнечника (низкиецены производителя, минимум экспорта и импорта) 11 11Слаборазвитый рынок, высокие цены 4 1Крупные импортеры подсолнечника при собственном ин-тенсивном производстве 23 26Страны с интенсивным производством и минимальнымимпортом 23 24Крупные производители с экстенсивным производством – 3Крупные производители с интенсивным производством иминимальным экспортом 5 –Лидеры рынка: страны-экспортеры собственной продукции 3 5

Page 89: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

89

Россия в 1999 г. входила в высшую группу благодаря большимразмерам площадей под культурой, в 2007 г. перешла из высшего кла-стера в более низкий. Это связано, прежде всего, со снижением объемовэкспорта и экстенсивными методами ведения сельского хозяйства.

Лишь большие площади посева культуры позволяют занимать Рос-сии лидирующие позиции на мировом рынке.

Проведенное исследование позволяет сделать следующие выводы:1. В настоящее время сложился развивающийся тип мирового

рынка подсолнечника.2. Россия находится в группе мировых лидеров, но из-за низкой

интенсификации производства даже в годы относительно стабильногоразвития экономики России между кризисами 1998 и 2008 гг. теряла своипозиции на мировом рынке подсолнечника.

3. В России есть все предпосылки для успешного развития этойкультуры (наличие природных условий, высокая обеспеченность рабочейсилой в южных регионах страны, достаточно рынков сбыта). В этой свя-зи необходимо рассматривать развитие производства подсолнечника встране как экспортной культуры и интенсифицировать производство.

Исследование мировой конъюнктуры рынка подсолнечника припомощи кластерного анализа на базе аналитической платформы Deductorдает наиболее полную оценку происходящих на рынке динамическихпроцессов, учитывая влияние всех факторов в совокупности.

АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTORВ ОЦЕНКЕ СТЕПЕНИ ЭКОЛОГИЧЕСКОЙ БЕЗОПАСНОСТИ РЕ-

ГИОНОВ

Золотарева И.А., профессор, ПавленкоЛ.А., доцент, Харьковский национальныйэкономический университет, г. Харьков

Сегодня общепризнано, что экономическое и социальное развитие,а также охрана окружающей природной среды, являются взаимосвязан-ными и взаимодополняющими компонентами устойчивого развития лю-бого региона. Основным направлением программы ООН по экологиче-ской проблематике является система глобального экологического мони-торинга, которая охватывает множество сетей наблюдения окружающейсреды на международном и национальном уровнях [1]. Главными зада-чами экологического мониторинга являются: наблюдение за состояниембиосферы, оценка и прогноз ее состояния, определение степени антропо-

Page 90: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

90

генного влияния на окружающую среду, выявление факторов и источни-ков этого влияния, оптимизация отношений человека с природной сре-дой, экологическая ориентация хозяйственной деятельности. Совершен-ствование антропогенного цикла связывают с двумя главными направле-ниями деятельности: мониторинг и управление (экономические меро-приятия природоохранного регулирования) [2].

Решение этих задач невозможно без применения современных ин-формационных технологий, позволяющих собирать, хранить, обрабаты-вать информацию о состоянии окружающей среды, в том числе тополо-гическую информацию про размещение территориально распределенныхобъектов, принимать оперативные управленческие решения, распростра-нять результаты анализа. Задачи, связанные с анализом данных, привя-занных к картооснове, успешно решаются в рамках геоинформационныхсистем [3].

На кафедре информационных систем Харьковского национальногоэкономического университета, в рамках дисциплины «Системы обработ-ки эколого-экономической информации» со студентами специальности«Компьютерный эколого-экономический мониторинг» задачи анализарезультатов мониторинга решаются с применением Deductor Academic[3] и пакета ArcGis [4].

В данной работе приводится пример использования аналитическойплатформы Deductor при решении задачи оценки степени экологическойбезопасности регионов Украины по данным Департамента региональнойполитики Министерства экономики по вопросам европейской интегра-ции Украины, размещаемым в INTERNET. Результаты разбиения множе-ства данных на подмножества кластеров выведены на карте Украины.

Согласно данным мониторинга каждый из регионов характеризу-ется совокупностью экологических, экономических, социальных показа-телей. В частности, известны данные о загрязнении регионов Украины наконец 2009 года, приведенные в табл. 1 (формат *.xls).

Page 91: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

91

Таблица 1Экологические показатели регионов Украины в 2009 году

Украина

Объемы выбросоввредных веществ ватмосферный воз-дух в 2009 г., тыс.т.

Наличие на конец2009 г. вторичного

сырья и отходовпроизводства,

тыс.т.

Наличие наконец 2009 г.отходов I-III

классов опас-ности на тер-

риториипредприятий,

тыс.т.Автономная Респуб-лика Крым 137,4 509,11 1722,5Винницкая 194,7 1225 0,3Волынская 57,1 538,6 1,5Днепропетровская 989,4 91782,2 833,2Донецкая 1513,3 21767,4 6331,8Житомирская 84,1 556,9 35,4Закарпатская 87,6 679,3 0,4Запорожская 280,5 2353,3 8259Ивано-Франковская 271,8 863 64,5Киевская 266,7 937,5 157,7Кировоградская 75,8 0 15,3Луганская 592,3 8385,5 902,6Львовская 253,4 2391,9 189,6Николаевская 85,8 1762,3 325,2Одесская 175,1 718,8 1,2Полтавская 183,5 1465,8 15,5Ровненская 52,8 199,7 12,6Сумская 83,4 322,7 1855,6Тернопольская 61,1 1108,9 0,1Харьковская 266,1 1115,3 110,4Херсонская 80,4 216,2 9Хмельницкая 81,5 598,2 2,1Черкасская 133,9 743,8 1,6Черновецкая 43 117,1 0,1Черниговская 93,9 951,6 3,3г.Киев 277,9 257,8 1,6г.Севастополь 20,4 144,8 0,2

Для разбиения исходного набора данных из табл. 1 на подмноже-ства с целью отнесения каждого из регионов к одному из классов эколо-гической безопасности был выполнен кластерный анализ. Для этого таб-лица была сохранена в формате *.txt и импортирована в аналитическуюплатформу Deductor. На рис. 1 представлено окно Deductor Studio с им-портированными данными в табл. 1.

Page 92: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

92

Рис. 1. Результат импорта данных табл. 1 в Deductor

На рис. 2 представлено окно настройки назначения столбцов для вы-полнения кластерного анализа.

Рис. 2. Окно настройки назначения столбцов

Для обеспечения наглядности представления полученных резуль-татов была выбрана кубическая модель данных. На рис. 3 представленоокно настройки полей куба.

Page 93: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

93

Рис. 3. Окно настройки полей куба

Пакет позволяет выбрать один из методов кластеризации: g-meansили k-means и дать наименования полученным подмножествам данных.В данном случае был выбран метод k-means с разбиением на три класте-ра.

На рис. 4 представлено окно результатов кластеризации – профиликластеров с достигнутой точностью решения.

Группы регионов в экологическом отношении были названы: кла-стер 0 – «Безопасный», кластер 1 – «Условно безопасный», кластер 2 –«Опасный».

На рис. 5 приведен нормализованный график показателей экологи-ческой безопасности регионов Украины по трем показателям: «Объемывыбросов вредных веществ в атмосферный воздух», «Наличие на конец2009 г. вторичного сырья и отходов производства», «Наличие на конец2009 г. отходов I-III классов опасности на территории предприятий».

Исходные данные на графике приведены к единому масштабу длянаглядности. Пакет позволяет представить данные, как в естественномвиде, так и нормализованными, что повышает оперативность анализа.

Page 94: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

94

Рис. 4. Результат кластеризации регионов Украины по экологическимпоказателям

На рис. 6 представлен результат построения куба с данными раз-биения регионов Украины по трем показателям, характеризующим эко-логическое состояние регионов.

Page 95: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

95

Рис. 5. Диаграмма экологических показателей регионов Украины с нор-мализованными данными

Модель рис. 6 наглядно представляет экологические показателикаждой из групп, позволяет суммировать их по группе и принимать ре-шения, как по отдельным показателям в регионах, так и по всем показа-телям каждого региона.

Дополнением решения этой задачи является вывод результатовкластеризации на карте Украины. Для этого результаты кластеризации –данные таблицы рис. 4 были сохранены в пакете Excel. СредствамиExcel данные этой таблицы были сохранены в формате *.dbf и соединеныс таблицей регионов пакета ArcViewGIS 3.3. На рис. 7 представлена кар-та Украины, построенная в среде ArcViewGIS 3.3 с результатами оценкиэкологической безопасности регионов.

В данном случае это просто отражение факта отнесения регионов копределенному классу экологической безопасности. На самом деле ана-литические возможности пакета ArcGIS позволяют его использовать длярешения многих задач анализа и принятия управленческих решений.

Page 96: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

96

Рис. 6. Кубическая модель данных с результатами разбиения регионовУкраины на кластеры по экологическим показателям

Рис. 7. Карта Украины с результатами оценки экологической безопасно-сти регионов

Page 97: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

97

Аналитическая платформа Deductor позволяет быстро, качествен-но, в комфортной для конечного пользователя форме выполнить кла-стерный анализ и представить данные в виде многомерной модели, по-зволяющей оперативно анализировать и принимать управленческие ре-шения, в данном случае, с целью улучшения экологического состояниярегионов и государства в целом. Достоинством платформы также являет-ся возможность выполнения обмена данными и результатами анализа сомногими инструментальными средствами обработки данных другихфирм.

Литература1. Богобоящий В.В., Чурбанов К.Р., Палій П.Б., Шмандій В.М.

Принципи моделювання та прогнозування в екології: Підручник. —Київ: Центр навчальної літератури, 2004. – 216 с.

2. Марчук Г.И. Математическое моделирование в проблеме окру-жающей среды. — М.: Наука, 1982. – 320 с.

3. http://www.basegroup.ru/download/deductor/.4. http://gis.report.ru.

ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ АНАЛИЗА ЭКО-НОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ РЕГИОНОВ ПРИВОЛЖСКОГО

ФЕДЕРАЛЬНОГО ОКРУГА

Шамсутдинова Т.М., доцент Башкир-ского государственного аграрного уни-верситета,Мухаметшин Т.Р., студент Башкирско-го государственного аграрного универ-ситета, г. Уфа

Целью исследования являлось построение имитационной модели ввиде нейронной сети, позволяющей провести анализ основных социаль-но-экономических показателей регионов Приволжского федеральногоокруга.

При проведении исследования были использованы следующие ви-ды статистических данных за январь 2010 года по 14 областям, краям иреспубликам данного федерального округа1:

· объем выполненных работ по виду деятельности «Строительст-во», млн.руб.;

1 По материалам статистических отчетов http://www.bashstat.ru/bashdigital/region16/default.aspx

Page 98: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

98

· ввод в действие жилых домов, кв. м общей площади;· оборот розничной торговли, млн. руб.;· объем платных услуг населению с учетом неформального сек-

тора экономики, млн. руб.;· общий объем оборота оптовой торговли, млн. руб.;· среднемесячная заработная плата работников, руб.;· сводный индекс потребительских цен на товары и платные ус-

луги (январь 2010 г. в % к декабрю 2009 г.);· индекс цен производителей промышленных товаров (январь

2010 г. в % к декабрю 2009 г.);· рост заработной платы (январь 2010 г. в % к январю 2009 г.);· индекс производства по видам деятельности «Добыча полезных

ископаемых», «Обрабатывающие производства» и «Производ-ство и распределение электроэнергии, газа и воды» (январь2010 г. в % к январю 2009 г.).

Так как регионы Приволжского федерального округа достаточносильно отличаются размерами своих территорий, то для получения болеекорректных результатов анализа данных при проведении исследованиятакже были использованы сведения о площадях территорий регионов1

данного округа (тыс. кв. км).Для построения нейронной сети был использован узел Нейросеть

аналитической платформы Deductor.При обучении нейронной сети были использованы результаты кла-

стерного анализа данных в виде самоорганизующихся карт Кохонена.Для построения и обучения самоорганизующихся карт использовалсяинструмент анализа Карта Кохонена аналитической платформы Deduc-tor.

С использованием построенных карт Кохонена был проведен кла-стерный анализ данных, в результате которого были выявлены группырегионов с различными и сходными социально-экономическими показа-телями.

При этом в кластер № 0, расположенный в правой зоне самоорга-низующихся карт (рис. 1), вошли Пермский край, Кировская область,Республика Марий Эл и Республика Мордовия. Данный кластер характе-ризуется высоким индексом роста производства по видам деятельности«Добыча полезных ископаемых», «Обрабатывающие производства» и«Производство и распределение электроэнергии, газа и воды», но, приэтом, достаточно низким объемом выполненных работ по виду деятель-

1 По материалам http://worldgeo.ru/russia/okr_privolg/, раздел «Площади территорий регионовПриволжского федерального округа»

Page 99: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

99

ности «Строительство», сравнительно небольшим оборотом розничнойторговли и высоким индексом роста цен производителей промышленныхтоваров.

Из регионов, вошедших в данный кластер, наилучшие показателипо большинству позиций имеет Пермский край, причем этот край – одинлидеров по уровню среднемесячной заработной платы во всем Приволж-ском округе. Но надо отметить, что Пермский край является самымкрупным регионом округа (около 160 тыс. кв. км), в то время как Рес-публика Марий Эл и Республика Мордовия имеют территорию всего 23тыс. кв. км и 26 тыс. кв. км соответственно.

К кластеру № 1, расположенному в центральной зоне карт Кохоне-на, были отнесены Нижегородская, Оренбургская, Самарская и Саратов-ская области, Республика Башкортостан, Республика Татарстан и Чу-вашская Республика. Большинство регионов данного кластера занимаютлидирующее место по таким показателям, как объем выполненных работпо виду деятельности «Строительство», ввод в действие жилых домов,оборот розничной торговли, объем платных услуг населению с учетомнеформального сектора экономики, общий объем оборота оптовой тор-говли, рост заработной платы. Но при этом у данных регионов достаточ-но высокий сводный индекс роста потребительских цен на товары иплатные услуги и высокий индекс роста цен производителей промыш-ленных товаров.

Среди регионов данного кластера наилучшие экономические пока-затели имеют Республика Татарстан, Республика Башкортостан, Ниже-городская и Самарская области. Наихудшие показатели по объему вы-полненных работ по виду деятельности «Строительство», по оборотурозничной и оптовой торговли – у Республики Чувашия. Но при этомследует учесть, что данная республика имеет самую маленькую террито-рию (по сравнению с другими регионами округа) – всего 18 тыс. кв. км.

К кластеру № 2, находящемуся в левой зоне карт Кохонена, былиотнесены Удмуртская Республика, Пензенская и Ульяновская области.Все эти регионы имеют небольшую территорию – от 37 до 43 тыс. кв.км. Для них характерны средние значения показателей по вводу в дейст-вие жилых домов, по обороту розничной торговли, низкий индекс ростапроизводства по видам деятельности «Добыча полезных ископаемых»,«Обрабатывающие производства» и «Производство и распределениеэлектроэнергии, газа и воды». При этом в данных регионах средний дляПриволжского федерального округа уровень заработной платы, но дос-таточно высокий сводный индекс роста потребительских цен на товары иплатные услуги.

Page 100: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

100

Рис. 1. Результаты кластерного анализа данных

После проведения анализа карт Кохонена была построена нейрон-ная сеть, позволяющая проанализировать влияние отдельных факторовна отнесение региона к тому или иному кластеру.

Настройка и обучение нейронной сети в Deductor Studio состоит изследующих шагов: настройка назначений полей и их нормализация, на-стройка обучающей выборки, настройка структуры нейронной сети, вы-бор алгоритма и параметров обучения, настройка условий остановкиобучения, запуск процесса обучения, выбор способа отображения дан-ных. В качестве способов отображения нейронной сети в данном случаебыли выбраны «Граф нейросети» и визуализатор «Что-если» (рис. 2).

Page 101: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

101

Рис. 2. Визуализатор нейросети «Что-если»

Интерактивные эксперименты в визуализаторе «Что-если» позво-лил проанализировать влияние отдельных факторов на отнесение регио-на к тому или иному кластеру.

В результате анализа данных было получено, что наиболее значи-мыми факторами для принятия решения об отнесении региона к опреде-ленному кластеру являются такие критерии как:

1. объем выполненных работ по виду деятельности «Строитель-ство», млн.руб.;

2. индекс производства по видам деятельности «Добыча полез-ных ископаемых», «Обрабатывающие производства» и «Про-изводство и распределение электроэнергии, газа и воды» (ян-варь 2010 года в % к январю 2009 года).

По первому критерию лучшие показатели среди регионов При-волжского федерального округа были выявлены у республик и областей,относящихся к кластеру №1, по второму критерию – у регионов, относя-щихся к кластеру №0. В кластер № 2 вошли регионы, имеющие средниепоказатели по первому критерию, но отстающие по второму критерию.

Итак, были реализованы следующие этапы анализа данных:· на основании открытой статистической отчетности был сфор-

мирован набор данных, содержащий ряд основных социально-экономических показателей по 14 областям, краям и республи-кам Приволжского федерального округа;

· с использованием инструмента анализа «Карта Кохонена»Deductor Studio был проведен кластерный анализ данных, в ре-зультате которого были выявлены группы регионов с различ-ным уровнем социально-экономических показателей;

Page 102: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

102

· с использованием инструмента анализа «Нейросеть» DeductorStudio была построена нейронная сеть, позволяющая проанали-зировать влияние отдельных факторов на отнесение региона ктому или иному кластеру. При обучении нейронной сети былииспользованы результаты кластерного анализа данных в видесамоорганизующихся карт Кохонена. В результате анализа дан-ных были выявлены наиболее значимые факторы для принятиярешения об отнесении региона к определенному кластеру.

Полученная методика может быть применена при анализе соци-ально-экономических показателей Приволжского федерального округа, атакже может быть использована специалистами в процессе принятияуправленческих решений при проведении экономической политики в ре-гионах данного округа. Разбиение на кластеры позволит выявить слабыепоказатели регионов и принять решение об изменении стратегии их раз-вития с целью улучшения их социально-экономического положения.

Данная методика может быть применена и для анализа социально-экономических показателей других федеральных округов, а также дляанализа результатов деятельности экономических субъектов в регионах.

СЕГМЕНТАЦИЯ КЛИЕНТОВ БРОКЕРСКОГО ОБСЛУЖИВАНИЯ

Нейский И.М., аспирант, ФилипповичА.Ю., доцент, Московский государст-венный технический университет им.Н.Э. Баумана

Большинство современных предприятий используют в своей дея-тельности информационные системы, хранилища данных, в которых со-бираются данные по бизнес – процессам компании. Объемы накапливае-мой информации увеличиваются с течением времени, поэтому актуаль-ной задачей в развитии компании является переход от анализа тенденцийтекущих показателей деятельности предприятия к более комплексномподходу «извлечения знаний» из имеющихся данных в целях выявлениязакономерностей.

Изучением проблем и созданием решений в этой области активнозанимаются направления Интеллектуального анализа данных (BusinessIntelligence) и Управления знаниями (Knowledge Management), в рамкахкоторых выделяются поднаправления Выявление знаний в базах данных(Knowledge Discovery in Databases), Анализ фактографических данных

Page 103: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

103

(Data Mining), Анализ неструктурированных данных (Text Mining) и др.Результаты исследований этих направлений положены в основу многихинформационно-аналитических систем, которые используются, в основ-ном, для персональной работы экспертов. Однако современной тенден-цией является применение указанных технологий и для централизован-ного управления организациями.

Для исследования структурированных массивов информации ис-пользуется анализ фактографических данных, в котором выделены шестьразличных задач: классификация, регрессия, кластеризация, выявлениеассоциаций, выявление последовательностей, и прогнозирование. По-требность в кластеризации возникает в тех областях/этапах деятельно-сти, где есть необходимость в разбиении объектов (ситуаций) на непере-секающиеся подмножества, называемыми кластерами, так, чтобы каж-дый кластер состоял из схожих объектов, а объекты разных кластеровсущественно отличались. Четкое разделение на кластеры возможнотолько в идеальных условиях и при сильно различающихся параметрахобъектов кластеризации, поэтому для решения реальных задач все чащеприменяются нечеткие методы, в которых разбиение объектов (ситуа-ций) выполняется на частично пересекающиеся подмножества.

Примером организаций, для которых актуальна проблема анализанакопленной информации, являются финансовые компании – профес-сиональные участники, работающие на фондовом рынке, которые при-влекают клиентов на брокерское обслуживание. На сегодняшний день вРоссии существует более 60 крупных компаний со среднемесячным обо-ротом около 800 миллионов долларов США [1]. Основным показателемэффективности работы в данном направлении является объем клиент-ских оборотов и комиссионных сборов за совершаемые от их имени и заих счет операции, поэтому для успешного развития брокерского обслу-живания необходимо увеличивать количество клиентов и/или их оборо-ты, на основе которых, как правило, определяется сумма комиссионноговознаграждения. Ввиду того, что каждый клиент по-своему уникален(желания, возможности, предпочтения, стратегия и т.п.), то для его при-влечения и создания заинтересованности от компании требуется сущест-венная гибкость. Так как отвечать интересам каждого клиента со сторо-ны крупной компании, обслуживающей более 10 000 клиентов, практи-чески невозможно при текущем штате сотрудников компании, которыесопровождают заключение и оперативную обработку этих операций, по-этому для обеспечения дальнейшего развития компании проводится ана-лиз клиентской базы с целью выделения характерных групп клиентов.По результатам данного исследования для полученных групп клиентовразрабатываются индивидуальные тарифы, условия обслуживания и т.д.

Page 104: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

104

Данный подход подтверждает свою эффективность даже в кризис-ный период, так как при падении на мировых финансовых рынках эко-номических показателей происходит отток капитала и клиентов. Созда-ние индивидуальной продуктовой линейки и снижение необходимостизначительного расширения штата сотрудников для сопровождения новыхопераций клиентов ведет к снижению издержек, а значит и к снижениютарифов при их обслуживании, что привлекает новых и расширяет коли-чество операций существующих клиентов. Кризис – это не только спадпоказателей в различных отраслях экономики, но и возможность достичьболее значимых результатов за счет повышения собственной эффектив-ности, поэтому появляется необходимость использовать дополнитель-ные, ранее не используемые ресурсы, которые сосредоточены в компа-нии – внутреннее информационное поле (аналитики, эксперты, накоп-ленная информация об операциях, клиентах и т.д.).

Главная особенность анализа этой области в том, что его необхо-димо проводить на регулярной основе, чтобы сохранить конкурентныепреимущества на рынке данного вида услуг. Учитывая динамику ростаклиентской базы, использование ранее применяемых методов с привле-чением только человеческих ресурсов становится невозможно, так какобъем информации для анализа также возрастает. На данный момент из-вестно более 100 методов кластеризации, поэтому для перехода на ис-пользование машинных методов необходимо осуществить выбор методаили методов из существующих либо разработать собственный метод сучетом особенностей этой области. Анализ существующих решений иметодов [2] показал, что на текущий момент не существует специализи-рованных или успешно примененных универсальных методов для реше-ния описанной задачи. Еще одной проблемой в данной области являетсяоценка качества получаемого результата и выбор количества групп –кластеров, которое является входным параметром для большинства алго-ритмов.

В связи с тем, что на данный момент не существует достаточногоколичества практических рекомендаций по применению существующихметодов в данной предметной области и количество методов достаточновелико, была разработана методика адаптивной кластеризации, котораянаправлена на решение этой задачи. Данная методика, состоящая из че-тырех этапов, позволяет осуществить выбор метода кластерного анализаи получить конечное разбиение множества исходных объектов на кла-стеры. На основе методики получено, что для решения задачи разбиенияклиентов брокерского обслуживания необходимо разработать новый ме-тод адаптивной кластеризации, в котором количество кластеров являетсярезультатом исследования.

Page 105: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

105

После проведенного анализа для решения поставленной задачи изинструментов выполнения кластеризации были выбраны: теория графови нечеткая логика. Определяющими факторами в выбранной комбинацииявляется способность при использовании графов выделять кластерыпроизвольной формы и оптимальной структуры, а при использованииматематического аппарата нечеткой логики решается задача разделенияобъектов с лингвистическими атрибутами. За основу для нового метода вчасти первичного разделения объектов на кластеры взята идея методаMST [3], использующего минимальные остовные деревья, и идея методаFuzzy C-means [4]. На базе этих методов разработан метод ADAKL (рис.1), который является двухэтапным и использует оценочную функциюразбиения, повышающую качество проводимой кластеризации [5]. Вы-числение глобального критерия делает алгоритм кластеризации во многораз быстрее, чем при использовании локального критерия при парномсравнении объектов.

При работе ADAKL строится минимальное остовное дерево, обра-зуя оптимизированную древовидную структуру из исходных элементовна основе характеристик кластеризуемых объектов, и выделяются пер-вичные кластерные центры. Затем используется итерационный подход, спомощью которого уточняются центры кластеров и содержимое класте-ров на основе вычисления степени принадлежности объекта кластеру.

Для устранения чувствительности к выбросам на первом этапепредлагается использование предобработки исходных данных через ли-нейную или статистическую нормализацию. При вычислении информа-ционных расстояний между объектами используются классические мет-рики, доработанные для использования в методе: Евклидово расстояние,квадрат Евклидова расстояния, расстояние Чебышева. Для построенияминимального остовного дерева используется алгоритм Прима, т.к. онимеет наименьшую аналитическую сложность по сравнению с алгорит-мами Крускала и Борувки [6].

Page 106: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

106

Этап 1. Нормализация значенийчисловых атрибутов

Этап 2. Вычисление матрицывзаимных расстояний между

объектами

Этап 3. Построениеминимального остовного дерева

Этап 5. Выбор наилучшегоразбиения

Шаг 1. Определение количествакластеров итерации

Шаг 2. Разделение минимальногоостовного дерева на k кластеров

Шаг 3. Расчет центров кластеров

Шаг 4. Расчет матрицы расстоянийот объектов до центров кластеров

Distk

Шаг 5. Нормализация матрицырасстояний Distk

Шаг 6. Соотнесение объектов ккластерам в соответствии со

степенью удаленности элементовкластера

Шаг 7. Расчет степенипринадлежности элементов

кластеру

Шаг 8. Нормализация матрицынечеткого разбиения

Шаг 9. Вычисление центровполученных кластеров

Шаг 10. Оценка полученногоразбиения

Шаг 11. Уменьшение количествакластеров

Шаг 12. Оценка количествакластеров

Этап 4. Разделение объектов на кластеры и построение матрицы нечеткого разбиения

Фактографические данные

Конфигурационныепараметры алгоритма

Фактографическиеданные, распределенные

по кластерам

Рис. 1. Метод ADAKL

Оценка качества в методе ADAKL выполняется на основе локаль-ного критерия с использованием полученных центров кластеров:

Page 107: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

107

( ) ( )'

'''

' '

1

' ' '1,

1

2

kj i

kk j i kj ij i

mk p k

i ij i jj u V

mk k ki k

i j i j i ji j ju Vu V u Vk

V V u

Min V u Max V u V u k

Om k

m= Î

=

¹ =ÎÎ Î

* * -

- * - * - *

=*

åå

å

,

где k – количество кластеров;m – количество объектов кластеризации;

|| 'kiV – количество элементов в кластере i;

pijm – степень принадлежности i-го объекта к j-му кластеру;

p – размазанность кластеров;),(|||| ''

jk

ijk

i uVMetricuV =- – расстояние от центра кластера i до элемента

uj; 'kij Vu Î – отражение условия о принадлежности элемента кластеру.

Данная оценка нацелена на выделение кластеров с наименьшимивзаимными расстояниями и наибольшим количеством элементов в кла-стере по отношению к общему количеству кластеров, стремится куменьшению количества итоговых кластеров и нацелена на минимиза-цию взаимных расстояний между полученным центром кластера и эле-ментами с учетом степени принадлежности.

Предложенный метод обладает следующими достоинствами:· двухэтапная кластеризация, которая позволяет выделить боль-

шее количество закономерностей;· способен работать с лингвистическими атрибутами объектов,

позволяя решить проблему использования экспертных оценок итекстовых атрибутов объектов;

· использует весовые коэффициенты для анализируемых атрибу-тов, позволяя не менять результирующий набор данных и рабо-тать со всем массивом, варьируя влиянием атрибута на резуль-тат анализа;

· использует степень удаленности объектов/элементов, позволяясоотносить объекты по кластерам при разделении на основе вы-численного расстояния;

· использует размазанность кластера, которая позволяет опреде-лять четкость получаемых границ кластеров;

· использует критерий оценки разбиения на кластеры, которыйучитывает требования и специфику предметной области.

Вместе с тем предложенный метод обладает квадратичной зависи-мостью аналитической сложности алгоритма от количества исходных

Page 108: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

108

данных по объектам кластеризации, что существенно увеличивает вре-менные затраты при регулярном появлении новых данных и повторнойкластеризации.

НЕТ

ДА

Этап 1. Нормализация значений числовыхатрибутов

Этап 2. Вычисление матрицы взаимныхрасстояний между объектами

Этап 3. Построение минимальногоостовного дерева

Этап 5. Выбор наилучшего разбиения

Этап 4. Разделение объектов на кластерыи построение матрицы нечеткогоразбиения

Наборданных

1ADAKL

Итоговыекластеры

1

Наборданных

2

Этап 1. Нормализация значений числовыхатрибутов с использованием метода основного

алгоритма

Этап 2. Расчет оценочной функции для набораданных 1

Этап 4. Оценка разницы оценочной функциинаборов 1, 2

Входит вдоверительный

интервал

Этап 5. Расчет ближайших элементов для набораданных 2 из набора данных 1

Этап 6. Распределение элементов набораданных 2 по кластерам в соответствии скластерами элементов набора данных 1

Итоговыекластеры

2

Этап 3. Расчет оценочной функции для набораданных 2

Докластеризация

Рис. 2. Докластеризация дополнительного набора данных

Частично преодолеть этот недостаток можно за счет специальнойпроцедуры докластеризации, которая определяет необходимость повтор-ного запуска исследования полного массива данных и, в случае отсутст-вия признаков появления новых значимых групп объектов, осуществляетраспределение новых (расширяющих) объектов по имеющимся класте-рам. Для расширения исходных данных в процессе проведения анализанеобходимо произвести дополнительное исследование добавляемыхданных (рис. 2).

Необходимость в докластеризации подтверждается результатамиэмпирических исследований, по результатам которых выявлено, что наи-более трудоемким этапом метода является построение минимального ос-товного дерева [5]. Выполнение дополнительного исследования прирасширении исходных данных позволяет значительно сократить времен-ные затраты по анализу данных за счет распределения расширяющих

Page 109: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

109

объектов по имеющимся кластерам в случае подобности исходных дан-ных в наборах 1, 2.

Для оценки работоспособности ADAKL в сравнении с другими ал-горитмами были проведены три основных и одна дополнительная серииэкспериментов:

· выделение секторов инвестирования на основе анализа показа-телей финансовых инструментов;

· выделение групп клиентов на основе статистических данных одеятельности клиентов за период;

· выявление категорий финансовых инструментов для оценкиэффективности операций;

· выделение классов автомобилей на основе данных о макси-мальной скорости, цвете кузова, воздушном сопротивлении,массе.

Исследование производилось на трех методах (самоорганизую-щиеся карты Кохонена, алгоритм k-средних и разработанный методADAKL) с помощью аналитической платформы Deductor и разработан-ного программного решения, в котором реализован метод ADAKL. Порезультатам исследования составлена сводная таблица с усредненнымиоценками разбиений (табл. 1).

Таблица 1Средневзвешенная оценка разбиений

Оценка

Метод

Средневзвешен-ная оценка раз-

биения

Средневзвешен-ная оценка раз-биения с задан-

ным количествомкластеров (без

учета лингвисти-ческих атрибутов)

Средневзвешен-ная оценка раз-биения с задан-

ным количествомкластеров (с уче-том лингвистиче-ских атрибутов)

Итоговаяоценка

Карты Кохо-нена 0.7913 0.9150 0.9237 0.8767

k–средних – 0.8232 – 0.8232ADAKL 0.9762 0.9981 0.9990 0.9911

В соответствии с полученной итоговой оценкой наилучшее раз-биение на исследованных массивах по сериям экспериментов получено сприменением разработанного метода ADAKL. Проведенные экспери-менты подтвердили, что использование интеграции методов кластериза-ции (многоэтапная кластеризация) улучшает качество выявления знанийв сравнении с одноэтапными методами, а также то, что превосходстворазработанного метода достигается использованием математическогоаппарата нечеткой логики и внутренних словарей системы при опреде-лении информационных расстояний между объектами.

Page 110: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

110

Рис. 3. Распределение клиентов по группам

На основе метода ADAKL были выделены группы клиентов и оп-ределение их доли от общего количества клиентов (рис. 3). Последую-щий анализ экономических показателей полученных групп объектов по-зволил дать названия кластерам, и разработать более целевую, направ-ленную на конкретную клиентскую группу тарифную политику, а такжепредложить им более выгодные условия по совершаемым видам опера-ций, увеличив количество этих операций и объем комиссионных сборов,что положительно повлияет на доходность данного направления дея-тельности кредитной организации. Дополнительная информацию о мето-дике адаптивной кластеризации представлена в публикации [5] и на сай-те научно-образовательного кластера CLAIM (http://philippovich.ru).

Литература1. Прытин Д. Крупнейшие брокеры России // Источник:

http://rating.rbc.ru.2. Нейский И.М. Классификация и сравнение методов кластериза-

ции // Интеллектуальные технологии и системы. Сборник учеб-но-методических работ и статей аспирантов и студентов. – М.:Изд-во ООО “Эликс +”, 2008. – Выпуск 8.

3. Speer N., Merz P., Spieth C., Zell A. Clustering Gene ExpressionData with Memetic Algorithms based on Minimum Spanning Trees.// University of Tubingen, Center for Bioinformatics. Источник:fs.informatik.uni-tuebingen.de.

Page 111: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

111

4. Штовба С. Д. Введение в теорию нечетких множеств и нечет-кую логику // Источник: matlab.exponenta.ru.

5. Нейский, И.М., Филиппович, А.Ю. Методика адаптивной кла-стеризации фактографических данных на основе интеграции ал-горитмов MST и Fuzzy C-means // Проблемы полиграфии и из-дательского дела. – М.: Изд-во МГУП, 2009. – №3.

6. Рыбаков Г. Построение минимального остовного дерева (алго-ритмы Крускала, Прима, Борувки). – 2005. Источник:http://rain.ifmo.ru.

ПРИМЕНЕНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ DEDUCTORДЛЯ АНАЛИЗА ПРЕЦЕДЕНТОВ ДИАГНОСТИКИ КРАНОВ МОС-

ТОВОГО ТИПА

Введение. Как показал опыт разработки системы поддержки при-нятия решений (СППР) технической диагностики, использование толькодвух источников знаний, а именно: экспертов и проблемно-ориентированных естественно-языковых текстов, часто приводит к не-полноте извлекаемых знаний.

В условиях приобретения знаний неполнота связана, в основном, стем, что эксперт не знает (не отметил, либо забыл отметить) какой-либофакт, необходимый для решения задачи. В этом случае возможны сле-дующие альтернативы преодоления неполноты: либо проведение не-скольких сеансов приобретения знаний с одним и тем же экспертом исравнение полученных результатов, либо привлечение нескольких экс-пертов и корреляция их мнений, а также использование технологии из-влечения знаний из баз данных – Data Mining.

Целью данной работы является применение технологии Data Miningв рамках аналитической платформы (АП) Deductor для разработки СППРпри решении одной из востребованных неформализованных задач – за-дачи технической диагностики кранов мостового типа.

Описание возможностей АП Deductor. Аналитическая платформаDeductor (разработчик – компания BaseGroup Labs) – программа, реали-зующая функции импорта, обработки, визуализации и экспорта данных.Составной компонент платформы – приложение Deductor Studio может

Климчук С.А., аспирант Восточноукра-инского национального университета им.В. Даля, г. Луганск, Украина

Page 112: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

112

функционировать и без хранилища данных, получая информацию из лю-бых других источников, но наиболее оптимальным является их совмест-ное использование. В Deductor Studio включен полный набор механиз-мов, позволяющий получить информацию из произвольного источникаданных, провести весь цикл обработки (очистку, трансформацию дан-ных, построение моделей), отобразить полученные результаты наиболееудобным образом (OLAP, диаграммы, деревья…) и экспортировать ре-зультаты на сторону.

Описание метода решения задачи. Сети, называемые картамиКохонена, – это одна из разновидностей нейронных сетей, которые ис-пользуют неконтролируемое обучение. При таком обучении обучающеемножество состоит лишь из значений входных переменных, в процессеобучения нет сравнивания выходов нейронов с эталонными значениями.Можно сказать, что такая сеть учится понимать структуру данных.

Наиболее распространенное применение сетей Кохонена – реше-ние задачи классификации без учителя, т.е. кластеризации. При такойпостановке задачи нам дан набор объектов, каждому из которых сопос-тавлена строка таблицы (вектор значений признаков). Требуется разбитьисходное множество на классы, т.е. для каждого объекта найти класс, ккоторому он принадлежит. В результате получения новой информации оклассах возможна коррекция существующих правил классификации объ-ектов.

Постановка задачи. Пусть имеется база данных прецедентов ди-агностики, содержащая сведения об обследованиях мостового крана завесь срок его эксплуатации. Необходимо выявить влияние таких факто-ров, как остаточный прогиб в вертикальной плоскости, искривление ба-лок и ферм в плане, наличие металла с ударной вязкостью меньше 2кгс·м/см2 на изменение коррозии.

Таким образом, входными параметрами будут:· остаточный прогиб;· искривление балок и ферм;· наличие металла с ударной вязкостью.Выходной параметр – изменение коррозии в%:· свыше 20% – не допускается;· от 10 до 20% – допускается, но с перерасчетом грузоподъемно-

сти;· менее 10% – допускается.Решение задачи средствами АП Deductor. Необходимо провести

кластеризацию параметров, т.е. выделить однородные группы на основепоказателей из базы данных.

Page 113: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

113

Сначала импортируем данные из файла в Deductor Studio. Затемзапускаем мастер обработки и выбираем из списка метод обработки Кар-та Кохонена. Далее следует настроить назначения столбцов, т.е. для ка-ждого столбца выбрать одно из назначений: входное, выходное, не ис-пользуется и информационное. Укажем столбцам Остат. прогиб, Ис-кривление, Ударн. вязкость назначение Входной. Выходной назначаемдля столбца Коррозия (рис. 1).

Следующий шаг предлагает разбить исходное множество на обу-чающее и тестовое. По умолчанию предлагаются следующие пропорции:обучающее – 95%, тестовое – 5%.

На следующем шаге предлагается настроить параметры карты: ко-личество ячеек по оси Х (по умолчанию – 16) и по оси Y (по умолчанию –12), а также их форму (шестиугольную или прямоугольную).

Рис. 1. Настройка назначений столбцов

На шаге «Настройка параметров остановки обучения» устанавли-ваем параметры остановки обучения и устанавливаем эпоху (по умолча-нию – 500), по достижению которой обучение будет прекращено.

На следующем шаге, представленном на рис. 2, настраиваютсядругие параметры обучения: способ начальной инициализации, типфункции соседства. Поскольку нам неизвестно количество кластеров,выберем автоматическое определение их количества.

Page 114: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

114

Рис. 2. Настройка параметров обучения

Далее запускаем процесс обучения сети – необходимо нажать накнопку Пуск и дождаться окончания процесса обучения. Во время обу-чения можем наблюдать изменение количества распознанных примерови текущие значения ошибок.

По окончании обучения в списке способов отображения данныхвыберем «Карта Кохонена», «Профили кластеров» и визуализатор «Что-если». На последнем шаге настраиваем отображения карты Кохонена.

На рис. 3 приведена иллюстрация карт входов и выходов, послед-няя – это карта кластеров. Здесь мы видим несколько карт входов исформированные кластеры, каждый из которых выделен отдельным цве-том.

Page 115: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

115

Рис. 3. Карты входов и выходов

Анализ полученных результатов. В результате решения задачиполучено 9 кластеров.

При анализе карт входов рекомендуют использовать сразу не-сколько карт. Исследуем фрагмент карты, состоящий из карт трех вхо-дов, который приведен на рис. 3.

На карте Остаточный прогиб выделяем область с наибольшимзначением показателя. Далее имеет смысл изучить эти же ячейки на дру-гих картах. Они расположены также в правом нижнем углу и относятся к9 кластеру, характеризующемуся самыми высокими показателями корро-зии.

Также мы можем определить, например, такую характеристику:кластер, расположенный в правом верхнем углу, характеризуется высо-кими значениями показателя искривления.

Для нахождения конкретного объекта на карте необходимо нажатьправой кнопкой мыши на исследуемом объекте и выбрать пункт «Найтиячейку на карте». В результате мы можем видеть как сам объект, так изначение того измерения, которое мы просматриваем. Таким образом,мы можем оценить положение анализируемого объекта, а также сравнитьего с другими объектами.

Данные по обследованию крана были классифицированы на 9групп, для каждой из которых возможно определение конкретных харак-теристик, исходя из раскраски соответствующих показателей.

Таким образом, карты Кохонена позволяют упростить многомер-ную структуру, их можно считать одним из методов проецирования мно-гомерного пространства в пространство с более низкой размерностью.Интенсивность цвета в определенной точке карты определяется данны-

Page 116: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

116

ми, которые туда попали: ячейки с минимальными значениями изобра-жаются черным цветом (в цветной палитре – темно-синим), ячейки смаксимальными значениями – белым (в цветной палитре – красным).

Другое принципиальное отличие карт Кохонена от других моделейнейронных сетей – иной подход к обучению, а именно – неуправляемоеили неконтролируемое обучение. Этот тип обучения позволяет даннымобучающей выборки содержать значения только входных переменных.Сеть Кохонена учится понимать саму структуру данных и решает задачикластеризации.

Заключение. Важным этапом в процессе Data Mining являетсяпредварительная подготовка данных, в том числе их очистка. От качест-ва подготовленных данных будут зависеть результаты всего процесса.

В процессе построения и выбора модели Data Mining следует про-бовать использовать различные методы и алгоритмы, а также их сочета-ния. При отсутствии опыта использования методов Data Mining лучшеначинать с более простых, поддающихся интерпретации моделей. Далееможно постепенно усложнять модели, т.е. использовать более сложныеметоды. Не следует требовать от модели абсолютной точности, модельможно начинать использовать при получении первых приемлемых ре-зультатов.

Следует помнить, что процесс Data Mining является итеративным.При невозможности получения результатов, которые эксперт предмет-ной области считает приемлемыми, необходимо вернуться на один изпредыдущих этапов процесса.

Рассмотренный пример демонстрирует большие возможности ана-литической платформы Deductor при решении широкого спектра задач,которые связаны с обработкой структурированных (табличных) данных.Он предоставляет аналитикам инструментальные средства, необходимыедля решения самых разнообразных аналитических задач, начиная от все-возможной аналитической отчётности и заканчивая созданием на его ба-зе СППР по технической диагностике кранов мостового типа.

Литература1. Deductor [Электронный ресурс]. – Электрон. дан. – 20.08.2010. –

Режим доступа: http://basegroup.ru/deductor. – Загл. с экрана.2. Барсегян А.А. Технологии анализа данных: Data Mining, Visual

Mining, Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов,В.В. Степаненко, И.И. Холод. – 2-е изд., перераб. и доп. – СПб.:БХВ – Петербург, 2007. – 384 с.

3. Хайкин С. Нейронные сети: полный курс / С. Хайкин. – 2-е изд.:Пер. с англ. – М.: Издательский дом «Вильямс», 2006. – 1104 с.

Page 117: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

117

4. Климчук С.А. Система поддержки принятия решений при диаг-ностировании кранов мостового типа на основе прецедентов /С.А. Климчук / Системный анализ и информационные техноло-гии: материалы 12-й Международной научно-технической кон-ференции SAIT 2010, Киев, 25-29 мая 2010 г. / УНК «ИПСА»НТУУ «КПИ». – К.: УНК «ИПСА» НТУУ «КПИ», 2010. – С.260.

МЕТОД КЛАСТЕРИЗАЦИИ ТЕКСТОВ HTECL

Стулов В.В., магистр техники и техно-логии, Филиппович А.Ю., доцент, Мос-ковский государственный техническийуниверситет им. Н.Э. Баумана

Введение. Кластеризация корпуса текстов есть разделение его нагруппы (кластеры) семантически подобных между собой текстов. Даннаяпроцедура может быть использована для анализа и поиска в большихтекстовых коллекциях, таких как web-страницы. Кластеризация резуль-татов поиска позволяет как выявлять среди релевантных документовгруппы наиболее релевантных, так и семантически группировать реле-вантные группы в тематические кластеры, а также образовывать иерар-хию кластеров (таксономию). Кластеризация результатов поиска приме-няется в Интернет-поисковиках Nigma и Clusty, однако выделяемые по-исковыми машинами кластеры не являются тематическими.

В статье представлен метод дивизимной иерархической кластери-зации HTECL. Ключевыми особенностями метода являются: использо-вание векторной модели текста, ориентированной на семантику, отсутст-вие предопределенной формы получаемой таксономии, применение не-четкой сети Кохонена для кластеризации на каждом уровне иерархии,отсутствие необходимости задания числа кластеров на каждом уровнеиерархии, кластеризация ограниченного набора элементов, устранениеошибок классификации за счет введения процедуры слияния кластеров.

Модели представления текста. Существует множество подходовк формализации корпуса текстов и соответствующих им алгоритмов кла-стеризации. Алгоритм представленный в [2] использует множество час-тотных слов всего корпуса текстов для дальнейшего распределения от-дельных текстов по кластерам, руководствуясь принципом минимумапересечения кластеров. Основным преимуществом используемого под-

Page 118: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

118

хода является быстрота кластеризации, однако точность кластеризацииявляется относительно малой. Алгоритм [3] использует в своей работесуффиксное дерево корпуса текстов.

Основным преимуществом алгоритмов, использующих модельсуффиксного дерева, является быстрота кластеризации. Форма суффикс-ного дерева зависит от порядка слов в предложении, что отрицательносказывается на точности кластеризации. Кроме того, данная структуране ориентирована на выявление и использование семантики текстов. Со-гласно источникам [2], [5] получающиеся в результате работы алгорит-мов кластеры определяются некачественно.

Решением проблемы точности кластеризации является использо-вание структуры суффиксного дерева синтаксем в качестве модели кор-пуса текстов. В данной модели метками дуг дерева являются не отдель-ные слова, а синтаксемы предложений либо их части. Однако данныхподход имеет недостаток связанный с трудоемкостью определенияфункции слова в предложении. Эта процедура требует построения спе-циальных электронных словарей.

Большинство существующих алгоритмов кластеризации исполь-зуют в своей работе формальные модели отдельных текстов, а не целогокорпуса. В качестве основной модели текста выступает векторная мо-дель. В этой модели текст представляет собой точку в многомерном про-странстве признаков. Под признаком понимается любое слово, присутст-вующее в конкретном тексте, либо его основная форма (лемма). Самойпростой моделью является бинарный вектор:

),...,( 1 mttd = , }1,0{,,1 Î=" itmi , (1)указывает, содержит ли текст слово, ассоциированное с признаком i. Вданном виде векторная модель практически никогда не используется, таккак в ней не учитывается относительный семантический вес признаков.В большинстве случаев вес признака учитывается посредством вычисле-ния относительной частоты данного признака либо внутри документа,либо по всему кластеризуемому корпусу. В первом случае значение

NNtt i

i = , где Nti – число раз, которое признак i встречается в тексте, N –

общее число слов текста. Во втором случае (так называемая мера TF-

IDF)i

ii D

DN

Ntt log×= , где D – общее число документов корпуса, Di – чис-

ло документов, в которых встречается признак i. Большой вес в TF-IDFполучают слова (леммы) с высокой частотой в пределах конкретного до-кумента и с низкой частотой употреблений в других документах. Боль-шую частоту как в модели частотного словника так и, зачастую, в модели

Page 119: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

119

TF-IDF получают семантически не значимые, однако высоко частотныепредлоги и союзы. Поэтому алгоритмы, использующие данные моделиисключают из пространства признаков данные слова.

Основной проблемой подходов формирования вектора текста наоснове частот признаков заключается в том, что эти модели не учитыва-ют взаимные связи между словами в предложениях, которые отражаютего семантику. Для примера рассмотрим два предложения: 1. На краюдороги стоял дуб. 2. Это был огромный, в два обхвата дуб, с обломан-ными давно, видно, суками и с обломанной корой, заросшей старыми бо-лячками. Видим, что семантический вес слова "дуб" выше во второмпредложении, чем в первом, за счет его богатого описания.

Для учета семантического веса слов в предложении разработанныйметод использует модель векторного представления текста, предложен-ную в [4]. Данная модель ранжирования весов признаков используетпредположение от том, что чем больше связей у слова в дереве синтак-сического разбора текста, тем больше его вес в данном предложении.

Приведем алгоритм формирования векторов текстов предлагаемо-го метода кластеризации.

1. Морфологический и синтаксический анализ текста. Выполняет-ся с помощью программы Cognitive Dwarf [8]. На данном этапелемматизируются слова, содержащиеся в тексте и строится де-ревья синтаксического разбора предложений.

2. Строится матрица М размера n x n, где n – число слов в текста заисключением союзов и предлогов. Каждый элемент матрицы mij

равен числу связей вида терминi → терминj и терминj →терминi в дереве синтаксического разбора текста.

3. Вектор модели }{ ivV = , где å=j

iji mv .

В качестве примера рассмотрим модель текста, состоящего из сле-дующего предложения: Применение данной модели позволило достичьвысокого качества кластеризации.

На рис. 1 изображено дерево синтаксического разбора текста, атакже указаны получаемые веса терминов.

Применяемый подход имеет недостаток. Он заключается в том, чтовсе связи графа считались одинаково значимыми и их веса были заданызначением 1. В [4] для задания силы связи между словами использова-лось машинное обучение. Это позволило повысить точность кластериза-ции на ~8% (точность оценивалась как отношение числа документов,классифицированных верно к общему числу документов). Однако пра-вомочность задания силы связи между словами вызывает сомнения. Ведьсвязи слов в предложении отличаются между собой своей семантикой и

Page 120: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

120

связи двух одинаковых слов в различных предложениях могут быть се-мантически разными. Для строгой разметки графа синтаксического раз-бора текста целесообразнее использовать модель связей, приведенную в[7]. В этой модели каждое слово в предложении играет свою функцию.

Рис. 1. Формирование векторного представления текста

Другим путем улучшения качества модели текста является под-ключение на этапе препроцессинга текста специального модуля с функ-цией тезауруса, который устраняет негативные последствия синонимии иомонимии, выполняет замену местоимений. Однако разработка такогомодуля трудоемка, его внедрение уменьшает скорость всей процедурыкластеризации.

Мера сходства текстов. Разработанный метод кластеризацииHTECL использует формулу (2) в качестве меры расстояния между век-торами текстов:

ååå ×-×k

jkikk

jkk

ikji xxxxD )(),( ''22xx , (2)

где 'ikx и '

jkx – координаты нормализованных векторов xi и xj.Сокращение размерности пространства признаков. Существует

два основных способа сокращения размерности - локальный метод и ме-тод латентно-семантического анализа. HTECL в своей работе используетлокальный метод – отдельные компоненты вектора документа (сумма vi

соответствующего терма по всем документам корпуса ниже определен-ного порога), исключаются из рассмотрения.

Определение числа кластеров. Определение числа кластеров яв-ляется актуальной проблемой многих алгоритмов. Платформа Deductorиспользует алгоритм g-means, требующий задания пользователем «уров-ня значимости» для выявления количества кластеров.

Page 121: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

121

Приведем теперь особенности разработанного метода нейросете-вой кластеризации HTECL. Согласно алгоритму обучения нечеткой сетиКохонена, векторы синапсов, от итерации к итерации стремятся к цен-трам плотных скоплений точек многомерного пространства, которые на-ходятся к ним ближе всего согласно выбранной меры. Рассмотрим слу-чай постепенного увеличения количества нейронов. Пусть изначальночисло нейронов меньше чем число кластеров. В этом случае в результатепроведения кластеризации центр кластера будет находиться между плот-ными скоплениями точек со смещением к скоплению большей мощности( рис 2).

Рис. 2. Постепенное увеличение числа кластеров

Таким образом, значение функцииk

avgkf

k

pijiå

== 1μ

)( , где ijiavg μ –

средняя по кластеру принадлежность входящего в него вектора, будетмонотонно возрастать при стремлении k → k’, где k’ – общее число плот-ных скоплений векторов. Вектор j считается принадлежащим кластеру i,

еслиkij

%100>m . При k > k’ значение функции f(k) уменьшится, так как k

возрастет, а средняя принадлежность уменьшится за счет того, что одноиз скоплений будет поделено на два кластера (большая часть точек будетравноудалена от двух нейронов), рис 3.

Благодаря этому свойству алгоритма обучения сети Кохоненаможно определить число кластеров (плотных скоплений) в обучающейвыборке.

Page 122: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

122

Рис. 3. k > k’

Таким образом, на каждом этапе иерархической кластеризациичисло кластеров первого уровня будем определять итеративно по точкеэкстремума функции f(k). При этом k = 2/,2 N – в каждом кластередолжно быть не менее двух текстов.

Сокращение времени кластеризации. Вычислительная сложностьалгоритма обучения нечеткой сети Кохонена линейно зависит от числавекторов обучающей выборки. Для сокращения времени кластеризациина каждом уровне иерархии будем кластеризовать не всю выборку, а не-которую ее долю, мощность которой задается пользователем. Оставшие-ся векторы подвергаются классификации. Затем кластеризация продол-жается для каждого из определенных укрупненных кластеров, таким об-разом мы получаем вложенную иерархию кластеров.

Рассмотрим случаи, которые могут возникать в случае кластериза-ции неполной выборки.

1 случай–- кластеры определены верно.RCxdXx £Î" ),(, , где x –объекты кластера X, С – точка-

центроид, R – радиус первичного кластера.Данное событие можно отследить, если каждый из классифициро-

ванных векторов удален от центра кластера на расстояние, меньшее, чемрадиус кластера. Под радиусом кластера понимается расстояние от цен-тра кластера до наиболее удаленного от него вектора, принадлежащегоэтому кластеру.

2 случай – укрупненный кластер не является плотным скоплениемвекторов.

XXXX jii Î$ + ,...,, 1 , где X – кластер высокого уровня, Xi,…,Xj –подкластера.

В данном случае в укрупненный кластер попадают несколькоблизких друг другу более мелких кластера, рис 4.

Page 123: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

123

Рис. 4. Укрупнение кластеров

Данный случай является идеальным с точки зрения иерархическойдивизимной кластеризации. На более высоком уровне мы определиликрупный кластер, который распадется на два или более в результатедальнейшей кластеризации. Начальные положения центров кластеровпри последующем запуске процедуры также будут выбираться случай-ным образом. Таким образом мы строим иерархию групп текстов.

3 случай - укрупненные кластеры разделяют между собой один илинесколько кластеров.

ZyxYyXx ii =ÈÎ$Î$ :, , где X, Y, Z – кластеры высокого уровня,x, y – объекты кластеров X и Y.

Данный случай приведен на рис. 5. При переходе на нижний уро-вень иерархии образуется множество новых кластеров. Для обнаружениякластера, более высокого уровня, необнаруженного ранее следует прове-рить все эти кластера на возможность слияния.

Рис. 5. Необнаруженный кластер

Page 124: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

124

4 случай – укрупненные кластеры являются одним кластером.ZyYyZxXx ÎÎ"ÎÎ" :^: , где X, Y, Z – кластеры, x, y – объекты

кластеров X и Y.Этот случай иллюстрируется на рис. 6.

Рис. 6. Неверное разделение кластера

В данном случае каждый из укрупненных кластеров при после-дующей кластеризации не разделиться на подкластеры. Поэтому на каж-дом этапе кластеризации необходимо проверять возможность слиянияполученных кластеров.

5 случай - укрупненный кластер содержит часть другого класте-ра.

YxXx ÎÎ$ : , где X, Y, Z – кластеры, x, y – объекты кластеров X иY.

Этот случай иллюстрируется на рис. 7.

Рис. 7. Укрупненный кластер содержит часть другого кластера

Итого на каждом этапе кластеризации необходимо проверять по-лученные кластеры на необходимость их слияния, слияния подкластеровс подкластерами другого кластера, слияния подкластеров с другими кла-стерами высокого уровня.

Алгоритм. Приведем теперь формальное описание разработанногометода кластеризации текстов HTECL.

Page 125: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

125

Этап 1. Препроцессинг текстовых файловШаг 1. Морфологический анализ текстовых файлов.Производится для удаления из рассмотрения семантически незначи-

мых слов (предлоги и союзы) и лемматизации значимых.Шаг 2. Синтаксический анализ текстовых файлов.Строятся деревья синтаксического разбора предложений.Шаг 3. Формирование векторов текстов.Этап 2. Сокращение размерности пространства признаковЭтап 3. Кластеризация части векторов с помощью нечеткой сети

КохоненаДля определения количества кластеров используется алгоритм, при-

веденный в п.2.2.Этап 4. Классификация оставшихся векторовЭтап 5.Проверка списка подлежащих докластеризации кластеровЕсли список пуст, то переход к этапу 6. Иначе, переход к этапу 8.Этап 6. Процедура слияния кластеровПроцедура описана в [10].Этап 7. Определение списка кластеров, подлежащих докластериза-

цииВ случае если количество уровней иерархии не ограничено пользо-

вателем, в список заносятся все листьевые кластера с количеством эле-ментов большим двух.

Этап 8. Извлечение кластера на докластеризациюИз списка кластеров, подлежащих докластеризации, выбирается

очередной кластер. Переход на этап 2. Если список пуст, переход на этап9.

Этап 9. КонецДля оценки метода была осуществлена серия испытаний. В качест-

ве корпуса текстов был выбран Reuters-21578. Точность кластеризациисоставила ~74%, что на ~10% выше точности алгоритма k-means на томже наборе исходных данных.

Литература1. Feldman R., Sanger J. The Text Mining Handbook. – Cambridge

University Press, 2006.2. Beil F., Ester M., Xu X. Frequent Term-Based Text Clustering //

Proc. 8th ACM SIGKDD Int. Conf. on Knowledge Discovery andData Mining (KDD ‘2002), Edmonton, Alberta, Canada, 2002.

3. Zamir O., Etzioni O. Web Document Clustering: A FeasabilityDemonstration // Proc. ACM SIGIR 98, 1998, P. 46-54.

4. Choudhary B., Bhattacharyya P. Text Clustering using Semantics //The Eleventh International World Wide Web Conference, 2002.

Page 126: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

126

5. А.М. Андреев, Д.В. Березкин, В.В. Морозов, К.В. Симаков: Ме-тод кластеризации документов текстовых коллекций и синтезааннотаций кластеров // Электронные библиотеки: перспектив-ные методы и технологии, электронные коллекции: ДесятаяВсерос. научн. конф., 2008.

6. Magnus Rosell: Introduction to Information Retrieval and Text Clus-tering, KTH CSC, 2006.

7. Г.С. Осипов, И.В. Смирнов, И.А. Тихомиров: "Реляционно-ситуационный метод поиска и анализа текстов и его приложе-ния", Искусственный интеллект и принятие решений 2008 / 02

8. Описание программного пакета синтаксического разбора и ма-шинного перевода, Cognitive Technologies, Ltd., 2006.

9. Нейский И.М.: Классификация и сравнение методов кластери-зации. // Интеллектуальные технологии и системы. Сборникучебно-методических работ и статей аспирантов и студентов.Выпуск 8. – М.: Изд-во ООО “Эликс +”, 2008. – С. 111-122.

10.Стулов В.В. Методика нейросетевой кластеризации корпусатекстов. IV всероссийская студенческая научно-техническаяконференция “Прикладная информатика и математическое мо-делирование”, 19-20 мая 2010 года, МГУП [в печати].

ПОПУЛЯЦИОННО-ГЕНЕТИЧЕСКИЕ МЕТОДЫ РЕШЕНИЯ ЗА-ДАЧ ДИСКРЕТНОЙ ОПТИМИЗАЦИИ ПОВЫШЕННОЙ РАЗМЕР-

НОСТИ1

Паклин Н.Б., доцент Рязанского госу-дарственного университета им.С.А.Есенина, г. Рязань, Крепышев Д.А.,старший преподаватель Кубанского го-сударственного аграрного университе-та, г. Краснодар

Введение. В практике экономико-математического моделированиячасто встречаются задачи дискретного программирования повышеннойразмерности (тысячи переменных). Задачи подобного рода встречаются всельском хозяйстве, промышленности, управлении, однако, решаются неудовлетворительно. Программные комплексы, базирующиеся в основном

1 Работа поддержана грантом РФФИ №10-01-00070-а

Page 127: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

127

на модифицированных симплекс-методах, плохо приспособлены для ре-шения такого рода задач, хотя их разработчики добились определенныхуспехов [1].

Поэтому актуальным представляется разработка и исследованиеметодов, направленных на устранение недостатков модифицированныхсимплекс-методов. Большое поле для этой деятельности в последние го-ды предоставили эволюционные алгоритмы, в особенности популяцион-ные и ройные. Из первых следует выделить генетические алгоритмы(ГА), обсуждению которых применительно к задачам дискретной опти-мизации повышенной размерности посвящена эта статья.

Задачи повышенной размерности. В работах исследователейможно встретить следующее условное деление задач по их размерности[5, 6]: малоразмерные задачи (с матрицей от 1000x1000 до 4000x4000),задачи повышенной размерности (от 4000x4000 до 6000x6000) и задачибольшой размерности (от 6000x6000 до 10000x10000). Конечно, такоеделение меняется с ростом вычислительных возможностей компьютер-ной техники. Однако можно сформулировать общее правило отнесениязадачи к классу повышенной размерности: когда стандартные алгоритмыи программные средства не позволяют получить за ограниченное времяприемлемое решение. Ограничение по времени может быть продиктова-но максимально допустимым временем отклика в системе поддержкипринятия решений, либо разумными пределами ожидания (несколькоминут, часов). В этом случае наблюдается противоречие между экспо-ненциальным ростом вычислительной сложности, с одной стороны, ипостоянно растущими ограничениями по времени решения, с другойстороны. Сегодня очевидно, что без эвристических, гибридных методовданное противоречие не разрешить.

Перечислим наиболее распространенные прикладные задачи дис-кретной оптимизации: задача об укладке рюкзака, задача коммивояжера,одномерный раскрой листовых материалов разных размеров, задача опокрытии множества системой его подмножеств, оптимизация структу-ры атомного кластера, транспортные задачи, составление планов и рас-писаний. Их математические постановки хорошо описаны в соответст-вующей литературе [1, 3, 4, 7]. К традиционным методам решения этихзадач относят экспоненциальные алгоритмы, которые строятся на основесвойств целевой функции и ограничений. Наиболее известны [8]: сим-плекс-метод для решения задач целочисленной оптимизации с линейны-ми ограничениями; группа методов последовательного анализа и отсеи-вания вариантов, который является развитием метода «ветвей и границ»для задачи дискретной оптимизации с неубывающими целевыми функ-циями, и позволяет по анализу некоторого числа вариантов отсеивать

Page 128: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

128

большее число, последовательно уменьшая множество вариантов до раз-меров, удовлетворительных для использования прямого перебора. Этотак называемые точные методы. Параллельно развивались приближен-ные методы: локальная оптимизация, эвристические процедуры, макси-мально учитывающие специфику решаемых задач, метод вектора спада,метод направляющих окрестностей, методы случайного поиска и другие[8].

Популяционно-генетические методы. В последние годы накоп-лены десятки тысяч исследовательских работ посвященные эволюцион-ным вычислениям. Их разновидность, генетический алгоритм (ГА), от-носится к классу методов случайного направленного поиска и, могутбыть отнесены к классу приближенных методов дискретной оптимиза-ции. В отличие от простого случайного поиска, они основаны на прин-ципах, заимствованных у природы. Это механизмы генетической наслед-ственности и естественного отбора. Впервые ГА был предложен Гольд-бергом в 1989 г. на основе идей, изложенных Дж. Холландом в своей ра-боте «Адаптация в естественных и искусственных системах» (1975) [1].

Основная идея генетического алгоритма состоит в создании попу-ляции особей (индивидов), каждая из которых представляется в видехромосомы [4]. Любая хромосома есть возможное решение рассматри-ваемой оптимизационной задачи. Для поиска лучших решений необхо-димо только значение целевой функции, или функции приспособленно-сти. Значение функции приспособленности особи показывает, насколькохорошо подходит особь, описанная данной хромосомой, для решения за-дачи.

Хромосома состоит из конечного числа генов, представляя генотипобъекта, т.е. совокупность его наследственных признаков. Процесс эво-люционного поиска ведется только на уровне генотипа. К популяцииприменяются основные биологические операторы: скрещивания, мута-ции, инверсии и др. В процессе эволюции действует известный принцип«выживает сильнейший». Популяция постоянно обновляется при помо-щи генерации новых особей и уничтожения старых, и каждая новая по-пуляция становится лучше и зависит только от предыдущей. Основноеотличие ГА от традиционных (точных) методов поиска оптимумов со-стоит в том, что ГА с каждой эпохой улучшает оптимальное решение, ноне гарантирует нахождение лучшего за конечный промежуток времени.

Классическая схема ГА включает следующие шаги [1].1. Задать начальный момент времени t = 0. Создать начальную

популяцию из k особей (размер популяции) }...,,,{ 210 kAAAP = .2. Рассчитать приспособленность каждой особи kiAF i ,1),( = .

Page 129: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

129

3. Выбрать из популяции две особи jiAA ji ¹,, .4. Выполнить оператор кроссовера и мутации. В результате гене-

рируется новая особь B (потомок). В некоторых модификацияхалгоритма после скрещивания могут быть созданы несколькопотомков (например, два).

5. Поместить полученную хромосому (или несколько хромосом) вновую популяцию Pt+1.

6. Выполнить оператор редукции, т.е. сократить размер новой по-пуляции до исходного размера.

7. Выполнить шаги, начиная с п. 3, k раз.8. Увеличить номер текущей эпохи t = t + 1.9. При срабатывании условия останова завершить работу, иначе

перейти на шаг 2.Таким образом, генетический алгоритм можно записать в виде кор-

тежа:>=< tFMCSnkPGA ,,,,,,,0 ,

где P0 – исходная популяция; k – ее размер; n – количество генов в хро-мосоме; S, С, M – операторы отбора, кроссовера и мутации соответст-венно; F – функция приспособленности (фитнеса); t – критерий останова.

Для представления генотипов особей в популяции используютсяразличные схемы кодирования. Наиболее распространенным являетсядвоичное кодирование. Все генетические операции проводятся исключи-тельно на уровне генотипа, т.е. с битовой строкой, а фенотип объекта ис-пользуется при определении приспособленности особи.

При старте ГА начальная популяция, как правило, формируетсяслучайным образом. Далее из популяции выбираются родители – двехромосомы, к которым будет применен оператор скрещивания (кроссо-вера), т.е. работает оператор отбора (селекции) S. Наиболее часто в ГАприменяют следующие типы оператора отбора [3].

1. Вероятностный выбор особей. Случайным образом выбираютдве хромосомы ,, 1 tjj PAA Î+ 1+¹ jj AA , k – размер популяции.При таком способе селекции частота образования пары зависиттолько от численности популяции и не зависит от функцииприспособленности особи.

2. Турнирный отбор является модификацией вероятностного от-бора. Случайно выбираются несколько особей из популяции(например, две) и победителем выбирается особь с наибольшейприспособленностью. Данная процедура повторяется дважды,для выбора каждого родителя.

Page 130: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

130

3. Пропорциональный отбор с использованием функции фитнеса,который моделирует природный принцип «выживает сильней-ший». Вероятность выбора особи для скрещивания вычисляет-ся по формуле

å=

= k

jj

ii

AF

AFA

1)(

)()(r . (1)

Согласно (1) вероятность передачи признаков более приспособ-ленными особями возрастает, и одна особь может быть выбрана для не-скольких родительских пар.

Оператор скрещивания (кроссовер) моделирует природный меха-низм передачи наследственной информации от родителей к потомкам.Он также имеет множество реализаций. В классическом операторе крос-совера Холланда результатом скрещивания двух хромосом )...( 11

11 nccC =

и )...( 2212 nccC = являются два потомка ),...,,,...,( 22

111

11 ni ccccHi += и

),...,,,...,( 111

2212 ni ccccH

i += , где i – случайное натуральное число из множе-ства }1,...,1{ -n (точка разбиения).

Оператор кроссовера выполняется с некоторой вероятностью, на-зываемой вероятностью скрещивания. Обычно она изменяется в преде-лах от 0,6 до 1,0.

Оператор мутации предназначен для поддержания разнообразияособей в популяции и предотвращения преждевременного сжатия про-странства поиска. Он выполняется с некоторой вероятностью (вероятно-стью мутации) для каждого бита хромосомы и заключается в его инвер-тировании. В некоторых реализациях ГА мутации может быть подверг-нут только один случайно выбранный бит хромосомы. Вероятность му-тации выбирается достаточно малой, обычно в диапазоне 10-2…10-4.

При формировании новой популяции работает оператор отбора по-лученных в результате скрещивания и мутации новых индивидов. Новаяпопуляция должна быть сокращена до исходного размера, и для этого изнее удаляются менее приспособленные особи, т.е. с наименьшими значе-ниями функции фитнеса. На этапе отбора может использоваться страте-гия элитизма, которая заключается в том, что часть особей (в простей-шем случае – одна) с наибольшей приспособленностью гарантированнопереходят в новую популяцию без всяких изменений [3].

Критерием останова генетического алгоритма может выступать ог-раничение на максимальное количество поколений, или когда средняяприспособленность популяции, определяемая по формуле

Page 131: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

131

k

HFHF

k

iiå

== 1)(

)( ,

перестает изменяться заданное число эпох.Высокая эффективность отыскания глобального минимума или

максимума генетическим алгоритмом теоретически обоснована в фунда-ментальной теореме генетических алгоритмов («теореме о шаблоне»),доказанной Холландом [1]. С ее помощью доказано, что эффективностьотыскания оптимума генетическим алгоритмом определяется выбраннойсхемой кодирования, используемыми операторам селекции, кроссовера имутации параметрами.

В настоящее время генетические алгоритмы хорошо исследованы ишироко применяются для решения комбинаторных и оптимизационныхзадач в экономике, технике и науке. Разработано большое количестворазновидностей и модификаций простого ГА, учитавающих спецификуконкретных задач: осровные, микро, ниши, клеточные, коэволюционные,иерархические, гибридные [3].

Адаптация популяционно-генетических методов к задачам по-вышенной размерности. Несмотря на многочисленные достоинства, всепопуляционно-генетические алгоритмы имеют ряд недостатков, которыемешают процессу поиска оптимального решения: потеря разнообразия впопуляции и преждевременная сходимость. При решении задач повы-шенной размерности сюда добавляется проблема низкой точности полу-ченного решения, которая особенно сильно проявляется при оптимиза-ции непрерывных овражных функций [8]. Большая размерность поискане позволяет исследовать за приемлемое время все пространство воз-можных решений, а, при нахождении хромосомы, значительно улуч-шающей фитнес-функцию, имеем высокую вероятность потери решения.Первая проблема решается распараллеливанием работы генетическогоалгоритма и специальными стратегиями генерации начальной популя-ции. Причем распараллеливание возможно в двух аспектах: организаци-онный – формируется несколько независимых субпопуляциий, которыепериодически обмениваются лучшими особями, и вычислительный – ра-бота субпопуляций ведется на многопроцессорных вычислительных сис-темах с массовым параллелизмом, чем достигается масштабируемость,близкая к линейной.

На практике генетические алгоритмы нередко используют совме-стно с другими методами, которые позволяют повысить их точность,разрабатывая так называемые гибридные схемы. Очень часто объедине-ние ГА с традиционными методами дает синергетический эффект в видевысокой точности и скорости получаемых решений. Так, в работе [9]

Page 132: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

132

один из авторов этой статьи исследовал гибридный генетический алго-ритм для решения задач оптимизации в непрерывных пространствах. Оноснован на параллельной работе генетических операторов и какого-либоградиентного метода. В популяции, созданной генетическим алгорит-мом, выбирается лучшая особь – лидер. Этот лидер обучается отдельнопо градиентному методу. Если его качественный показатель при этомлучше, чем у всех остальных особей в популяции, то он вводится в попу-ляцию и участвует в воспроизводстве потомков. Если же появляетсяособь в популяции, полученная в результате эволюции, с лучшим пока-зателем, то лидером становится она. Исследование предлагаемого гиб-ридного алгоритма проводилось на основе двух видов генетических ал-горитмов (в бинарных и вещественных кодах) и трех типов градиентныхметодов (метод наискорейшего спуска, метод сопряженных градиентов,квазиньютоновский метод или метод переменной метрики). Тестирова-ние на сложных овражных функциях показало его высокую эффектив-ность. За несколько сотен итераций им был найден глобальный минимумфункции Розенброка размерностью 2000 с точностью 10-5 (известные ал-горитмы оптимизации не справились с задачей такой размерности).

Исходя из вышесказанного, можно предположить о большом по-тенциале гибридных схем традиционных методов дискретной оптимиза-ции и генетических алгоритмов. Такие попытки уже делались. Так, в ра-боте [10] предложена гибридная схема ГА и метода ветвей и границ длярешения задач календарного планирования. В нем вводятся несколькоэвристик на начальном этапе поиска для определения верхней границы идалее используется генетический алгоритм в процессе уточнения значе-ний верхней границы. Эксперименты авторов показывают, что опти-мальность ветвей и границ в этом случае достигается чаще. Еще в однойработе [11] решается эта же задача, но с точки зрения сокращения време-ни поиска, которое удается сократить в среднем на 25% при помощи ис-пользования генетического алгоритма.

Таким образом, анализ текущего состояния проблемы показывает,что исследование новых эффективных методов для дискретной оптими-зации в пространствах повышенной размерности должна вестись в об-ласти разработки гибридных схем с применением эволюционных алго-ритмов.

Литература1. Бершицкий Ю.И., Нечаев В.И., Горячев Ю.О., Бондаренко В.В.

Расчет технико-экономических характеристик машинно-тракторного парка сельхозпредприятий. РОСПАТЕНТ. Свиде-тельство № 2006611933.

Page 133: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

133

2. Holland J.H. Adaptation in Natural and Artificial Systems. – TheUniversity of Michigan Press, University of Michigan, Ann Arbor,1975.

3. Скобцов Ю.А. Основы эволюционных вычислений. Учебное по-собие. – Донецк: ДонНИУ, 2008.

4. Подлазова А.В. Генетические алгоритмы на примерах решениязадач раскроя // Информационные технологии в управлении. –№ 2. – 2008. – С. 57-63.

5. Неймарк Е.А. Адаптация оптимальных решений нестационар-ных комбинаторных задач с помощью популяционно-генетических методов // Автореф. дис. на соиск. уч. степ. канд.техн. наук; НГУ им. Лобачевского. – Н. Новгород, 2008.

6. Кочетов Ю.А. Методы локального поиска для дискретных задачразмещения // Автореф. дис. на соиск. уч. степ. канд. физ.-мат.наук; Ин-т математики им. С.Л. Соболева СО РАН. – Новоси-бирск, 2009.

7. Нгуен М.Х. Разработка и реализация численных методов реше-ния оптимизационных задач большой размерности // Автореф.дис. на соиск. уч. степ. канд. физ.-мат. наук; Вычислительныйцентр им. А.А. Дородницына РАН. – Москва, 2009.

8. Сергиенко И. В. Математические модели и методы решения за-дач дискретной оптимизации. – Киев: Наукова Думка, 1988.

9. Паклин Н.Б., Сенилов М.А., Тененев В.А. Интеллектуальныемодели на основе гибридного генетического алгоритма с гради-ентным обучением лидера // Искусственный интеллект. – До-нецк: Наука i освiта. – 2004. – № 4. – С. 159-168.

10.Portmann M.-C., Vignier A. Branch And Bound Crossed With GATo Solve Hybrid Flowshops // European Journal of Operational Re-search. – 1998. – V. 107. – №2. – P. 389-400.

11.Morita H., Shio N. Hybrid Branch and Bound Method with GeneticAlgorithm for Flexible Flowshop Scheduling Problem // JSME In-ternational Journal Series C. – Vol. 48 (2005). – №1. – P.46-52.

Page 134: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

134

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В СИСТЕМЕ ПРО-ТИВОДЕЙСТВИЯ РАСПРОСТРАНЕНИЮ ЭПИДЕМИЙ ГРИППА

Боев Б.В., зав. лаб. Эпидемиологическойкибернетики НИИЭМ им. Н.Ф. Гамалеи,Болотова Л.С., профессор, ДеминаН.Н., студент, Российский государст-венный университет инновационныхтехнологий и предпринимательства, г.Москва

Среди масштабных бед и катастроф, сопровождающих всю исто-рию человечества, наряду с голодом, войнами и стихийными бедствия-ми, первостепенное значение имеют эпидемии тяжелых инфекционныхболезней. По своей социальной значимости, огромному ущербу, наноси-мому здоровью населения и экономике, грипп находится на первом мес-те среди всех заболеваний человека [1]. Заболеваемость гриппом и грип-поподобными инфекциями превышает суммарную заболеваемость всемиостальными инфекциями. Нет ни одной болезни человека, сравнимой внастоящее время по этому показателю с гриппом. На долю гриппа и ОРЗприходится 10-30 % временной нетрудоспособности населения. В от-дельные годы грипп и ОРЗ составляли до 40 % всех заболеваний взрос-лых, зарегистрированных в поликлинике, более 80 % всей инфекционнойпатологии, более 60 % заболеваний среди детей. Наибольшая смертностьот гриппа регистрируется в период эпидемий, вызываемых новыми анти-генными вариантами вируса гриппа А. Эпидемии гриппа существенновлияют на общую смертность населения и смертность от соматическихзаболеваний. Установлено, что эпидемии гриппа сопровождаются выра-женной дополнительной смертностью населения от других заболеваний.Помимо вреда, наносимого непосредственно здоровью населения, эпи-демии гриппа дают значительный экономический ущерб экономикестран за счет потерь рабочего времени, выплат по социальному страхо-ванию заболевшим и затрат на лечебные и профилактические мероприя-тия.

В СССР в НИИЭМ им Н.Ф. Гамалеи РАМН ещё в 60-е годы былоорганизовано научное направление исследований, связанное с оператив-ным анализом и прогнозом массовых эпидемий на основе компьютерно-го моделирования. В институте была создана лаборатория эпидемиоло-гической кибернетики, которая была и остается ведущим центром Рос-сии по разработке и применению математических и компьютерных мо-делей для изучения эпидемий, анализа и прогноза их социально-

Page 135: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

135

экономических последствий [9]. Компьютерный инструментарий про-гнозирования эпидемий гриппа, используемый в лаборатории, основанна модели эпидемии гриппа типа Кермака-МакКендрика с феноменоло-гией инфекции типа SEIRF [3]. В работе использовались соотношенияматематической модели эпидемии гриппа [2], которая определена 5-юстадиями-состояниями развития гриппозной инфекции (схема инфекцииSàEàIà[R,F]), где: S – восприимчивые к инфекции люди, E – зара-женные люди в инкубации, I – инфекционные, заразные больные, R –переболевшие, иммунные (реконвалесценты), F – умершие от осложне-ний больные.

В этой модели все расчеты по анализу и прогнозу эпидемическогопроцесса гриппа выполняются по системе нелинейных дифференциаль-ных уравнений с соответствующими начальными условиями эпидемии.Данная модель обеспечивает хорошую точность анализа процессов ре-альной эпидемии гриппа (верификация модели) и прогнозирования эпи-демического процесса гриппа при различных сценариях реализации мерпротиводействия – программа вакцинации населения, а также экстрен-ной профилактики, диагностики, терапии, изоляции инфекционныхбольных, мер по социальному воздействию на группы риска населения.В настоящее время ввод значений параметров эпидемии (доля восприим-чивого населения, интенсивность взаимодействия между людьми) и пе-ребор вариантов противодействия распространению эпидемии в про-грамме SEIRF производится вручную – специалистом-эпидемиологом(экспертом) на основании своих знаний и опыта. Это обстоятельствовносит субъективизм в выбор значений параметров моделирования, де-лает невозможным исследование влияния на развитие эпидемии всехвозможных сочетаний мер противодействия, затрудняет обоснование не-обходимости применения тех или иных мер, полученных по итогам мо-делирования.

Для устранения этих проблем в 2009 мы начали разработку систе-мы противодействия распространению эпидемий гриппа (СПЭГ), взяв заоснову пассажиропоток воздушного транспорта. Структура СПЭГ пред-ставлена на рис. 1. В ней выделены следующие подсистемы:

· модуль сбора и анализа информации о воздушных полетах;· база данных городов мира с характеристиками;· математическая модель эпидемии гриппа;· база знаний с правилами оценки эпидемиологической опасно-

сти территории (города, района и т.п.);· система поддержки принятия решений и выдачи рекомендаций

по выбору мер противодействия эпидемии.

Page 136: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

136

Рис.

1. С

трук

тура

СП

ЭГ

Page 137: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

137

Рассмотрим кратко основную схему функционирования СПЭГ.Из внешних источников данных (сайт международного расписания

авиаперелетов, сайты с информацией по городам мира и т.д.) извлекают-ся сведения о международных авиаперелетах и городах мира, для кото-рых проводиться моделирование и которые используются в подсистемеанализа трафика пассажиров воздушного транспорта для составления ба-зы данных городов мира с характеристиками городов. В подсистеме ана-лиза трафика пассажиров воздушного транспорта из множества входныхисточников, содержащих информацию по перелетам между городами,формируется матрица полетов за день (месяц, год). Матрица поступает впрограмму моделирования эпидемий SEIRF, где с помощью нее прогно-зируется распространение эпидемии из города-очага заболеваемости помиру. Отдельно, в специально созданном хранилище данных на базе ана-литической платформы Deductor и ряда БД с характеристиками террито-рий, формируется многомерная БД с информацией о численности насе-ления городов, экологии и других, важных для эпидемиологическойоценки параметров. Эта БД анализируется с применением методовИАД [4]. В результате выявляются неявные скрытые закономерности вданных, на основе которых строятся правила оценки эпидемиологиче-ской опасности городов.

Данные по численности населения городов мира были взяты скрупнейшего портала по мировой статистике населения городов – WorldGazetteer [5].

Климат городов мира определялся по классификации профессораМГУ Б.П.Алисова, согласно которой на Земле существует 7 типов кли-матов [6], составляющих климатические пояса. Четыре из них являютсяосновными, а три – переходными. К основным типам относятся: эквато-риальный; тропический; умеренный; полярный. К переходным относят-ся: субэкваториальный; субтропический; субполярный. В контексте рас-сматриваемых городов и для сужения пространства анализируемых при-знаков количество учитываемых климатических видов снижено до четы-рех: тропический, умеренный, субтропический, континентальный.

Характеристика городов по уровню жизни населения, используемаяв базе данных городов мира, основывалась на статистике уровня жизнитой страны, к которой относиться данный город. Оценка уровня жизнистраны, взята из «Доклада о развитии человека 2009» подготовленномОрганизацией Объединенных Наций (ООН) [7]. В Докладе о развитиичеловека традиционно содержится информация об индексе развития че-ловека, который ежегодно рассчитывается экспертами Программы раз-вития ООН (ПРООН) совместно с группой независимых международныхэкспертов. Индекс измеряет достижения страны с точки зрения продол-

Page 138: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

138

жительности жизни, получения образования и фактического дохода.Достойный уровень жизни измеряется величиной валового внутреннегопродукта (ВВП) на душу населения в долларах США по паритету поку-пательной способности (ППС). Эти измерения стандартизируются в видечисловых значений от 0 до 1, среднее арифметическое которых пред-ставляет собой совокупный показатель HDI в диапазоне от 0 до 1. Затемстраны ранжируются на основе этого показателя, и первое место в рей-тинге соответствует наивысшему значению HDI. В результате по уровнюжизни страны делятся на 4 класса страны с уровнем жизни: очень высо-ким, высоким, средним, низким.

Характеристика городов по уровню экологии, основывается на рей-тинге, составленном по экологическому индексу EvironmentalPerformance Index за 2010 год [8]. Такую оценку стран мира по экологи-ческому показателю разработала группа американских ученых на базеЙельского и Колумбийского университетов. Environmental PerformanceIndex (EPI) – это общий для всех стран экологический индекс, разрабо-танный для того, чтобы измерить состояние окружающей среды по об-щим для всех критериям. По данному рейтингу страны подразделяютсяна страны со следующими уровнями экологии: очень высоким – 1; вы-соким – 2; средним – 3; низким и очень низким – 4.

Многомерная БД построена на основе хранилища данных DeductorWarehouse аналитической платформы Deductor на базе СУБД Firebird 1.5[4]. Структура хранилища представлена на рис. 2.

Рис. 2. Структура хранилища данных

Page 139: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

139

Данная структура содержит 5 измерений: Город, Климат, Экология,Уровень жизни, Популяция (pop), Классы (1-4) и соответствующиессылки на них. Данные о городах мира и все остальные данные загружа-ются в хранилище из текстового файла, который был сформирован ра-нее.

После загрузки данных в хранилище, используя визуализатор Таб-лица, получаем БД по 155 городам мира.

На следующем шаге к этой БД применяются алгоритмы анализадля выявления правил оценки эпидемиологической опасности городов.

Так, на основании данных о заболеваемости по 105 городам из 155изучаемых (из разных регионов земли, Европы, Америки, Азии и т.д.)все города мира были разбиты на классы с уровнями эпидемиологиче-ской опасности: низкий –1; средний –2; высокий –3; чрезвычайно высо-кий – 4.

Эти 105 городов послужили обучающей и тестовой выборкой дляалгоритма кластеризации «Самоорганизующаяся Карта Кохонена» [5].

В результате определились 4 кластера городов с перечисленнымиуровнями эпидемиологической опасности.

После запуска метода дерева решений на БД городов мира былиполучены следующие правила, представленные ниже в виде дерева ре-шений (рис. 3).

Рис. 3. Дерево решений

Page 140: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

140

Анализируя полученное дерево можно сказать, что все классы по-лучились чистыми, то есть не содержат примесей (объектов других клас-сов). В процессе построения дерева при определении параметра ветвле-ния на каждом уровне иерархии, по которому происходит разделение надочерние узлы, мы использовали критерий наибольшего устранения не-определенности. Более значимые факторы, по которым проводится клас-сификация, находятся на более близком расстоянии (глубине) от корнядерева, чем менее значимые. В нашем случае, наиболее значимым фак-тором (наиболее эффективным для ветвления) является параметр Эколо-гия, затем фактор Климат. А фактор Уровень жизни значим только в со-четании с другими факторами. Еще один интересный вывод – это отсут-ствие в построенном дереве параметра Популяция. Видимо, это потому,что все 155 городов имеют разное количество населения, и алгоритм несмог вывести критерий оценки для параметра популяции, поэтому он неповлиял на оценку эпидемиологической опасности города. Приведёмпримеры правил:

1. ЕСЛИ((Экология = 3) И (Климат = Континентальный) И (Уро-вень жизни = Высокий)) ТО (Класс = 2 (эпидемиологическаяопасность средняя))

2. ((ЕСЛИ Экология = 4) И (Уровень жизни = Средний) ТО (Класс= 4 (эпидемиологическая опасность чрезвычайно высокая))

3. ЕСЛИ ((Экология = 3) И (Климат = Тропический) ТО (Класс = 3(эпидемиологическая опасность высокая)).

Дополнительно правила были подтверждены и дополнены мето-дом ассоциаций. Таким образом, правила установления соответствия бы-ли подтверждены разными методами анализа, что с уверенностью позво-ляет говорить о том, что они имеют право быть включенными в БЗ дляСППР (рис. 4).

На следующем шаге специальная программа – информационнаясистема анализа трафика пассажиров воздушного транспорта – формиру-ет матрицу пассажиропотока между 155 городами мира. Для этого быларазработана программа анализа трафика пассажиров воздушного транс-порта, работающая в двух режимах: создания общего файла расписаниягородов и последующего формирования матрицы пассажиропотока, либоформирования матрицы пассажиропотока из уже готового общего файларасписания (с информацией по всем исследуемым городам).

Page 141: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

141

Рис. 4. Ассоциативные правила

Формат матрицы строго согласован со структурой интерфейсапрограммы моделирования эпидемий SEIRF, которая работает на сле-дующем шаге. Проведенный анализ правил и экспертная оценка эпиде-миологической опасности городов показали, что полученные правилаверны и отражают реальную картину заболеваемости населения в городе.Например, в класс 1 с низкой эпидемиологической опасностью попалисамые благополучные, экономически развитые, с отличным уровнем ме-дицины такие города, как: Цюрих, Женева, Гамбург, Лондон, Париж, Ве-на. В класс 2 – средняя эпидемиологическая опасность попали такие го-рода, как: Москва, Санкт-Петербург, Минск. В класс 3 с высокой эпиде-миологической опасностью попали промышленные города США и про-чие «средние» города. В класс 4 с чрезвычайно высокой эпидемиологи-ческой опасностью попали города Азии и Африки, с чрезвычайно низкимобщим уровнем жизни и высокой заболеваемостью, низким уровнем ме-дицины.

Для моделирования эпидемии с использованием программы SEIRFнеобходимо назначить городу, в котором происходит зарождение эпиде-мии, коэффициенты иммунитета (доля восприимчивого населения) икоммуникабельности (интенсивность взаимодействия).

В соответствии с полученными правилами и на основании опытаэкспертов-эпидемиологов классам городов, а, следовательно, и городам,

Page 142: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

142

которые принадлежат этим классам, были назначены следующие коэф-фициенты:

1 класс – город с низкой эпидемиологической опасностью; долявосприимчивых – 0,5; интенсивность взаимодействия – 0,5.

2 класс – город со средней эпидемиологической опасностью; долявосприимчивых – 0,61; интенсивность взаимодействия – 0,7.

3 класс – город с высокой эпидемиологической опасностью; долявосприимчивых – 0,85; интенсивность взаимодействия – 0,8.

4 класс – город с чрезвычайно высокой эпидемиологической опас-ностью; доля восприимчивых – 0,91; интенсивность взаимодействия –0,9.

Результаты моделирования показаны ниже. На рис. 5 представленвнешний вид карты до начала эпидемии. Для примера в качестве города-«источника» эпидемии был задан Мехико. Доля восприимчивых, исходяиз правил оценки эпидемиологической опасности города Мехико, заданаравной 0,61, интенсивность взаимодействия – 0,9. На рис. 6 представленпрогноз развития эпидемии и роста числа заболевших по 155 города ми-ра, а на рис. 7 – ее начало.

Далее эпидемия распространяется, и заболевание постепенно раз-носится по оставшимся городам. В городах, где пик заболевания ужепройден, эпидемия постепенно затухает (рис. 8).

Рис. 5. Эпидемия еще не началась

Page 143: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

143

Рис. 6. Прогноз развития

На следующем этапе предполагается реализовать подсистемуСПЭГ – СППР, которая будет предлагать наиболее эффективные вари-анты противодействия развитию эпидемии, исходя из конкретных усло-вий того региона, в котором всё это происходит. При этом предполагает-ся учитывать экономические возможности региона, наличие запасов ме-дикаментов и их размещение (скорость доставки), возможности меди-цинского персонала и больниц и другие экономические и социальныепараметры. В качестве модели представления знаний и аппарата реали-зации предполагается использовать возможности нечётких систем.

Рис. 7. Начало распространения эпидемии

Page 144: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

144

Рис. 8. Дальнейшее развитие эпидемии

Литература1. Смородинцев А.А. Грипп и его профилактика. – Л.: Медицина,

1984. – 383 с.2. Федеральный конституционный закон «О чрезвычайном поло-

жении» от 30 мая 2001 г.3. Боев Б.В. Современный этап математического моделирования в

эпидемиологии инфекционных заболеваний // Эпидемиологиче-ская кибернетика: модели, информация, эксперименты: Сборникнауч. трудов. – М., 2010. – С. 6

4. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к зна-ниям. – СПб.: Питер, 2009. – 624 с.

5. Статистический портал World Gazetteer [Электронный ресурс]/World Gazetteer . – 2010 г. Режим доступа: www.world-gazetteer.com, свободный. – Яз. Рус.

6. Максаковский В.П. Географическая картина мира. – М.: Дрофа,2009. – 480 с.

7. Доклад о развитии человека 2009 [Электронный ресурс]/ ООН .– 2010 г. Режим доступа: http://www.un.org/ru/development/hdr/2009/, свободный. – Яз. Англ.

8. Country scores [Электронный ресурс] / Environmental Perform-ance Index. – 2010 г. Режим доступа: http://epi.yale.edu/Countries,свободный. – Яз. Англ.

9. http://www.gamaleya.ru.

Page 145: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

145

ПРИМЕНЕНИЕ СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ ТЕХНО-ЛОГИЙ И ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДОВ АНАЛИЗА

В ЗАДАЧЕ ОЦЕНКИ НЕДВИЖИМОСТИ

Медведева Т.В., студент, ПрокопенкоН.Ю., доцент, Нижегородский Государ-ственный архитектурно-строительныйУниверситет, г. Нижний Новгород

В настоящее время среди элементов рыночной экономики недви-жимость занимает особое место, выступая как в качестве средств произ-водства, так и в качестве объекта потребления. Залог успеха при приня-тии управленческих решений государственными органами управления ириэлтерскими компаниями – правильное определение рыночной стоимо-сти объектов недвижимого имущества.

Рыночная стоимость объекта недвижимости определяется при по-мощи трех подходов: 1) подход с точки зрения затрат; 2) оценка по пря-мому сравнению продаж; 3) подход с точки зрения доходности. Пере-численные подходы реализуются с помощью различных экспертных ме-тодов, а также методов математической статистики, программно реали-зованных методов кластерного, регрессионного, факторного анализа имногих других. В последнее время становятся популярными методы ин-теллектуального анализа или методы Data Mining.

Data Mining – это процесс обнаружения в данных ранее неизвест-ных, нетривиальных, практически полезных и доступных интерпретациизнаний, необходимых для принятия решений в различных сферах чело-веческой деятельности. Информация, найденная в процессе примененияметодов Data Mining, является нетривиальной и ранее неизвестной. Зна-ния должны описывать новые связи между свойствами, предсказыватьзначения одних признаков на основе других.

В данной статье описываются современные подходы к решениюзадач оценки недвижимости вторичного рынка г. Нижнего Новгорода.

При анализе ценовой ситуации на рынке решаются следующие за-дачи:

· анализ состояния Нижегородского рынка недвижимости;· исследование факторов, влияющих на изменения стоимости;· прогнозирование тенденций изменения цен.В качестве информационной базы используются данные веб-сайта

агентства недвижимости «Волгожилстрой» и федерального портала о не-движимости «Мир квартир» о продаже однокомнатных квартир вторич-

Page 146: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

146

ного рынка недвижимости одного из районов г. Нижнего Новгорода, атакже материалы печатного и электронного вариантов газеты «Из рук вруки».

За последние 10 лет (январь 2000 г. – июнь 2010 г.) динамикастоимости вторичного жилья г. Нижнего Новгорода менялась в зависи-мости от экономических изменений в целом по стране и в мире. В пери-од с 2000 г. по 2005 г. наблюдался стабильный рост цен на недвижи-мость, который объясняется общим приростом благосостоянием населе-ния России, а с июля 2008 г по июнь 2009 г. наблюдался спад цен на не-движимость из-за последствий мирового финансового кризисам. С июня2009 по июнь 2010 года наблюдалось замедление темпов падения цен(рис. 1).

Средняя стоимость квадратного метра общей площади жилья зави-сит не только от экономической ситуации по стране и в мире, а также оттаких критериев как районность, комнатность, тип планировки и матери-ал цен. Ограниченность предложения, с одной стороны, а также повы-шение степени недоверия к строительным компаниям – с другой («замо-роженные стройки» и др.), приводят покупателя на вторичный рынокжилья.

Рис. 1. Динамика стоимости вторичного жилья (руб./кв.м.) в НижнемНовгороде за период январь 2000 г. – июнь 2010 г.

С точки зрения оценки недвижимости актуальными являются двеосновные задачи – классификация объектов недвижимости и оценкастоимости жилой недвижимости.

В качестве инструментального средства поддержки принятия ре-шений в области оценки недвижимости на основе интеллектуальных

Page 147: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

147

средств была выбрана аналитическая платформа Deductor Academic,обеспечивающая большой набор средств для аналитической обработки,статистического анализа, манипулирования, визуализации данных,кластеризации, прогнозирования и многих других технологий интеллек-туального анализа данных.

Анализ данных в аналитической платформе Deductor базируетсяна построении сценариев обработки. Используя аналитическую плат-форму, был cоздан сценарий оценки недвижимости, включающий моде-ли классификации и прогнозирования цены на основе множественнойлинейной регрессии, деревьев решений и нейронных сетей.

Сценарий представляет собой иерархическую последовательностьэтапов обработки и визуализации наборов данных. Разработанный сце-нарий включает следующие шаги:

1. Импорт данных.· Учитывая ограниченные возможности работы с информацией

версии Deductor Academic, данные о продажах квартир загру-жаются из текстового файла.

· При загрузке информации необходимо правильно установитьсоответствия между входными данными (факторами, влияю-щими на стоимость жилья) и значениями по умолчанию.

2. Проверка качества данных.· При помощи визуализатора Статистика и различных диа-

грамм проверяем качество данных, и если оно не является при-емлемым, переходим к следующему шагу.

3. Очистка данных.· С помощью обработчика данных Дубликаты и противоречия в

исходной выборке данных выявляем дублирующие (сделки содинаковыми параметрами квартиры и одинаковой ценой) ипротиворечивые записи (сделки с одинаковыми параметрами,но разными ценами).

· При помощи визуализатора Диаграмма выявляем аномальныезначения (информация о сделках с аномально высокой или ано-мально низкой ценой – следствие ошибок ввода и других слу-чайных факторов, а также мошеннических действий, напримерс целью завышения страховой стоимости квартир). Для этоговначале с помощью обработчика Калькулятор вычисляем ценуза 1 кв.м. и строим график этого показателя.

· Проводим визуальный анализ и выявляем крайние точки, гдеграфик себя ведет неоднородно.

· Исключаем эксцессы с помощью обработчика Фильтрация.

Page 148: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

148

4. Построение модели классификации, используя популярныйинструмент Data Mining – деревья решений.

Алгоритм конструирования дерева решений не требует отпользователя выбора входных атрибутов (независимых переменных). Навход алгоритма можно подавать все существующие атрибуты, алгоритмсам выберет наиболее значимые среди них, и только они будутиспользованы для построения дерева. Классификационная модель,представленная в виде дерева решений, упрощает понимание решаемойзадачи, так как позволяет легко интерпретировать результаты.

· Используем для решения задачи классификации обработчик«Дерево решений». На вход дерева решений подаем характери-стики квартиры, а выходом будут служить 3 класса: дорогие,средние, дешевые квартиры.

· Разбиваем все данные на три категории, в зависимости от ценыза 1 кв.м. при помощи обработчика данных Квантование, таккак в обработчике Дерево решений выходное значение должнобыть дискретным.

· Выполняем при помощи обработчика Замена значений заменузначений по таблице подстановок, которая содержит пары, со-стоящие из исходного значения и выходного значения. Напри-мер, <Цена за 1 кв.м. до 60000 >– <Дешевая квартира>, <Ценаза 1 кв.м. от 60000 до 62857,15 > – <Средняя квартира>, <Ценаза 1 кв.м. от 62857,15>– <Дорогая квартира>.

· Определяем класс, к которому относиться любая квартира: Де-шевая квартира, Средняя квартира, Дорогая квартира на ос-новании полученных обработчиком Дерево решений списка ие-рархических правил вида «Если.. , то». Например, для того,чтобы определить тип квартиры, можно рассмотреть одно изполученных правил: если одновременно: Остальная площадьменьше 20,5 м2, Жилая площадь не менее 14 м2 и Кухня не ме-нее 5,4 м2, то квартира, имеющая такие параметры, будет отне-сена к классу средних квартир (табл. 1).

Поддержка показывает, какой процент сделок из имеющегося на-бора данных удовлетворяет условию правила, а достоверность показыва-ет, какой процент сделок, удовлетворяющих условию правила, удовле-творяет и его следствию (с какой вероятностью оцениваемая квартира,удовлетворяющая условию правила, удовлетворяет и его следствию).

Page 149: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

149

Таблица 1 Пример работы правила дерева решений

Условие Следст-вие Поддержка Достоверность

Показатель Знак Значение Класс Кол-во % Кол-во %

1 Остальная пло-щадь < 20.5

2 Жилая площадь >= 14

3 Кухня >= 5,4

Средняя 50 62,50 26 52,00

В сценарии было построено несколько моделей классификации наоснове Дерева решений с разным порядком уровня доверия. Используявизуализатор Диаграмма рассеяния, было выявлено, что большая точ-ность классификации достигается при уровне доверия 20%. С целью по-лучения более компактного дерева, для более простой интерпретацииполученных правил, уровень доверия был снижен до 5% (при этом каче-ство этой модели ухудшилось).

5. Построение модели классификации на основе модели нейроннойсети.

Нейронные сети – это класс аналитических методов, построенныхна принципах функционирования мозга и позволяющих прогнозироватьзначения некоторых переменных после прохождения этапа так называе-мого обучения на имеющихся данных. Работа нейронной сети аналогич-на работе эксперта, который может оценить класс или стоимость объектанедвижимости только на основе его свойств (признаков).

Нейронные сети – эффективный инструмент для решения задачклассификации и предсказания, если задача хорошо формализована. За-дача классификации и оценки стоимости недвижимости является хорошоформализованной, так как входные данные (определенный набор стан-дартных признаков квартир) и желаемый выход (класс или цена) хорошоинтерпретируются, а также имеется богатый опыт в виде предыдущихпродаж.

· Используем для решения задачи классификации в Deductor об-работчик Нейроcеть. Для решения задачи классификации вы-бираем следующую архитектуру нейронной сети: входной слойсостоит из 9 нейронов, на которые подаются значения девятиизвестных факторов (Жилая площадь, Кухня, Стены, Этаж,Балкон, Санузел, Телефон, Состояние, Остальная площадь),один скрытый слой состоит из двух нейронов, и выходной слойсостоит из трех нейронов, соответствующих трем классам (Де-шевая, Средняя, Дорогая квартира).

Page 150: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

150

· Разбиваем все данные на три категории, в зависимости от ценыза 1 кв.м. при помощи обработчика данных Квантование и вы-полняем при помощи обработчика Замена значений замену зна-чений по таблице подстановок.

· Запускаем процесс обучения нейронной сети.· После обучения нейронной сети проверяем при помощи визуа-

лизатора Что-если, как работает построенный нейросетевойклассификатор. А именно, с помощью данного визуализаторапокупатель или риелтор, определяет класс, к которому отно-ситься квартира с заданными параметрами. Например, есликлиент задает следующие параметры: Жилая площадь – 13 м2,Кухня – 5 м2, Стены – кирпичные, Этаж – 9, Балкон – имеется,Санузел – разделенный, Телефон – имеется, Состояние кварти-ры – отличное, то на выходе определяем класс – Дешевая квар-тира.

6. Построение модели прогнозирования на основе модели множе-ственной регрессии.

Задача линейной регрессии заключается в нахождениикоэффициентов уравнения линейной регрессии, которое имеет вид:

nn xbxbxbby ++++= ...22110 ,где y – выходная (зависимая) переменная модели; 1x , 2x ,…, nx – входные(независимые) переменные; ib – коэффициенты линейной регрессии.

В задаче прогнозирования входными переменными модели ixявляются наблюдения из прошлого, а y – прогнозируемое значение.

· C помощью обработчика «Корреляционный анализ» проводимкорреляционный анализ для того, чтобы выявить и устранитьмультиколлиниарность факторов, оценить зависимость выход-ного поля от входных факторов и устранить незначащие факто-ры. Принцип корреляционного анализа состоит в поиске такихзначений, которые в наименьшей степени взаимосвязаны с вы-ходным результатом. Такие факторы исключаются из результи-рующего набора данных практически без потери полезной ин-формации. Критерием принятия решения об исключении явля-ется порог значимости. Если корреляция (степень взаимозави-симости) между входным и выходным факторами меньше поро-га значимости, то соответствующий фактор отбрасывается какнезначащий.

· Строим при помощи специального визуализатора матрицу кор-реляции.

Page 151: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

151

· Устраняем незначащие факторы и повторно строим матрицукорреляции.

· Выявляем значимость атрибутов, которые в большей степениопределяют стоимость квартиры при помощи визуализатораЗначимость атрибутов. Устанавливаем, что наибольшее влия-ние на цену оказывают три атрибута: Жилая Площадь – 29 %,Кухня – 28 % и Остальная Площадь – 22 %.

· Строим модель множественной линейной регрессии для опре-деления стоимости квартиры на основании отобранных факто-ров.

· Получаем коэффициенты линейной регрессии при помощи об-работчика данных Линейная регрессия.

· Проводим тестирование модели на новых данных, а такжесравнение спрогнозированной цены и фактической с помощьюпостроения графика (рис. 2).

·

Рис.2. Диаграмма прогноза

7. Построение модели оценки стоимости жилья на основе моделинейронной сети.

· Выбираем архитектуру нейросети: входной и скрытый слой та-кие же, как в нейросетевом классификаторе, выходной слойимеет один нейрон, где будем получать прогнозируемое значе-ние цены.

· Проводим обучение при помощи обработчика Нейросеть.· Определяем прогнозируемую цену при помощи визуализатора

Что-если. Например, если клиент задает желаемые параметры,то на выходе получает прогнозируемую стоимость квартиры.

Page 152: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

152

8. Сравнение моделей.· Определяем качество модели Дерево решений и модели Ней-

ронная сеть в задаче классификации недвижимости, используяспециальный визуализатор Таблица сопряженности, которыйпозволяет наглядно оценить результаты классификации. Так какпроцент правильно распознанных примеров модели, построен-ной на основе нейронной сети, выше процента правильно рас-познанных примеров модели, построенной на основе дереварешений, делаем вывод, что при решении задачи классифика-ции целесообразно использовать модель нейронной сети, таккак она дает меньшую ошибку.

· Оцениваем качество моделей для решения задачи прогнозиро-вания и делаем вывод, что полученные модели сравнимы поточности, так как имеют процент правильно распознанныхпримеров 79 % и 74 % соответственно.

Построенный сценарий позволяет автоматизировать процесс клас-сификации и оценки стоимости объектов недвижимости. Он может бытьиспользован как инструментальное средство в процессе принятия управ-ленческих решений российской оценочной практики. Таким образом,благодаря современным информационным технологиям и интеллекту-альным методам анализа можно облегчить и улучшить работу агентов-риэлторов, а также полученные результаты могут использоваться физи-ческими лицами при принятии решений о купле/продаже недвижимости.

Page 153: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

BaseGroup Labs – профессиональный поставщик продуктов и решений в областианализа данных. Мы имеем многолетний опыт работы в области разработки анали-тических алгоритмов и создания законченных систем. BaseGroup Labs предлагаетполностью интегрированные продукты, объединяющие все необходимые инструмен-ты анализа: хранилища данных, аналитическую отчетность, механизмы поиска за-кономерностей и построения моделей, средства интеграции аналитических систем сплатформами сторонних производителей.

Системы от BaseGroup Labs выполнены с применением самых современных ин-формационных технологий.

ТехнологииData Warehouse

хранилище данных

§ Консолидация анализируемых дан-ных, обеспечение непротиворечиво-сти данных

§ Быстрый доступ к необходимой ин-формации

§ Автоматическое обновление данных§ Богатый семантический слой

Data Miningдобыча данных

§ Прогнозирование§ Поиск закономерностей и зависимо-

стей§ Извлечение правил§ Оптимизация процессов§ Анализ по принципу «что-если»

OLAPмногомерный анализ данных

§ Многомерная отчетность, позволяю-щая извлечь максимум полезной ин-формации из имеющихся данных

§ Гибкие механизмы навигации и мани-пулирования данными

§ Анализ тенденций§ Простота использования конечным

пользователем

Knowledge Discovery in DBобнаружение знаний в базах данных

§ Механизмы улучшения качества ис-ходных данных (очистка, преобразо-вание и трансформация данных)

§ Построение сценариев обработкиданных

§ Механизмы построения моделей§ Интеграция моделей в информацион-

ные системы

Наши системы базируются на собственном аналитическом ядре, что обеспечива-ет беспрецедентную гибкость при выборе способов анализа и создании прикладныхрешений. Применение самообучающихся механизмов дает возможность быстройадаптации решения под постоянно изменяющиеся условия.

Россия, 390046, г. Рязань, Введенская, д. 115, оф. 447Т./ф.: +7 (4912) 24-09-77, +7 (4912) 24-06-99

[email protected]

Page 154: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

Deductor – флагманский продукт BaseGroup Labs, концентрирующий многолетнийопыт компании и вобравший в себя самые удачные архитектурные идеи и современ-ный математический аппарат. В Deductor реализованы технологии анализа структу-рированных данных: нейронные сети, деревья решений, хранилища данных и OLAP,ассоциативные правила, карты Кохонена и многое другие. Использование Deductor вучебном процессе поможет студентам освоить алгоритмы машинного обучения исистемы интеллектуальной обработки информации на практике, решая актуальныезадачи по консолидации, очистке, прогнозированию, классификации, кластеризации,скорингу.

ОбразованиеДля высших учебных заведений BaseGroup Labs предлагает специальные условия.Заключив с нами соглашение о сотрудничестве, преподаватели и сотрудники учеб-ного заведения получают следующие возможности:

§ Аналитическую платформу Deductor Academic для проведения практикумовпо дисциплинам, связанным с информационно-аналитическими системами,интеллектуальными информационными системами, системами поддержкипринятия решений и другим курсам для прикладных информатиков и эконо-мистов.

§ Бесплатное e-learning обучение преподавателей на образовательном порталеedu.basegroup.ru в полноценной системе дистанционного обучения и сер-тификацию по результатам обучения, обсуждение возникающих вопросов нафоруме.

§ Программы повышения квалификации по корпоративным аналитическимсистемам при Институте Экономики и Финансов «Синергия».

§ Большое число методических разработок для проведения практических за-нятий со студентами по всем современным технологиям анализа данных.

Участие в программе полностью бесплатное. Образовательная инициатива дейст-вует с 2005 года и за это время более 70 вузов России, Украины и Беларуси сталинашими партнерами и используют аналитическую платформу Deductor в учебномпроцессе. Вот некоторые из них:

§ Российская экономическая академия имени Г.В. Плеханова;§ Государственный университет управления;§ Московский авиационный институт;§ Санкт-Петербургский государственный университет;§ Белорусский государственный университет информатики и радиоэлектроники.

Форму и условия партнерства, полный список вузов-партнеров и другую дополни-тельную информацию можно получить на образовательном порталеhttp://edu.basegroup.ru.

Россия, 390046, г. Рязань, Введенская, д. 115, оф. 447Т./ф.: +7 (4912) 24-09-77 +7 (4912) [email protected]

Page 155: F ? @ < M - L B Q ? K D : Y «- B L B D · сборник материалов межвуз. науч.-практ. конф. – Рязань: Лаборатория баз данных,

БИЗНЕС-АНАЛИТИКА. ВОПРОСЫ ТЕОРИИ И ПРАКТИКИ.ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ

DEDUCTOR В ДЕЯТЕЛЬНОСТИ УЧЕБНЫХ ЗАВЕДЕНИЙ:

Cборник материалов межвузовской научно-практической конференции

24 июня 2010 года

Тираж 100 экз. Подписано в печать 27.09.2010 г.Формат 60х84 1/16. Гарнитура «Times New Roman».

Усл. печ. л. Уч.-изд. л.

Отпечатано с готовых диапозитивовв ООО фирма «Интермета»

г. Рязань, ул. Семинарская, 5, т. 25-81-76