IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с...
Transcript of IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с...
![Page 1: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/1.jpg)
IBM Content Analytics
Дмитрий Лактионов,
руководитель направления IBM ECM
![Page 2: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/2.jpg)
Задачи по работе с текстовой информацией
1. Сквозной поиск по источникам
2. Выявление закономерностей на
основании анализа текстовых данных
3. Извлечение ключевых фактов из
неструктурированных текстов
![Page 3: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/3.jpg)
3
Lotus Domino
Lotus Connections SharePoint WebSphere Portal
Сквозной поиск по различным информационным системам
IBM ECM
File Systems, and more
![Page 4: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/4.jpg)
Внутренние
данные
Работа с системой Content Analytics
• Система реализует полный цикл анализа текстов
1. Сбор данных
2. Обработка текстов на естественном языке
3. Отображение выявленных тенденций, зависимостей, аномалий и т.п.
• Архитектура системы открыта и результаты работы каждого из этапов могут
быть экспортированы в специализированные системы прогнозирования,
моделирования и визуализации
IBM Content Analytics
Визуализация Сбор данных Анализ
Индекс
1 2 3
Интернет
![Page 5: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/5.jpg)
Пример #1: анализ новостных сайтов
![Page 6: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/6.jpg)
Работа системы Content Analytics
• Суть обработки текста состоит в переходе от информации, содержащейся в
тексте в свободной форме, к структурированным данным, на основе
словарей и структурного анализа текста:
http://rnd.cnews.ru/tech/news/top/inde
x_science.shtml?2012/05/12/489249
Версия для КПК | Распечатать
Авиация и космос
12.05.12, Сб, 16:28, Мск
Компания ATK объявила о
разработке капсулы космического
корабля для ракеты-носителя
Liberty (LV), выполненной из
композитных материалов. Она
станет дешевым средством
доставки астронавтов на борт
МКС.
Источник: CNews
Дата: 12.05.2012
Компании: ATK
Технологии: композитные
материалы
Область применения: космос
![Page 7: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/7.jpg)
Аналитические срезы • В системе Content Analytics
настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры.
• Налагая различные фильтры и их комбинации на большой массив документов, аналитик может выделять те или иные явления и их взаимосвязь.
• Фильтры являются интеллектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации
• На последующих слайдах приводятся примеры аналитических срезов, настроенных в целях демонстрации возможностей системы
![Page 8: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/8.jpg)
Источники данных В качестве источников данных
использовались сайты
Интерфакс, РИА Новости и BBC
![Page 9: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/9.jpg)
Срез по источникам данных
Систему реагирует на сигнатуру
страниц с того или иного сайта и
определяет источник
![Page 10: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/10.jpg)
Срез по странам, упоминающимся в тексте
Система реагирует на ключевые
слова: упоминания названий
стран в текстах статей
![Page 11: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/11.jpg)
Срез по годам, упоминающимся в тексте
Для выделения года из текста
использовался анализ текста: «в
2013 году», «к 2010 году» ...
![Page 12: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/12.jpg)
Срез по областям применения
Область применения
определяется по характерной
лексике: пациент, врач, раскопки,
пушка, ракета ...
![Page 13: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/13.jpg)
Ядерные разработки
Во вложенный срез можно
выделить объекты,
представляющие особенный
интерес среди всей группы
![Page 14: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/14.jpg)
Технологии сгруппированы в направления
Все множество технологий можно
сгруппировать в более общие
категории
![Page 15: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/15.jpg)
Результат работы модуля классификации
База знаний была обучена на двух массивах документов: «про ракеты» и
«про реки». Если документ не подпадает ни под одну их этих категорий,
система возвращает значение «неизвестная».
Документов «про реки» найдено
не было.
![Page 16: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/16.jpg)
Потенциал для функционала ГИС
Архитектура системы открытая,
на рисунке как пример показана
интеграция с Google Maps
![Page 17: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/17.jpg)
Выделение корреляций между срезами
После настройки срезов система вычисляет взаимосвязь между ними
и подсвечивает значимые с ее точки зрения сочетания
![Page 18: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/18.jpg)
Отображение взаимосвязей в виде графа
![Page 19: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/19.jpg)
Многоязычный аналитический срез
Аналитические срезы могут
объединять концепции из
документов на разных языках
![Page 20: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/20.jpg)
Пример #2: анализ интернет-форумов
![Page 21: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/21.jpg)
Сбор данных
• Был использован стандартный «искатель» для Интернет, входящий в состав
продукта
Единственная потребовавшаяся
настройка искателя – ввод веб-
адреса сайта
![Page 22: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/22.jpg)
Анализ информации
• Фасеты по городу и продукту, выделяют упоминание
в тексте тех или иных городов и банковских
продуктов
• Фасет «Отношение клиента» реагирует на
появление в тексте положительных или
отрицательных прилагательных.
• Были настроены правила, срабатывающие при
употреблении слов «проблема» и «банкомат» или
«карта» в пределах одного предложения.
• При настройке анализа был сделан акцент на
использование только стандартных средств
продукта. Никакой кастомизации не производилось.
![Page 23: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/23.jpg)
Этап 3. Визуализация
• Появилась возможность оценить частоту обсуждениея проблем с картой или
с банкоматом.
• Эти результаты получены на основе анализа более 11 тысяч документов
![Page 24: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/24.jpg)
Фасет «Продукты»
![Page 25: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/25.jpg)
Фасет «Города»
![Page 26: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/26.jpg)
Фасет «Отношение клиента»
![Page 27: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/27.jpg)
Визуализация связи проблем с городами
![Page 28: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/28.jpg)
Табличное представление связи фасет
Чем ярче цвет, тем больше связь (корреляция) между
фасетами. Нажатие на подсвеченную клетку позволяет
перейти к интересующим документам.
![Page 29: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/29.jpg)
Текст сообщения с жалобой клиента
Текст документа позволяет выявить сбой в
региональной сети банкоматов и недовольство
клиента.
Это сообщение было выделено из 11,5 тысяч
документов.
![Page 30: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/30.jpg)
Дополнительные возможности системы
• Система может выделять регулярные выражения, такие как номера
кредитных карт, телефонов, номера филиалов и т.п.
• Система визуализации Content Analytics реализована на основе открытых
интерфейсов, что позволяет встраивать свои модули визуализации. На одном
из следующих слайдов показано отображение информации из системы на
картах GoogleMaps
• Наряду с неструктурированной информацией CA успешно обрабатывает и
визуализирует структурированные данные. На следующем слайде приведен
пример успешного внедрения CA для выявление финансовых нарушений.
![Page 31: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/31.jpg)
Выявление регулярных выражений
• Обратите внимание на разный формат написания номеров и наличие
мелких различий в написании: с пробелом, без пробела.
• Это иллюстрирует возможность выделения из текста регулярных
выражений: номеров документов, адресов электронной почты, денежных
сумм и т.п.
![Page 32: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/32.jpg)
Интеграция с Google Maps
![Page 33: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/33.jpg)
Другие примеры
![Page 34: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/34.jpg)
34
Анализ обращений клиентов
![Page 35: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/35.jpg)
Мониторинг общественного мнения
35
![Page 36: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/36.jpg)
Пример извлечения фактов из текста
![Page 37: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл](https://reader035.fdocuments.in/reader035/viewer/2022071115/5ff91bbe236090210f6055eb/html5/thumbnails/37.jpg)
Области применения Content Analytics
• IBM Content Analytics успешно используется для анализа рынка: мнение
широкой аудитории о продуктах и услугах, выявление проблем и оперативное
реагирование на них.
• В кол-центрах CA применяется для анализа проблемных продуктов.
• Также этот продукт широко используется службами безопасности для
оперативного выявления инцидентов.
• Функционал Enterprise Search, входящий в состав продукта, позволяет
осуществлять одновременный сквозной полнотекстовый поиск по десяткам
массивов разнородной текстовой информации