CleverCLUB-26.03.15-G.Kanevsky
-
Upload
cleverdata -
Category
Data & Analytics
-
view
56 -
download
0
Transcript of CleverCLUB-26.03.15-G.Kanevsky
Аналитика с человеческим лицом Пилоты и Проекты
Gregory Kanevsky, Aster Pre-Sales Solution Architect and Data Science 26.03.2015
2
Вступление
Пилоты Колл-Центр Aster nPath Цепочки Анализ IVR Мошенничество в банках Логистика и Сети Отток клиентов Диагностика Сотовых Станций Анализ Социальных Сетей API Logs
AppCenter
Содержание
© 2014 Teradata 2
3
• 1/3 Математики (Лин.Алгебра, Мат.Анализ, Теория Вероятности, Статистика, Методы подготовки данных, Алгоритмы, Машинное Обучение/VC Theory - Владимир Наумович Вапник и Алексей Яковлевич Червоненкис)
• 1/3 Программирования (Java, Python, R, ...)
• 1/3 Бизнесс-специализаций (SME)
• Визуализация, инфографика
• Воображение (Creativity) • Не конкурирент прикладным математикам,
статистикам , хардкор программистам или SME; но способен работать и решать проблемы с каждым из них -
© 2014 Teradata
Data Science: Аналитика Преобладает
4
Integrated Discovery Platform
(IDP)
Aster – Интегрированная Аналитическая Платформа
SQL Framework Access Layer
Pre-Built Analytics Functions
Проблема: разрозненные источники и методы обработки
Решение: единая среда анализа данных
Teradata Aster
Integrated Data Warehouse
(IDW)
Hadoop
STATS
Graph Text
SQL
TEXT
PATH
MAPREDUCE
f(x)
STATS
GRAPH
T
PIG,JAVA f(x)
STATS
MAPREDUCE
PIG,JAVA
PATH TEXT
T GRAPH
SQL
Marketing Executives
Operational Systems
Frontline Workers
Customers Partners
Engineers
Data Scientists
Business Analysts
Math and Stats
Data Mining
Business Intelligence
Applications
Languages
Marketing
USERS
DISCOVERY PLATFORM
INTEGRATED DATA WAREHOUSE ERP
SCM
CRM
Images
Audio and Video
Machine Logs
Text
Web and Social
SOURCES
DATA PLATFORM
TERADATA
PORTFOLIO FOR HADOOP
TERADATA DATABASE
TERADATA ASTER DATABASE
ANALYTIC TOOLS & APPS
Teradata Aster в UDA Logical System – Software
6 © 2014 Teradata
Колл-Центр: Первый Звонок - Последний (FCR)
Результат:
Больше времени между звонками – более вероятно, что причины разные
7 © 2014 Teradata
FCR – Агенты vs. IVR
Вывод: Агенты намного менее аккуратны в определении темы звонка, если сравнивать с IVR (одно из возможных объяснений).
8 © 2014 Teradata
FCR – Анализ Записей Агентов
Результаты:
• Облака тегов построены на базе Naïve Bayes Text модели и с использованием nGram.
• Позволил найти неизвестную проблему с SELF-INSTALL KIT (набор самостоятельной установки).
• Модель внедрена для регулярного выявления новых проблем.
9 © 2014 Teradata
Aster nPath – Цепочки Событий Клиента
ATM баланс
Транзакция с теллером в
банке
Онлайн перевод
Агент – Колл Центр звонок
Фото-депозит
Мобильный банкинг
Онлайн транзакция
In-store desk actions Активность в
банке
IVR звонок
Онлайн изменения профайла
Изменения адреса
In-store desk wires
ATM депозит
Маркетинговое анкета
Онлайн оплата
Онлайн чат
Персональный визит Открытие
счета Онлайн сессия
Открытие счета
Онлайн регистрация
Онлайн регистрация
Онлайн сессия
IVR звонок
ATM перевод Онлайн транзакция
Изменения адреса
ATM депозит Мобильный банкинг
Активность в банке
ATM перевод
Закрытие счета
Маркетинговое предложение
Заполнил маркетинговое предложение
Онлайн изменения профайла
Персональный визит
Активность в банке
Закрытие счета
Онлайн чат
Цвет: источник данных
10 © 2014 Teradata
От Простого к Сложному: Начинаем Искать Типичные и Интересные Пути
Call
IVR
Xfer
Agent
Bill Pay
Hup
Определяем ключевые события с аттрибутами.
Определяем ключевые метрики и классы
Изолируем интересные пути, используя метрики
и класс(ы)
SQL nPath
SQL/MR
SQL Statistical SQL/MR
Visualizations
GraphGen SQL/MR
11 © 2014 Teradata
Анализ Путей в Банковской IVR
Область дальнейшего анализа: цепочки длиной 10 с оплатой счета через
агента
12 © 2014 Teradata
Анализ Путей в Банковской IVR – Нежелательные Пути Ведущие к Оплате с Агентом вместo IVR
Результаты:
• Позволил эффективный анализ и усовершенствование IVR меню
• Неожиданно: наиболее проблемными каналами оплаты счетов оказался Агент и затем Офис.
13
• Какие 10 самых частых путей из событий ведущих к мошенничеству (по каналам: офис, телефон, онлайн, агент, ATM; по сегментам: дебит, депозит; по линиям бизнеса: ритейл, кредит)
Aster nPath – Золотой Путь к Мошенничеству (Банки)
© 2014 Teradata
Результаты:
• 125 путей привели к более чем $10м потерям за год • Найдены пути увеличивающие вероятность мошенничества в 10 раз
или больше
15
Золотой Путь к Мошенничеству
• Эффективность по каналам (дебит, кредит, депозит)
• Стратификация: анализ и сравнение путей по сегментам клиентов: например, 10 самых частых путей для каждого сегмента
• Способы интеграции с уже используемой системой предсказания риска: – Использовать риск путей как вводные данные – Комбинировать риски моделей (ensemble score) – Отбор путей на базе риска моделей, например ведущие к росту или
уменьшению риска – Или сегментация путей клиентов по уровням риска
16 © 2014 Teradata
nPath – Пример Использования с Метриками (Логистика и Сети)
¦{
LegsRoute
DelayLegDelayLegSTC
_
)0,_max()0,__max(
(%)Delay Explained
Транзитный Центр 2
Этап 1 Этап 2 Этап 3
Транзитный Центр 1
17
Эффективность Транзитных Центров в Сети
Транзит в 201 и 208 из 45Z и 19Z значительно
хуже
Возможно объясняется ‘Bay Bridge Traffic’
18
Эффективность Транзитных Центров
Результаты:
• Разработанные метрики внедряются для оперативной и аналитической оценки эффективности транзитных центров
• Найдены центры с ранее неизвестными проблемами
19
Отобрать последние N
событий каждого клиента
Классифи-цировать пути
Посчитать вероятности
Посчитать риск
Сгенерировать пути как n-grams
событий
Модель Оттока Клиентов на Основе Поведения
Возможные Модели: Naïve Bayes, Логистическая Регрессия, Random Forest / решающие деревья, SVM, Марковские Цепи.
Наш фаворит для n-grams событий: Naïve Bayes Text функции в Aster
20
• Самый распространенный путь: 1-й: Изменение уровня доходности 2-й: Баланс счета становится < 25% от среднего 3-й: Закрытие Пакета
NPATH PATTERN: ANY_EVENT{3}.CLOSE_PORTF_EF
Пути к Закрытию Сберегательного Счета
21
Оценка Модели Используя Децили
Результаты: • Правильно определено 75% клиентов закрывших счета
(за 1 месяц). • Реальное уменьшение утечки счетов на 50%. • Модель определила большинство клиентов в первый
дециль (высший риск). • Уменьшает размер клиентской базы для дальнейшего
анализа до 10-20% от общего числа.
23
Диагностика (продолжение) Symbolic Aggregate approXimation (SAX)
1 – Raw data 2 – Z-normalize
3 – Piecewise average 4 – alphabetize
abbccddba abddcddba
24
Пример: Создание битмэп временного ряда
Time Series Bitmap
0 0 20 40 60 80 100 120
- 1.5
- 1
- 0.5
0
0.5
1
1.5
- 1.5
- 1
- 0.5
0
0.5
1
1.5
A C G T
GTTGACCA
AA CA CC
AG AT CG CT
GA GC TA TC
GG GT TG TT
AC
Credit: Eamonn Keogh, [email protected]
25
Пример: «упрощенный» SAX • Используя процентили (1%, 2%, 5%, 10% или 15%- outliers)
• Только 3-символа в алфавите: а, 0, А или даже 2: 0, А когда малые значения не играют роли
• Процентили вычисляются отдельно учитывая специфику географии, время дня, сезона, и т.д.
• Пример временного ряда: [A, 0, 0, 0, A]
‘a’ ‘0’ ‘A’
26
Упрощенный подход (продолжение) • Измерения в пространстве времени и метрик:
• Naïve Bayes Text модель позволяет ассоциировать строки (bag of words) с исходом (например, станция вышла из строя)
• Такие модели могут как предсказывать, так и объяснять поведение (inference)
Метрика1 0 а А 0 0 0 А
Метрика2 0 а А 0 0 0 А
Метрика3 0 а А 0 0 0 А
feat
ures
МетрикаN 0 а А 0 0 0 А
time
. . . .
Временной ряд
снимок
27
Пример: упрощенный подход (продолжение)
Результаты:
• Метод анализа потоков диагностических данных с Наивным Байесовским текстовым методом
• Компания работает над имплементацией
28
• HP Cluster ¾ Hear about poor disk drives ¾ Dell Tweets back SSD coupon
• Macbook Cluster ¾ Hear about poor support ¾ Dell Tweets back Premier
Support
• Apple Cluster ¾ Hear about need for light
weight laptops ¾ Dell Tweets back industry
award for lightest laptops
© 2014 Teradata
Социальные Сети: Сбор и Обработка Информации
30
Настроения и Кассовые Сборы (2я неделя)
$77
$251
$302
$165
$0
$50
$100
$150
$200
$250
$300
$350
0 20000 40000 60000 80000 100000 120000PEAK POSITIVE BUZZ SCORE
Кассовые Сборы (в милионах)
31
Станция Погоды Социальной Сети Результат: Объедияет настроения, тренды и
интересющие метрики в единую картину.
Следующий возможный шаг построение регрессионных моделей, etc.
32
• Данные как документы «bag of words»
• На входе могут быть результат таких функций как sessionize, TF и TF-IDF
• Полная поддержка LDA с SQL/MR: LDATrainer, LDAInference, LDATopicPrinter
• Создает модель латентных тем (topics) используя терминологию документов
• Классифицирует «документы» наиболее характерными темами из модели
• Парадигма «Обучение с учителем» (supervised learning): разделить данные на training и testing, использовать perplexity для сравнения моделей
Source: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
© 2014 Teradata
Латентное Размещение Дирихле (LDA) с Астер
33 © 2014 Teradata
Пример Итеративного Подхода в Астер
Tokenization Oбработка (SQL/Query
Grid) Sessionize
Визуализация и Анализ
TF-IDF (сессия как документ)
Тренировка LDA
Модели
Тест Модели
(Perplexity)
Транзит к Новой
Модели
Вывод на основе Модели
Minhash cfilter
(Моделирование тем с LDA)
34
• Каждая тема описывается в терминах найденных в данных
• Важно: – обозначить границы документов – Выбрать подходящие термины
(например, выбрать уровень taxonomy и/или terminology)
– Выбрать метрику терминов (TF, TF-IDF, какой из видов TF)
– Сравнивать модели: perplexity
• Пример: программный лог по клиентам и сессиям
• Классифицирует каждую сессию пользователя по латентным топикам
© 2014 Teradata
LDA с Астер
Статический профайл клиента по темам
Так выглядет тема найденная LDA
35 © 2014 Teradata
Латентная модель: Динамический Анализ Пользователей
Динамический профайл клиента демонстрирует фокус на “Snapshot Equity pricing”, со значительной активностью Volatility и Price Change в конде недели (может быть месяца)
38
Icons: - Chain created by Juan Pablo Bravo from the Noun Project
Credits and Attribution
© 2014 Teradata