CleverCLUB-26.03.15-G.Kanevsky

39
Аналитика с человеческим лицом ǽилоты и ǽроекты Gregory Kanevsky, Aster Pre-Sales Solution Architect and Data Science 26.03.2015

Transcript of CleverCLUB-26.03.15-G.Kanevsky

Аналитика с человеческим лицом Пилоты и Проекты

Gregory Kanevsky, Aster Pre-Sales Solution Architect and Data Science 26.03.2015

2

Вступление

Пилоты Колл-Центр Aster nPath Цепочки Анализ IVR Мошенничество в банках Логистика и Сети Отток клиентов Диагностика Сотовых Станций Анализ Социальных Сетей API Logs

AppCenter

Содержание

© 2014 Teradata 2

3

• 1/3 Математики (Лин.Алгебра, Мат.Анализ, Теория Вероятности, Статистика, Методы подготовки данных, Алгоритмы, Машинное Обучение/VC Theory - Владимир Наумович Вапник и Алексей Яковлевич Червоненкис)

• 1/3 Программирования (Java, Python, R, ...)

• 1/3 Бизнесс-специализаций (SME)

• Визуализация, инфографика

• Воображение (Creativity) • Не конкурирент прикладным математикам,

статистикам , хардкор программистам или SME; но способен работать и решать проблемы с каждым из них -

© 2014 Teradata

Data Science: Аналитика Преобладает

4

Integrated Discovery Platform

(IDP)

Aster – Интегрированная Аналитическая Платформа

SQL Framework Access Layer

Pre-Built Analytics Functions

Проблема: разрозненные источники и методы обработки

Решение: единая среда анализа данных

Teradata Aster

Integrated Data Warehouse

(IDW)

Hadoop

STATS

Graph Text

SQL

TEXT

PATH

MAPREDUCE

f(x)

STATS

GRAPH

T

PIG,JAVA f(x)

STATS

MAPREDUCE

PIG,JAVA

PATH TEXT

T GRAPH

SQL

Marketing Executives

Operational Systems

Frontline Workers

Customers Partners

Engineers

Data Scientists

Business Analysts

Math and Stats

Data Mining

Business Intelligence

Applications

Languages

Marketing

USERS

DISCOVERY PLATFORM

INTEGRATED DATA WAREHOUSE ERP

SCM

CRM

Images

Audio and Video

Machine Logs

Text

Web and Social

SOURCES

DATA PLATFORM

TERADATA

PORTFOLIO FOR HADOOP

TERADATA DATABASE

TERADATA ASTER DATABASE

ANALYTIC TOOLS & APPS

Teradata Aster в UDA Logical System – Software

6 © 2014 Teradata

Колл-Центр: Первый Звонок - Последний (FCR)

Результат:

Больше времени между звонками – более вероятно, что причины разные

7 © 2014 Teradata

FCR – Агенты vs. IVR

Вывод: Агенты намного менее аккуратны в определении темы звонка, если сравнивать с IVR (одно из возможных объяснений).

8 © 2014 Teradata

FCR – Анализ Записей Агентов

Результаты:

• Облака тегов построены на базе Naïve Bayes Text модели и с использованием nGram.

• Позволил найти неизвестную проблему с SELF-INSTALL KIT (набор самостоятельной установки).

• Модель внедрена для регулярного выявления новых проблем.

9 © 2014 Teradata

Aster nPath – Цепочки Событий Клиента

ATM баланс

Транзакция с теллером в

банке

Онлайн перевод

Агент – Колл Центр звонок

Фото-депозит

Мобильный банкинг

Онлайн транзакция

In-store desk actions Активность в

банке

IVR звонок

Онлайн изменения профайла

Изменения адреса

In-store desk wires

ATM депозит

Маркетинговое анкета

Онлайн оплата

Онлайн чат

Персональный визит Открытие

счета Онлайн сессия

Открытие счета

Онлайн регистрация

Онлайн регистрация

Онлайн сессия

IVR звонок

ATM перевод Онлайн транзакция

Изменения адреса

ATM депозит Мобильный банкинг

Активность в банке

ATM перевод

Закрытие счета

Маркетинговое предложение

Заполнил маркетинговое предложение

Онлайн изменения профайла

Персональный визит

Активность в банке

Закрытие счета

Онлайн чат

Цвет: источник данных

10 © 2014 Teradata

От Простого к Сложному: Начинаем Искать Типичные и Интересные Пути

Call

IVR

Xfer

Agent

Bill Pay

Hup

Определяем ключевые события с аттрибутами.

Определяем ключевые метрики и классы

Изолируем интересные пути, используя метрики

и класс(ы)

SQL nPath

SQL/MR

SQL Statistical SQL/MR

Visualizations

GraphGen SQL/MR

11 © 2014 Teradata

Анализ Путей в Банковской IVR

Область дальнейшего анализа: цепочки длиной 10 с оплатой счета через

агента

12 © 2014 Teradata

Анализ Путей в Банковской IVR – Нежелательные Пути Ведущие к Оплате с Агентом вместo IVR

Результаты:

• Позволил эффективный анализ и усовершенствование IVR меню

• Неожиданно: наиболее проблемными каналами оплаты счетов оказался Агент и затем Офис.

13

• Какие 10 самых частых путей из событий ведущих к мошенничеству (по каналам: офис, телефон, онлайн, агент, ATM; по сегментам: дебит, депозит; по линиям бизнеса: ритейл, кредит)

Aster nPath – Золотой Путь к Мошенничеству (Банки)

© 2014 Teradata

Результаты:

• 125 путей привели к более чем $10м потерям за год • Найдены пути увеличивающие вероятность мошенничества в 10 раз

или больше

14

Анализ цепочек по объему потерь

Потери по объему в $ (сверху вниз: от меньшего к большему)

15

Золотой Путь к Мошенничеству

• Эффективность по каналам (дебит, кредит, депозит)

• Стратификация: анализ и сравнение путей по сегментам клиентов: например, 10 самых частых путей для каждого сегмента

• Способы интеграции с уже используемой системой предсказания риска: – Использовать риск путей как вводные данные – Комбинировать риски моделей (ensemble score) – Отбор путей на базе риска моделей, например ведущие к росту или

уменьшению риска – Или сегментация путей клиентов по уровням риска

16 © 2014 Teradata

nPath – Пример Использования с Метриками (Логистика и Сети)

¦{

LegsRoute

DelayLegDelayLegSTC

_

)0,_max()0,__max(

(%)Delay Explained

Транзитный Центр 2

Этап 1 Этап 2 Этап 3

Транзитный Центр 1

17

Эффективность Транзитных Центров в Сети

Транзит в 201 и 208 из 45Z и 19Z значительно

хуже

Возможно объясняется ‘Bay Bridge Traffic’

18

Эффективность Транзитных Центров

Результаты:

• Разработанные метрики внедряются для оперативной и аналитической оценки эффективности транзитных центров

• Найдены центры с ранее неизвестными проблемами

19

Отобрать последние N

событий каждого клиента

Классифи-цировать пути

Посчитать вероятности

Посчитать риск

Сгенерировать пути как n-grams

событий

Модель Оттока Клиентов на Основе Поведения

Возможные Модели: Naïve Bayes, Логистическая Регрессия, Random Forest / решающие деревья, SVM, Марковские Цепи.

Наш фаворит для n-grams событий: Naïve Bayes Text функции в Aster

20

• Самый распространенный путь: 1-й: Изменение уровня доходности 2-й: Баланс счета становится < 25% от среднего 3-й: Закрытие Пакета

NPATH PATTERN: ANY_EVENT{3}.CLOSE_PORTF_EF

Пути к Закрытию Сберегательного Счета

21

Оценка Модели Используя Децили

Результаты: • Правильно определено 75% клиентов закрывших счета

(за 1 месяц). • Реальное уменьшение утечки счетов на 50%. • Модель определила большинство клиентов в первый

дециль (высший риск). • Уменьшает размер клиентской базы для дальнейшего

анализа до 10-20% от общего числа.

22

Use Case: Диагностика Сотовых Станций Временные Ряды

23

Диагностика (продолжение) Symbolic Aggregate approXimation (SAX)

1 – Raw data 2 – Z-normalize

3 – Piecewise average 4 – alphabetize

abbccddba abddcddba

24

Пример: Создание битмэп временного ряда

Time Series Bitmap

0 0 20 40 60 80 100 120

- 1.5

- 1

- 0.5

0

0.5

1

1.5

- 1.5

- 1

- 0.5

0

0.5

1

1.5

A C G T

GTTGACCA

AA CA CC

AG AT CG CT

GA GC TA TC

GG GT TG TT

AC

Credit: Eamonn Keogh, [email protected]

25

Пример: «упрощенный» SAX • Используя процентили (1%, 2%, 5%, 10% или 15%- outliers)

• Только 3-символа в алфавите: а, 0, А или даже 2: 0, А когда малые значения не играют роли

• Процентили вычисляются отдельно учитывая специфику географии, время дня, сезона, и т.д.

• Пример временного ряда: [A, 0, 0, 0, A]

‘a’ ‘0’ ‘A’

26

Упрощенный подход (продолжение) • Измерения в пространстве времени и метрик:

• Naïve Bayes Text модель позволяет ассоциировать строки (bag of words) с исходом (например, станция вышла из строя)

• Такие модели могут как предсказывать, так и объяснять поведение (inference)

Метрика1 0 а А 0 0 0 А

Метрика2 0 а А 0 0 0 А

Метрика3 0 а А 0 0 0 А

feat

ures

МетрикаN 0 а А 0 0 0 А

time

. . . .

Временной ряд

снимок

27

Пример: упрощенный подход (продолжение)

Результаты:

• Метод анализа потоков диагностических данных с Наивным Байесовским текстовым методом

• Компания работает над имплементацией

28

• HP Cluster ¾ Hear about poor disk drives ¾ Dell Tweets back SSD coupon

• Macbook Cluster ¾ Hear about poor support ¾ Dell Tweets back Premier

Support

• Apple Cluster ¾ Hear about need for light

weight laptops ¾ Dell Tweets back industry

award for lightest laptops

© 2014 Teradata

Социальные Сети: Сбор и Обработка Информации

29

Iron Man 3 Тренд Настроений на Twitter

Реклама во время Super Bowl

4 Х Пики

30

Настроения и Кассовые Сборы (2я неделя)

$77

$251

$302

$165

$0

$50

$100

$150

$200

$250

$300

$350

0 20000 40000 60000 80000 100000 120000PEAK POSITIVE BUZZ SCORE

Кассовые Сборы (в милионах)

31

Станция Погоды Социальной Сети Результат: Объедияет настроения, тренды и

интересющие метрики в единую картину.

Следующий возможный шаг построение регрессионных моделей, etc.

32

• Данные как документы «bag of words»

• На входе могут быть результат таких функций как sessionize, TF и TF-IDF

• Полная поддержка LDA с SQL/MR: LDATrainer, LDAInference, LDATopicPrinter

• Создает модель латентных тем (topics) используя терминологию документов

• Классифицирует «документы» наиболее характерными темами из модели

• Парадигма «Обучение с учителем» (supervised learning): разделить данные на training и testing, использовать perplexity для сравнения моделей

Source: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

© 2014 Teradata

Латентное Размещение Дирихле (LDA) с Астер

33 © 2014 Teradata

Пример Итеративного Подхода в Астер

Tokenization Oбработка (SQL/Query

Grid) Sessionize

Визуализация и Анализ

TF-IDF (сессия как документ)

Тренировка LDA

Модели

Тест Модели

(Perplexity)

Транзит к Новой

Модели

Вывод на основе Модели

Minhash cfilter

(Моделирование тем с LDA)

34

• Каждая тема описывается в терминах найденных в данных

• Важно: – обозначить границы документов – Выбрать подходящие термины

(например, выбрать уровень taxonomy и/или terminology)

– Выбрать метрику терминов (TF, TF-IDF, какой из видов TF)

– Сравнивать модели: perplexity

• Пример: программный лог по клиентам и сессиям

• Классифицирует каждую сессию пользователя по латентным топикам

© 2014 Teradata

LDA с Астер

Статический профайл клиента по темам

Так выглядет тема найденная LDA

35 © 2014 Teradata

Латентная модель: Динамический Анализ Пользователей

Динамический профайл клиента демонстрирует фокус на “Snapshot Equity pricing”, со значительной активностью Volatility и Price Change в конде недели (может быть месяца)

36 © 2014 Teradata

Граф Пользователей Связанных Общими Темами (Астер AppCenter)

37

App Center ACT

SQL Editors

BI Tools Guided UI

App Center

38

Icons: - Chain created by Juan Pablo Bravo from the Noun Project

Credits and Attribution

© 2014 Teradata

39 39 © 2014 Teradata