Большие Данные с точки зрения резентации Big... · PDF...

Post on 19-Mar-2018

238 views 4 download

Transcript of Большие Данные с точки зрения резентации Big... · PDF...

1

© 2011 Informatica. Company Confidential. Forward-looking information is based upon multiple

assumptions and uncertainties and does not necessarily represent the company’s outlook.

Большие Данные с точки зрения MDM

Сергей Кузнецов Генеральный Директор Informatica Россия

Руководитель Центра Разработки

2

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

3

Новый Подход p

Доставка данных для процессоров

Мир Данных

Корпорации - терабайты/день Facebook = 15Pb, eBay = 5Pb

Традиционный подход

Больше Памяти Быстрее Процессор

4

Проект Hadoop

• Общедоступный проект (Apache), свой вклад

внесли компании Yahoo!, Facebook, Cloudera

• Состоит из двух основных компонент –

• HDFS (The Hadoop Distributed File System) – хранение данных на кластере дублирующими блоками 64/128 Mb

• MapReduce – распределенные вычисления среди узлов кластера

• Экосистема Hadoop

• Pig, Hive – оболочки для использования традиционных SQL запросов

• HBase - База Данных для хранения больших данных и широких таблиц, имеет ограниченную модель доступа

• Oozie, Sqoop, HUE, Flume и т.д.

p

5

Hadoop MapReduce –

6

Традиционный Подход

Использование Hadoop для Интерактивных Данных

DW

DW

7

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

8

Получения Достоверного Источника Данных

Централизованный

Достоверный

Источник Данных

Интеграция Данных

MDM КачествоДанных

• Целостность, Расширяемость,

• Консолидация данных

Управление мастер-данными

Data Quality

• Точность, Очищение данных

• Доступ к данных из любых

источников

• Репликация, защита и

маскирование данных

Качество Данных

Интеграция Данных

Управление Данными Полная интеграция в

существующую инфраструкту

приложений, процессов и пр

9

Продукты компании Informatica

Master Data

Management

Data

Quality Data

Integration

PowerCenter Data Quality MDM

Единый репозитарий метаданных (правила, библиотеки и пр.)

10

MDM – различные подходы

Единый Образ

Данных

Единый Источник Данных

Реестр Консолидация Синхронизация Централизация

Стиль

Процесс Реестр

идентификаторов-

указателей на

исходные

источники данных

Мастер-данные

собраны в Хабе,

далее -

синхронизация с

Хранилищем

Данных

Мастер-данные

собраны в Хабе,

синхронизация с

исходными

приложенияи –

источниками

данных

Мастер-данные

распределяются в

приложения из

Хаба

Обработка

Данных

Реальное время

Пакетное Пакетное и

Реальное время

Пакетное и

Реальное время

Направление

потока данных

Одностороннее Одностороннее Двустороннее Одностороннее

11

Как Informatica решает задачу получения мастер-данных?

Управление Мастер Данными Операционные

Аналитические

CIF Инфраструктурные приложения

Хранилища Данных

Витрины Данных

Порталы/ Стэнды

Бизнес Аналитика

Инфраструктура

Приложения

Приложения

Инфраструктура

Данные сторонних организаций

Очистить

До

ста

ви

ть

да

нн

ые

По

луч

ить

До

ступ

Распознать

Разрешить

конфликты Связать

Соединить

Смоделировать

Определить

12

Informatica MDM – основные возможности

Управление

данными

Очистка

Модель

Данных

Получение

Доступа

Разрешение

Конфликтов

Распознование

Определения

Построение

Связей

Доставка

Данных

Стандартизация адресов

Очистка Данных

Открытая

Архитектура

Один или

Несколько

Доменов Заказчик Продукт

Content

History Lineage

Configuration

Match Survivorship Validation Rules

Метаданные

Профилирование Анализ

Deterministic & Fuzzy Logic

Интернационализация

Соединение Функции

Доверия

Контр-агент & Продукт

Контр-агент

Продукт

Любые Источники Данных

Пакетное Реальное время

Любые Форматы

Бизнес-процессы

Вывод данных через API

Аналитика

Данных

Распознование

Разъединение

Интеграция

Данных

Качество

Данных

Управление

Мастер

Данными

Сервисы

Данных

Мониторинг KPI

Синхронизация Бизнес

Транзакции

13

Большие Данные с точки зрения MDM

Подходы к работе с Большими Данными, Hadoop

Управление Большими Данными –

Master Data Management (MDM)

Informatica MDM для Больших Данных

14

Продукты Informatica и Hadoop

• Общие цели, дополняют друг друга

• Большие Данные

• Расширяемость, Надежность, Доступность, Переносимость

• Снижение стоимости хранения информации

• Управление Большими Данными и MDM

• Большие данные везде (Volume, Velocity, Variety)

• Сбор транзакционных данных – традиционных, соц сетей и пр

• Группирование данных больших объемов – в силу множественности является задачей Больших Данных

15

Что меняется?

Традиционный Подход

• Основан на БД

• Несколько потоков используют поиск в

индексированной БД

• Издержки – Индексы БД в случае чтения и записи

одного фрагмента данных

Индексируемая

БД

Поиск

Поиск

Поиск

Поиск

Поиск

Поиск Поиск

Поиск

Поиск

Поиск

Поиск

16

• Hadoop решает эту задачу на уровне данных

• Издержки – обмен данными между узлами кластера

Что меняется?

17

Результаты

00:00:00

02:24:00

04:48:00

07:12:00

09:36:00

12:00:00

14:24:00

0 1 2 3 4 5 6

Вр

ем

я

Число узлов

Результаты Hadoop на 50M записей

Hadoop Results

Hub Distributed match

18

Тесты на расширяемость

0

50000

100000

150000

200000

250000

300000

350000

0 1 2 3 4 5 6

Чи

сл

о з

ад

ач

в м

ин

уту

Число узлов в кластере

Расширяемость 50M

Hadoop Grouping

Hub Dist Match

19

Informatica в России

• Informatica Россия & СНГ (офис продаж)

• Смоленский Пассаж, 6й этаж

• Смоленская пл. д.3

• 121099 Москва, Россия

• Тел +7(495) 771-7150

• Email: info-ru@informatica.com

• Informatica R&D Центр

• Средний пр 88А, 7й этаж

• 199106 С-Петербург, Россия

• Тел +7(812) 320-9143

20

Вопросы?