[Mirantis Day 2015] Проект Sahara - BigData на OpenStack

25
Copyright © 2015 Mirantis, Inc. All rights reserved software.mirantis.com Проект Sahara Big Data на OpenStack Сергей Лукьянов

Transcript of [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Page 1: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

software.mirantis.com

Проект SaharaBig Data на OpenStack

Сергей Лукьянов

Page 2: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Содержание

● Обзор проекта● Ключевые возможности● Варианты использования

Page 3: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

OpenStack Data Processing, codename “Sahara”

Ключевые возможности:● Запуск и управление кластерами обработки данных на

облаке OpenStack● Интеграция с различными дистрибутивами и

инструментами для обработки данных● Запуск и управление задачам по обработке данных

Обработка данных - Hadoop, Spark, Storm

“Предназначен для обеспечения масштабируемого стека обработки данных и связанных с ними интерфейсов управления.”

Page 4: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Текущий статус проекта

● Официальный интегрированный OpenStack проект● Mirantis - инициатор и основной участник (~50%)● Входит в состав Mirantis OpenStack● Вся функциональность доступна через REST API, CLI,

Python SDK и OpenStack Dashboard

Page 5: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Компании-участники

Page 6: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Поддерживаемые дистрибутивы и инструменты

● Vanilla Apache Hadoop 1.2.1, 2.4.1 и 2.6.0● включая Oozie, Pig, Hive

● Hortonworks Data Platform 1.3.2 и 2.0.6● включая Ambari, Oozie, Pig, Hive, Sqoop, Hue, HBase, etc.

● Cloudera CDH 5.0 и 5.3.0● включая CM, Oozie, Pig, Hive, Hue, Spark, Flume, Scoop, etc.

● [beta] Apache Spark 0.9.1 и 1.0.0● [alpha] MapR 3.1.1, 4.0.1, 4.0.2

● включая Oozie, Pig, Hive, Hie, Impale, Flume, Sqoop, etc.● [alpha] Apache Storm 0.9.2

Page 7: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Основные возможности - кластеринг

● Запуск и управление кластерами:● Шаблоны для конфигурации кластера● REST API для запуска и управления● Масштабировние кластера● Обеспечение надежности HDFS● Управление расположением HDFS● Интеграция с OpenStack Swift

● Управление кластером через OpenStack Horizon● Механизм плагинов для работы с разными

дистрибутивами и инструментами обработки данных

Page 8: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Шаблоны группы узлов (Node Group Tmpl)

● Параметры узла vCPU, RAM● Тип расположения HDFS● “Роль” - список процессов● Настройки процессов● Настройки сети, безопасности

Page 9: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Шаблоны конфигурации кластера (Cluster Tmpl)

● Настройки anti-affinity● Список и число узлов● Конфигурации сервисов

Page 10: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Пошаговое создание кластера

Page 11: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Основные возможности - EDP

● Elastic Data Processing - REST API для выполнения задач обработки данных, например, MapReduce (~ AWS EMR)

● Источники данных: Swift, HDFS, Ceph*● Типы задач: Jar, Pig, Hive, Spark● Oozie для управления Hadoop / MapReduce задачами● Поддержка Hadoop 1 & 2 и Spark в EDP● Выполнение задач на временных кластерах

Page 12: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Источники данных (Data Source)

Page 13: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Файлы задач и библиотек (Job Binary)

Page 14: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Шаблоны задач (Job Template)

Page 15: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

EDP (Elastic Data Processing)

JobTrackerVM

Oozie VM

HadoopVM

HadoopVM

HadoopVM

Sahara

SwiftINPUT

DB: Jar, Pig

EDP

Jar, Pig

Data Processing

OUTPUT

workflow.xm

l

● MapReduce задача - Pig скрипт и библиотека

● OpenStack Swift в качестве хранилища

Page 16: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Варианты использование #1

Dev → QA → Staging → Production жизненный цикл

● Возможность разворачивать кластера с одной конфигурацией на виртуальных машинах, железе и гибридных инсталляциях

● Быстрое разворачивание кластера по требованию● Увеличение гибкости и скорости инноваций● Управляемый доступ к данным в “продакшене”

Page 17: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Варианты использование #2

Analytics Use Cases

● Упрощенное выполнение задач - сложность поднятия и управления кластером скрыта от конечного пользователя

● Выпоняемые Hadoop задачи требуют значительных ресурсов только для короткого периода времени

● Использование свободных мощностей IaaS для Hadoop задач

Page 18: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Варианты использование #3

Administrators Use Cases

● Единая точка контроля за инфраструктурой● Возможность выбора диструбитвов от разных вендоров

для одних и тех же задач● Интеграция со сторонними инструметами:

● Apache (Hortonworks) Ambari● Cloudera Management Console

Page 19: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Спасибо!Вопросы и ответы

[email protected]

Slides: http://goo.gl/KGpAZM or

Page 20: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Надежность HDFS в облаке

Compute Node

DN DN DN DN

DN

Блок данных

Compute NodeDN

Page 21: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Надежность HDFS в облаке: anti-affinity

DN

Compute Node

TT | DN DN

Compute Node

DN

Cluster 1 Cluster 2

DNDN

Compute Node

TT

Page 22: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Надежность HDFS в облаке: topology awareness

DNDN DNDN DN

Блок данныхHDFS

Compute Node Compute Node Compute Node

Page 23: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Надежность HDFS в облаке: Swift интеграция

● Временные / воспроизводимые данные в HDFS● Исходные / выходные данные в OpenStack Swift

Page 24: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Планы на MOS 7.0 (Kilo) релиз

● Поддержка установки на голое железо (baremetal)● Поддержка дополнительных сервисов

Page 25: [Mirantis Day 2015] Проект Sahara - BigData на OpenStack

Copyright © 2015 Mirantis, Inc. All rights reserved

Архитектура

Data Sources

Sahara Python Client RE

ST A

PI

Cluster Configuration

Manager

Horizon

Keystone

Auth

Data Access Layer

Swift

Sahara Dashboard

HadoopVM

Vendors Plugins

HadoopVM

HadoopVM

HadoopVM

Resources Orchestration

Manager

Job Sources Job

Manager

Heat

Nova

Glance

Cinder

Neutron

Trove DB