Post on 20-May-2020
Алексей Перевозчиков
Server Solutions Product Manager
82189117@ru.ibm.com
ML/DL/AI - кому/как/зачем/почему. Все ли животные равны?
© 2017 IBM Corporation
Что такое ИИ?
Чем он отличается (и отличается ли) от
ML/DL?
Как создавать то, чему мы не можем дать
даже определение?
Несколько вопросов
© 2017 IBM Corporation
Что это такое? Зачем и кому нужно? ML/DL/AI
Риск
возникновения
инцидентов
90%
время
инспекцииs
10X
количество
инспекций
© 2017 IBM Corporation
Кластер из 22,000 узлов
716,000 процессоров Intel
20 часов
Что это такое? Зачем и кому нужно? ML/DL/AI
Кластер из 30 узлов
60 процессоров POWER
120 NVIDIA Tesla P100 GPUs
NVidia NVLink
92 минуты
© 2017 IBM Corporation
Контроль использования Средств Индивидуальной Защиты (СИЗ).
Распознавание формы сотрудника.
Что это такое? Зачем и кому нужно? ML/DL/AI
© 2017 IBM Corporation
Что это такое? Зачем и кому нужно? ML/DL/AI
Распознавание дефектов солнечных панелей
© 2017 IBM Corporation
Классификация звуков
• Идентификация происхождения
городских звуков:
• Люди
• Природа
• Музыка
• …
• Идентификация источников
звукового загрязнения и их
интенсивности
• Обеспечение безопасности
сверление
играющие
дети
машина
лай собаки
кондиционер
© 2017 IBM Corporation
“Экономический эффект систем ИИ на наше
общество к 2030 году составит 15 триллионов
долларов. Ни один сектор экономики не
останется в стороне.”
PwC, report “Sizing the prize”, Source: https://preview.thenewsmarket.com/Previews/PWC/DocumentAssets/476830.pdf
PwC report “Sizing the prize”
© 2017 IBM Corporation
Другая Экономика
Дешевая разработка –
дорогое тиражирование и
эксплуатация
Относительно дорогая
разработка – очень
дешевая эксплуатация
© 2017 IBM Corporation
Другая Экономика
Нейронная модель обученная
в дата центре с помощью
Caffe
PowerAI
Inference
Engine tool
FPGA Accelerator
bit-file for edge
Чип FPGA стоимостью от $20 до $1000
© 2017 IBM Corporation
Сравнение вариантов подключения GPU
• Прозрачное взаимодействие CPU/GPU
• когерентный доступ к памяти
• улучшенная трансляция виртуальных адресов
• разработано для эффективных моделей программирования
• ускорение сложных аналитических приложений
15
© 2017 IBM Corporation
Design: Flat and Fat
Fabric
IB
POWER9 DDR4
IB
DDR4 POWER9
V100V100 NVLink V100V100 NVLink
170GB/s 170GB/s
150 GB/s 150 GB/s
Общая память объемом до 2ТБ
GoogLeNet – 1000 epochs
LOWER IS BETTER
3.8x faster
[9709]seconds
4xTesla
V100 GPUs
PCIe3
Chainer v3 – сокращение времени
обучения в 3,8 раза
Benchmark details in speaker notes.
[2622]seconds
4xTesla
V100 GP
NVLink 2.0
• Обе системы 2 сокета + 4хV100
• Ускорение обучения в 3,8 раза при 1000
итераций обучения на медицинских и
спутниковых снимках
• Важнейшие параметры машинного
обучения – регрессия, поиск
ближайшего соседа, система
рекомендаций, кластеризация и др.
требуют использования не только
памяти GPU
• NVLink 2.0 обеспечивает улучшенную
связь CPU ➔ GPU
• LMS от IBM для DL автоматически
использует этот механизм для улучшения
производительности
[2940]seconds
LOWER IS BETTER
4xTesla
V100 GP
NVLink 2.0
3.7x faster
[11215]seconds
4xTesla
V100 GPUs
PCIe3
GoogLeNet – 1000 epochs
Benchmark details in speaker notes.
Caffe – сокращение времени
обучения в 3,7 раза
Benchmark details in speaker notes.
• Обе системы 2 сокета + 4хV100
• Ускорение обучения в 3,7 раза при 1000
итераций обучения на изображениях
2к х 2к
• Важнейшие параметры машинного
обучения – регрессия, поиск
ближайшего соседа, система
рекомендаций, кластеризация и др.
требуют использования не только
памяти GPU
• NVLink 2.0 обеспечивает улучшенную
связь CPU ➔ GPU
• LMS от IBM для DL автоматически
использует этот механизм для улучшения
производительности
2.3x faster
[2042]images /
second
4xTesla
V100 GPUs
PCIe3
TensorFlow обрабатывает в
2,3 раза больше изображений
Benchmark details in speaker notes.
[4763]images /
second
4xTesla
V100 GP
NVLINK 2.0
GoogLeNet – 1000 epochsHIGHER IS BETTER
• Обе системы 2 сокета + 4хV100
• Увеличение в 2,3 раза количества
обрабатываемых изображений в
секунду
• Важнейшие параметры машинного
обучения – регрессия, поиск
ближайшего соседа, система
рекомендаций, кластеризация и др.
требуют использования не только
памяти GPU
• NVLink 2.0 обеспечивает улучшенную
связь CPU ➔ GPU
• LMS от IBM для DL автоматически
использует этот механизм для улучшения
производительности
Benchmark details in speaker notes.
[3093]
[5737]
“Filter Tweets by Geographic Area” Marketing Test80-600 concurrent users accessing 280M simulated tweets (queries/min)
85%faster
Performance is so low,
it’s not on the chart
[673]seconds
[917]seconds
POWER9 delivers 2.6x faster
CPMD simulation runs
with same NVIDIA GPU
LOWER IS BETTERHIGHER IS BETTER
[~10GB/s]PCIe G3
4xP100 GPUs
NVLink 1.0
Benchmark details in speaker notes.
POWER9 delivers ~5x faster data
movement CPU → GPU when
running CPMD simulations
PCIe G3
2.6xfaster
~5xfaster
4VP100 GPUs
NVLink 2.0
[351]seconds
[~50GB/s]NVLink 2.0
train more | build more | know more
4VP100 GPUs
NVLink 2.0
S822LCPOWER8
20 cores
4 - P100 GPUs
256GB RAM
Hardware List Price
$67,054
TCA Street Price
$53,654
TensorFlow
70
TCA Price/Performance
$766
AC922POWER9
32 cores
4 – V100 GPUs
256GB RAM
Hardware List Price
$68,854
TCA Street Price
$55,083
TensorFlow
140
TCA Price/Performance
$393
C4130x86 Broadwell
28 cores
4 – V100 GPUs
256GB RAM
Hardware List Price
$87,569
TCA Street Price
$70,055
TensorFlow
70
TCA Price/Performance
$1001
POWER / x86 Price
Index
Hardware List Price Ratio
0.77 0.77
TCA Street Price Ratio
0.77 0.77
TCA Price Performance Ratio
0.77 0.39
22
• Getting questions on GPU pricing compared to on-line pricing? IBM’s net price is competitive!• Dell List price for a Tesla V100 GPU is $16,919 vs. $11,499 in AC922
• Drive home AC922 GPU efficiency versus commodity x86 servers … CPU→NVLink and LMS is a differentiator
• P8 to P9 accelerated computing servers are a price point replace at 256GB memory capacities HIGHLIGHTS
vs. Broadwell
vs. Broadwell
© 2017 IBM Corporation
ЕСТЬ ? ЭКСПЛУАТАЦИИ
Resource management layer (CPU/GPU/FPGA) (Docker, Kubernetes)
© 2017 IBM Corporation
Код ML – это малая часть систем на базе ML
“Hidden Technical Debt in Machine Learning Systems”, Google
© 2017 IBM Corporation
Обеспечение возможности использования AI/DL
Создание команды с Deep Learningэкспертизой: 2 месяца ~ 1 год
Подготовка данных для обучения: ~ 10 чел-месяцев
Обучение новой модели:
1 час ~ неделя
Предоставление результата:
< 1 сек
Cognitive System – IBM PowerAI
Оптимизация стека SW + HW с целью улучшения
• Продуктивности
• Производительности
• Time to market
© 2017 IBM Corporation
Cognitive System Stack (based on PowerAI)
Hardware
Cloud and Resource Management Software
AI Library Stack
AI Development Environment and Service Tools
AI Data Scientist AI Application Developer Data Engineers
Container Cloud : Kubernetes and Spark
Deep Learning Software Stack for Deep Learning, Spark ML, etc.
AI Vision, Data Scientist Experience, DL Insight, PowerAI Inference Engine, …
POWER + GPU/FPGACompute nodes for training,
inference and analyticsNetwork
GPU for IBM Cloud Private
Storage
© 2017 IBM Corporation
Жизненный цикл нейросетевой модели
В типичном проекте машинного обучения нужно выполнить следующие шаги для обучения и использования нейронной сети
НачалоРазработка
приложения
Определить
задачи
обучения
Подготовить
данные для
обучения
Пред
обработка
Выбор
модели
нейронной
сети
Конфигурация
параметров
обучения
Обучение
модели
Упаковка
обученной
модели
Подготовка
платформы
для
тестирования
• Необходим опыт в разработке нейронных сетей
• Необходим опыт в технологиях распознавания образов
• Необходим опыт в построении платформы для поддержки машинного обучения
корпоративного уровня, включая подготовку данных, обучение и вывод результатов
© 2017 IBM Corporation
В чем ценность PowerAI Vision?
• PowerAI Vision автоматизирует циклы машинного обучения для разработчиков.
• Технологии машинного/глубокого обучения уже встроены в продукт.
Start Inference
Эти шаги выполняются автоматически в PowerAI Vision
Можно пользоваться
API для распознавания!
Тестирование нейронной сети
• Категории
назначаются
пользователем
• Управление
наборами
тестовых данных
• Конвертация данных
• Поддержка наборов
обучения и проверки
• Поддержка плагинов
предобработки
• Основные модели для
разных сценариев
• Прогноз времени
обучения
• Визуализация
процесса
обучения
(параметры,
точность)
• Обучение с GPU
• Расширяемость и
высокая
доступность
Определить
задачи
обучения
Подготовить
данные для
обучения
Пред
обработка
Выбор
модели
нейронной
сети
Конфигурация
параметров
обучения
Обучение
модели
Упаковка
обученной
модели
Подготовка
платформы
для
тестирования
© 2017 IBM Corporation
Классификация изображений в PowerAI Vision
Ом
Р-51
Московский
Большая Синица: 0.907
Певчий дрозд: 0. 999
Певчий дрозд Колибри
Домовый воробей Речная ласточка
Категории в PowerAI Vision
Большая синица
Рэдиссон: 0. 987
> 20 категорий
5 категорий
Image Classification Object Detection
Изображения Видео