Linux High Availability Cluster - Kurakin · Pranešimas “Kodėl aš skaitau pranešimus?”: -...

Linux High Availability Cluster

Pacemaker ir Corosync

Sergej Kurakin

Sergej KurakinAmžius: 36

Dirbu: NFQ Technologies

Pareigos: Programuotojas

NFQ Offline Day 2015 (2015-09-04)Pranešimas “Kodėl aš skaitau pranešimus?”:

- Pasidalinkime savo eksperimentais.

Manau, jau atėjo laikas papasakoti apie vieną.

Bet tai tik eksperimentas, labiau teorinis, kurio nesu pritaikęs realiam projekte.

2007 - 2012Dirbau prie vieno didesnio projekto.

Ne viskas veikė puikiai.

Ne viskas buvo automatizuota.

Daugiausiai problemų kildavo su “failover” sprendimais.

SituacijaTruputį “legacy” projektas.

Mes negalime keisti DNS įrašų.

Mes negalime migruoti į “Cloud”.

Yra limituotas kiekis techninės įrangos resursų.

Esant reikalui techninė įranga per tam tikrą laiką gali būti nupirkta, sumontuota ir pajungta.

Prieš 4+ metusJau dirbant prie kitų projektų kitoje vietoje aš radau laiko ir noro kažką išbandyti.

https://twitter.com/zaza_lt/status/287636375992422400

CentOS + Linux-HA

Tikslas: rasti sprendimą, kuris leis RHEL/CentOS OS pagrindu užtikrinti “High Availability” NGINX serveriui.

Bet pradėkime nuo pradžių.

Kas gali sulūžti?Tinklo šakotuvas (Switch)

Tinklo laidas

Tinklo korta (NIC)

Maitinimo šakotuvas (PDU)

Maitinimo blokas (PSU)

Maitinimo laidas

Diskas

Pagrindinė plokštė (Main board / Motherboard)

Diskų valdiklis

Ventiliatoriai

Atmintis (RAM)

Mikroprocesoriai (CPU)

Kiti specifiniai komponentai

Kas yra “High Availability”?Sistemos savybė, kurios pagalba siekiama užtikrinti sutartą eksploatacinių savybių lygį.

Dažniausiai siekiama užtikrinti didesnį nenutrūkstamą sistemos veikimo laiką negu įprastai.

Klasika be kurios nebūna HA prezentacijų

99% 3.65 dienas

99.9% 9 valandas

99.99% 52 minutes

99.999% 5 minutes

99.9999% 30 sekundžių

Nenutrūkstamas sistemos veikimasĮjungtas serveris?

Veikianti operacinė sistema?

Atsakimas į “ping”?

Tam tikro TCP/UDP porto veikimas?

Tam tikro URL atidarymas?

Tam tikro funkcionalumo veikimo užtikrinimas?

Nustatyti silpniausias sistemos dalisKas gali lūžti?

Ar sustos veikti visa sistema?

Ar nustos veikti svarbus sistemos funkcionalumas?

Nustatyti “Single Point of Failure”.

Kas yra tas “Cluster”?Tai grupė kompiuterių, sujungtų tinklu, skirtų atlikti tą pačią funkciją ar užduotį.

Dažniausiai “iš išorės” jie atrodo kaip vienas kompiuteris.

Image from https://en.wikipedia.org/wiki/High-availability_cluster

Linux HA Cluster komponentai● Shared storage● Different networks● Bonded network devices● Multipathing● Fencing/STONITH

Programinė įrangaCluster membership layer

corosync

heartbeat

openais

Resource manager

pacemaker

Pacemaker vidiniai komponentaiCIB - Cluster Information Base

crmd - Cluster resource manager daemon

pengine - Policy engine

lrmd - Local resource manager daemon

stonithd/fenced

“Cluster” veikimo režimaiActive / Active

Active / Passive

N-to-1

N-to-N

Kokie yra “resource agent”?Filesystem

IPaddr2

ProFTPd / proftpd

SphinxSearchDaemon

apache

mysql-proxy

nfsserver

postfix

rabbitmq-cluster

Jų yra žymiai daugiau.

STONITH (Shoot The Other Node In The Head)Neveikiančio serverio izoliavimas, siekiant apsaugoti “Cluster” nuo jo neigiamo poveikio.

Dažniausiai tai išjungimas arba perkrovimas.

Įrankiai: IPMI, APC, DRAC, Virtualization Management, SSH, Meatware

Tai yra pagrindiniai Linux High Availability Cluster dalis

Diegimo principasĮ visus narius diegiama ir konfigūruojama reikalinga programinė įranga.

Į visus narius diegiamas ir konfigūruojamas “membership layer”.

Į visus narius narius diegiamas “resource manager”.

Viename iš narių konfigūruojami resursai per “resource manager”.

Konfigūracinių failų valdymasKiekviename serveryje atskirai.Sunku suvaldyti, lengva suklysti. Automatizuoti sinchronizaciją?

“Shared storage”.Svarbu, kad netaptų SPOF.

Tad grįžkime prie mano eksperimento.

Sena sistema

Tai į ką aš taikiausi

Demo OneJei pavyks :-)

Mano pasirinktas ir sukurtas sprendimas turėtų perkelti IP į veikiantį serverį ir jame paleisti NGINX.

Kas panaudotaVirtualBox

4 VM’ai viename “host-only” tinkle

Debian Jessie + Backports

Pacemaker + corosync

PHP-FPM

Demo TwoJei pavyks :-)

Mano pasirinktas ir sukurtas sprendimas turėtų perkelti IP į veikiantį serverį ir jame paleisti NFS Share.

Kas panaudotaVirtualBox

2 VM’ai dvejuose “host-only” tinkluose

Debian Jessie + Backports

Pacemaker + corosync

Kas nepavykoNetwork bound - kažkaip neveikia man su VirtualBox.

NFS Cluster nevisada teisingai daro “failover”.

TestavimasMigracijos ir resursų išjungimas

Staigus resurso išjungimas (pvz.: kill -9)

Elektros dingimas viename iš “node”

Tinklo sutrikimai

STONITH testai

Daugiau įrangos != didesnis HANe, tai ne paradoksas!

Didesnis įrangos kiekis padidina reikiamas pastangas norint užtikrinti HA, nes atsiranda daugiau galimų trikčių vietų ir sudėtingėja įgyvendinimas.

Manau, kad mano eksperimentas pavyko.

IšvadosReikia labai gerai išmanyti programinę įrangą kuri keliama į “Cluster”.

Reikia labai gerai išmanyti “Cluster” programinę įrangą ir konfigūravimą.

Labai stipriai sudėtingėja projektų diegimas ir priežiūra.

Duomenų centras turi atitikti tam tikrus reikalavimus.

Techniniai įrangai (serveriai, tinklas) turi būti keliami specifiniai reikalavimai.

Prieš paleidimą reikia atlikti žymiai daugiau “Cluster” testavimo darbų.

Galbūt vertėjo naudoti RHEL/CentOS (Red Hat Cluster Suite), o ne Debian.

Papildoma informacijahttps://en.wikipedia.org/wiki/High_availability

https://en.wikipedia.org/wiki/High-availability_cluster

https://wiki.debian.org/Debian-HA/ClustersFromScratch

http://www.linux-ha.org/wiki/Main_Page

http://clusterlabs.org/

https://ourobengr.com/ha/

Knygos“Clusters from Scratch”http://clusterlabs.org/doc/

“Pro Linux High Availability Clustering”https://www.apress.com/la/book/9781484200803

DiskusijaSergej Kurakin

@paštas: sergej.kurakin@nfq.lt

Linux High Availability Cluster - Kurakin · Pranešimas “Kodėl aš skaitau pranešimus?”: -...

Documents

Transcript of Linux High Availability Cluster - Kurakin · Pranešimas “Kodėl aš skaitau pranešimus?”: -...

Outlook - emokykla.lt · 2020. 6. 26. · Parašo susikūrimas(Naujas → Parašas→ Parašai→ Naujas→ Įrašyti Pranešimas apie perskaitymą (Naujas → Parinktys→ Reikalauti

Walking the Line between Reality and Fiction in Online ... · our worldly experiences (Kurakin 2010). In other words, we, as human beings, learn through and with stories early in

PSR: standardising HTTP - Kurakin€¦ · • PSR-7: HTTP Message Interfaces •PSR-15: HTTP Handlers •We have 3 PSRs PSR-17: HTTP Factories. PSR-7. Accepted on 19th of May, 2015.

arXiv:1804.00097v1 [cs.CV] 31 Mar 2018 · 2018-04-03 · arXiv:1804.00097v1 [cs.CV] 31 Mar 2018. 2 Kurakin et al. structure and organization of the competition and the solutions developed

Arminas Varanauskas, VU SA - "Atmerk akis - laikas veikti: svietimas"

Laikas koheleto_knyga

Hidden gears of your application - Kurakin · Problem Need for quick response Need for many updates Need for different jobs done Need for task to be done as different user on server

Appendicitis DONE BY DR KURAKIN VICTOR. The appendix is a wormlike extension of the cecum and, for this reason, has been called the vermiform appendix.

Alex Kurakin, and Nicolas Papernot High Accuracy and High ...High Accuracy and High Fidelity Extraction of Neural Networks Matthew Jagielski, Nicholas Carlini, David Berthelot, Alex

Priedas Nr. 6 - lm · matematikos pamokose. Pranešimas Mokytoju tarybos posèdyje:Ugdymo proceso medernizavimo poveikis 11-12 klasiu mokinu mokymosi mot vaci.os kélimui amtos ir

OFFICIAL BULLETIN OF THE STATE PATENT BUREAU OF ......2020/01/10 · LTOFICIALŪS PRANEŠIMAI OB 2020/01, 2020-01-10 3VALSTYBINIO PATENTŲ BIURO PRANEŠIMAS Nuo 2016 m. sausio 1 d.

Almost Continuous Almost Delivery - Kurakin · Context It is an experience of a small team We ain’t live (still in private alpha) More challenges to come soon Everything based on

The SOFT 2007 Alexei Kurakin. All rights reserved. spatiotemporal scales through ... self-organizing fractal theory (SOFT); adaptation through ... The SOFT © 2007 Alexei Kurakin.

personal website | Sergej Kurakin aka ZaZa - Dead Letters...RabbitMQ Gearman Beanstalk IBM Integration Bus (WebSphere Message Broker) Microsoft Message Queuing Redis* RDBMS* Use “Search”

PHP QA TOOLS - Kurakin · 2014-09-09 · PHP Lint - syntax check Checks PHP code for syntax errors Built-in into PHP binary $ php -l path/to/file.php

A Real Time System for Dynamic Hand Gesture Recognition ... · PDF fileA REAL TIME SYSTEM FOR DYNAMIC HAND GESTURE RECOGNITION WITH A DEPTH SENSOR A. Kurakin Moscow Institute of Physics