Tempest: An Architecture for Scalable Time-Critical Services Mahesh Balakrishnan Amar Phanishayee...

Tempest: An Architecture for Scalable Time-Critical Services

Mahesh BalakrishnanAmar Phanishayee

Tudor MarianProfessor Ken Birman

Clusters of commodity computers used in mission-critical settings

(commercial and military) Advantages

cost-effectiveness, incremental scalability and high availability

Issues failures, arbitrary load, network losses

affect real-time guarantees

Tempest: Goal Provide programmers replicated data

storage primitives

Very fast average performance and good worst-case timing guarantees

Easy Deployment, Monitoring and Management of time-critical scalable services in a clustered environment

Tempest: Approach clone services for scalability, fault tolerance automate replica placement (service

colocation) fine-grained data caching response time monitoring to detect service

slowdown redundant querying for faster response UI to drag and drop services onto a cluster

Accomplishments Ricochet: Low-Latency Multicast for

Scalable Time-Critical Services Submitted to NSDI 2006 (Oct 2005)

Scalable Services Architecture (SSA) Submitted to ICDCS (Nov 2005)

Ricochet vs SRMSRM Recovery

0.0E+00

2.0E+06

4.0E+06

6.0E+06

8.0E+06

1.0E+07

1.2E+07

1.4E+07

1 2 4 8 16 32 64 128

Groups

Average Recovery Delay Average Discovery Delay

Ricochet Recovery

2 4 8 16 32 64 128 256 512 1024

GroupsM

Average Recovery Delay

• SRM’s discovery delay is the lower bound on recovery

• SRM’s recovery delay scales poorly with # of Groups (delay in seconds!)

• Ricochet scales in # of Groups (~14ms in 1 group to 24 ms in 1024 groups)

64 Groups

9 seconds

64 Groups16ms !

Ricochet vs SRM in 64 groups

Histogram of SRM Recoveries (64 Groups)

Microseconds

Histogram of Ricochet Recoveries (64 Groups)

MicrosecondsPe

SRM Recovery centered around 9 seconds… Ricochet around 15 milliseconds.

1-2 orders of magnitude!Improvement increases with number of groups

Inconsistency WindowsHistogram of Ricochet Recoveries (64 Groups)

Microseconds

Ricochet Replication:

Updates are reflected at all

replicas within…

65% within 1.25 ms90% within 18 ms99% within 77 ms100% within 125 ms

Tempest: An Architecture for Scalable Time-Critical Services Mahesh Balakrishnan Amar Phanishayee...

Documents

Transcript of Tempest: An Architecture for Scalable Time-Critical Services Mahesh Balakrishnan Amar Phanishayee...

Birman joshua mdd410_week4[1]

CS5412: ADAPTIVE OVERLAYS Ken Birman 1 CS5412 Spring 2012 (Cloud Computing: Birman) Lecture V.

CS5412: ANATOMY OF A CLOUD Ken Birman 1 CS5412 Spring 2014 (Cloud Computing: Birman) Lecture VIII.

Birman Desamparo

University News & Events · 2020. 9. 25. · PROFESSOR GOPAL BALAKRISHNAN History of Consciousness Department Re: Balakrishnan Academic Senate Bylaw 336 Hearing Dear Professor Balakrishnan:

Balakrishnan ITE 2005

PLATO: Predictive Latency- Aware Total Ordering Mahesh Balakrishnan Ken Birman Amar Phanishayee.

Birman (1998)

Aen009 Balakrishnan 091907

CS5412: OVERLAY NETWORKS Ken Birman 1 CS5412 Spring 2014 (Cloud Computing: Birman) Lecture IV.

CS5412: TRANSACTIONS (II) Ken Birman CS5412 Spring 2014 (Cloud Computing: Birman) 1 Lecture XVIII.

Rama Balakrishnan

CS5412: OVERLAY NETWORKS Ken Birman 1 CS5412 Spring 2015 (Cloud Computing: Birman) Lecture IV.

Manuel de Birman 2

BIRMAN BREED ADVISORY COMMITTEE - Birman Cat Club · BIRMAN BREED ADVISORY COMMITTEE RECOMMENDED BREEDING ... Barbara Gandolfi at the Lyons’ feline genetics laboratory at UC Davis,

CS5412: TRANSACTIONS (I) Ken Birman CS5412 Spring 2015 (Cloud Computing: Birman) 1 Lecture XVI.

CS5412: HOW MUCH ORDERING? Ken Birman 1 CS5412 Spring 2012 (Cloud Computing: Birman) Lecture XVI.

CS5412: HOW DURABLE SHOULD IT BE? Ken Birman 1 CS5412 Spring 2012 (Cloud Computing: Birman) Lecture XV.

CS5412: TORRENTS AND TIT-FOR-TAT Ken Birman 1 CS5412 Spring 2012 (Cloud Computing: Birman) Lecture VI.

CS5412: PAXOS Ken Birman 1 CS5412 Spring 2014 (Cloud Computing: Birman) Lecture XIII.