CC13 Korsus

39
31.10.2022 1 Warum 99% der A/B Tests fehlerhaft sind Andreas Korsus Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht

description

 

Transcript of CC13 Korsus

Page 1: CC13 Korsus

10.04.2023 1

Warum 99% der A/B Tests fehlerhaft sind

Andreas KorsusMarketing Technologist 4 Statistische Fehler, die (fast) jeder macht

Page 2: CC13 Korsus

Andreas Korsus10.04.2023 3

1. Fehler

Split URL Tests mit JavaScript Lösungen

Page 3: CC13 Korsus

Andreas Korsus10.04.2023 4

Bedeutung der Geschwindigkeit

+100 ms -1% Verkäufe

Greg Linden, über Amazon

+500ms -20% Traffic

Marissa Meyer über Google

Page 4: CC13 Korsus

Zeit

Page 5: CC13 Korsus

Zeit

Wie lange dauert das?

Page 6: CC13 Korsus

Zeit

Wie lange dauert das?

50-1000ms

Page 7: CC13 Korsus

Andreas Korsus10.04.2023 8

Lösung

A/A‘/B Test

A A‘ B

www.beispiel.de/original.htm

www.beispiel.de/original.htm?cachebuster

www.beispiel.de/variante-b.html

Kopie

Inkl. Redirect Inkl. Redirect

Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-12%20ExPUnexpectedSIGKDD.pdf

Page 8: CC13 Korsus

Andreas Korsus10.04.2023 9

Lösung

A/A‘/B Test

A A‘ B

Differenz gibt den Betrag der

Verzerrung an

Differenz gibt bereinigten Unterschied

zwischen A und B an

Kopie

Page 9: CC13 Korsus

Andreas Korsus10.04.2023 10

2. Fehler

Blind auf Signifikanz und Konfidenzintervalle der Testing-

Tools vertrauen

Page 10: CC13 Korsus

Andreas Korsus10.04.2023 11

2. Fehler

Ist DAS wirklich signifikant?

Page 11: CC13 Korsus

Andreas Korsus10.04.2023 12

Normalverteilung

95% Confidence interval

Page 12: CC13 Korsus

Andreas Korsus10.04.2023 13

Binomialverteilung

Page 13: CC13 Korsus

Andreas Korsus10.04.2023 14

Vergleich Binomial- & Normalverteilung

0% 0,5% 1% 1,5% 2%

Ausgewiesene Signifikanz: 96%Wahrer Wert: 77%

Page 14: CC13 Korsus

Andreas Korsus10.04.2023 15

Problem

Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung

insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau

wieder

(Die Student t-Verteilung macht es auch nicht besser)

Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

Page 15: CC13 Korsus

Andreas Korsus10.04.2023 16

Lösung

Mindestens 500 Besucher pro Variante

Konversionsrate < 2,0%:Mindestens 2000 Besucher pro Variante,

besser noch höher

Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante

Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.

Page 16: CC13 Korsus

Andreas Korsus10.04.2023 17

3. Fehler

Multivariate Tests

Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt-

Fehlerwahrscheinlichkeit ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich

Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121

Page 17: CC13 Korsus

Andreas Korsus10.04.2023 18

Problem

5%

Test mit 1 Variante

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 18: CC13 Korsus

Andreas Korsus10.04.2023 19

Problem

9,75%

Test mit 2 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 19: CC13 Korsus

Andreas Korsus10.04.2023 20

Problem

18,55%

Test mit 4 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 20: CC13 Korsus

Andreas Korsus10.04.2023 21

Problem

56%Test mit 16 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 21: CC13 Korsus

Andreas Korsus10.04.2023 22

Lösung

Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten

Kombinationen nur mit Sinn und Verstand testen.Nicht alles, was geht.

Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von

5% / 4 = 1,25%(entspricht Signifikanzniveau 98,75%)

Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.

Page 22: CC13 Korsus

Andreas Korsus10.04.2023 23

Oder

Erst multivariaten Test wie gewohnt durchführen

Besten „Kandidaten“ im A/B Test nochmal überprüfen

Page 23: CC13 Korsus

Andreas Korsus10.04.2023 24

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Page 24: CC13 Korsus

Andreas Korsus

Das wird bestimmt noch positiv!

10.04.2023 25

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Page 25: CC13 Korsus

Andreas Korsus10.04.2023 26

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Page 26: CC13 Korsus

Andreas Korsus10.04.2023 27

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)

Page 27: CC13 Korsus

Andreas Korsus10.04.2023 28

4. Fehler

Wiederholtes Testen

Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung

zu fällen, jedes Mal ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt

Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787

Page 28: CC13 Korsus

Andreas Korsus10.04.2023 29

Problem

5%

Test mit 1 Mal „nachgucken“

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 29: CC13 Korsus

Andreas Korsus10.04.2023 30

Problem

8,3%

Test mit 2 Mal nachgucken*

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

* Gleicher Zeitabstand zwischen den Auswertungen

Page 30: CC13 Korsus

Andreas Korsus10.04.2023 31

Problem

14,2%

Test mit 5 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 31: CC13 Korsus

Andreas Korsus10.04.2023 32

Problem

24,8%

Test mit 20 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 32: CC13 Korsus

Andreas Korsus

53%

10.04.2023 33

Problem

Test mit 1000 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Page 33: CC13 Korsus

Andreas Korsus

Diese Funktionen schauen nach jedem Besucher nach!

10.04.2023 34

Problem

Test mit 1000 Mal nachgucken

Page 34: CC13 Korsus

Andreas Korsus10.04.2023 35

Lösung

Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch*

Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie

sich an die Werte!

* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php

Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden.

Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt

Zu niedrig geschätzt: Der Test braucht ewig

Page 35: CC13 Korsus

Andreas Korsus10.04.2023 36

Lösung

Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede

zuverlässig sehr früh und kleinere Unterschiede durch eine längere

Testdauer zu erkennen

Allerdings gibt es (noch) keine einfache Anwendung für die CRO

Pläne nach Pocock, O‘Brien Fleming, Alpha-Spending Funktionen, SPRT, Dreieckspläne

Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).

Page 36: CC13 Korsus

Andreas Korsus10.04.2023 37

Lösung

Beispielplan nach O‘Brien Fleming

Führe eine Testdaueranalyse durch und schätze den Uplift konservativ

Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch:

1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%

Page 37: CC13 Korsus

Andreas Korsus10.04.2023 38

Alles in allem

Mach keine A/B Split URL Tests in JavaScript-Tools – Starte mit A‘/B Tests!

Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus!

Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten!

Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden.

Arbeite methodisch sauber

Page 38: CC13 Korsus

Andreas Korsus10.04.2023 39

Vielen Dank

http://xing.to/korsus

http://de.linkedin.com/in/korsus

Page 39: CC13 Korsus

Andreas Korsus10.04.2023 40

Jeffrey’s Equal-Tailed Intervall

R:L <- qbeta( alpha/2, k+1/2, n-k+1/2)U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)

Excel:=BETA.INV(alpha/2;k+1/2;n-k+1/2)=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)

k=Anzahl der Conversions, n=Anzahl der Besucher

Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784