cc13 korsus

Post on 19-Dec-2014

2.100 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

10.04.2023 1

Warum 99% der A/B Tests fehlerhaft sind

Andreas KorsusMarketing Technologist 4 Statistische Fehler, die (fast) jeder macht

Andreas Korsus10.04.2023 3

1. Fehler

Split URL Tests mit JavaScript Lösungen

Andreas Korsus10.04.2023 4

Bedeutung der Geschwindigkeit

+100 ms -1% Verkäufe

Greg Linden, über Amazon

+500ms -20% Traffic

Marissa Meyer über Google

Zeit

Zeit

Wie lange dauert das?

Zeit

Wie lange dauert das?

50-1000ms

Andreas Korsus10.04.2023 8

Lösung

A/A‘/B Test

A A‘ B

www.beispiel.de/original.htm

www.beispiel.de/original.htm?cachebuster

www.beispiel.de/variante-b.html

Kopie

Inkl. Redirect Inkl. Redirect

Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-12%20ExPUnexpectedSIGKDD.pdf

Andreas Korsus10.04.2023 9

Lösung

A/A‘/B Test

A A‘ B

Differenz gibt den Betrag der

Verzerrung an

Differenz gibt bereinigten Unterschied

zwischen A und B an

Kopie

Andreas Korsus10.04.2023 10

2. Fehler

Blind auf Signifikanz und Konfidenzintervalle der Testing-

Tools vertrauen

Andreas Korsus10.04.2023 11

2. Fehler

Ist DAS wirklich signifikant?

Andreas Korsus10.04.2023 12

Normalverteilung

95% Confidence interval

Andreas Korsus10.04.2023 13

Binomialverteilung

Andreas Korsus10.04.2023 14

Vergleich Binomial- & Normalverteilung

0% 0,5% 1% 1,5% 2%

Ausgewiesene Signifikanz: 96%Wahrer Wert: 77%

Andreas Korsus10.04.2023 15

Problem

Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung

insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau

wieder

(Die Student t-Verteilung macht es auch nicht besser)

Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

Andreas Korsus10.04.2023 16

Lösung

Mindestens 500 Besucher pro Variante

Konversionsrate < 2,0%:Mindestens 2000 Besucher pro Variante,

besser noch höher

Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante

Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.

Andreas Korsus10.04.2023 17

3. Fehler

Multivariate Tests

Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt-

Fehlerwahrscheinlichkeit ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich

Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121

Andreas Korsus10.04.2023 18

Problem

5%

Test mit 1 Variante

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 19

Problem

9,75%

Test mit 2 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 20

Problem

18,55%

Test mit 4 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 21

Problem

56%Test mit 16 Varianten

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 22

Lösung

Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten

Kombinationen nur mit Sinn und Verstand testen.Nicht alles, was geht.

Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von

5% / 4 = 1,25%(entspricht Signifikanzniveau 98,75%)

Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.

Andreas Korsus10.04.2023 23

Oder

Erst multivariaten Test wie gewohnt durchführen

Besten „Kandidaten“ im A/B Test nochmal überprüfen

Andreas Korsus10.04.2023 24

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Andreas Korsus

Das wird bestimmt noch positiv!

10.04.2023 25

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Andreas Korsus10.04.2023 26

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Andreas Korsus10.04.2023 27

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)

Andreas Korsus10.04.2023 28

4. Fehler

Wiederholtes Testen

Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung

zu fällen, jedes Mal ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt

Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787

Andreas Korsus10.04.2023 29

Problem

5%

Test mit 1 Mal „nachgucken“

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 30

Problem

8,3%

Test mit 2 Mal nachgucken*

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

* Gleicher Zeitabstand zwischen den Auswertungen

Andreas Korsus10.04.2023 31

Problem

14,2%

Test mit 5 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus10.04.2023 32

Problem

24,8%

Test mit 20 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus

53%

10.04.2023 33

Problem

Test mit 1000 Mal nachgucken

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Andreas Korsus

Diese Funktionen schauen nach jedem Besucher nach!

10.04.2023 34

Problem

Test mit 1000 Mal nachgucken

Andreas Korsus10.04.2023 35

Lösung

Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch*

Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie

sich an die Werte!

* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php

Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden.

Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt

Zu niedrig geschätzt: Der Test braucht ewig

Andreas Korsus10.04.2023 36

Lösung

Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede

zuverlässig sehr früh und kleinere Unterschiede durch eine längere

Testdauer zu erkennen

Allerdings gibt es (noch) keine einfache Anwendung für die CRO

Pläne nach Pocock, O‘Brien Fleming, Alpha-Spending Funktionen, SPRT, Dreieckspläne

Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).

Andreas Korsus10.04.2023 37

Lösung

Beispielplan nach O‘Brien Fleming

Führe eine Testdaueranalyse durch und schätze den Uplift konservativ

Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch:

1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%

Andreas Korsus10.04.2023 38

Alles in allem

Mach keine A/B Split URL Tests in JavaScript-Tools – Starte mit A‘/B Tests!

Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus!

Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten!

Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden.

Arbeite methodisch sauber

Andreas Korsus10.04.2023 39

Vielen Dank

http://xing.to/korsus

http://de.linkedin.com/in/korsus

Andreas Korsus10.04.2023 40

Jeffrey’s Equal-Tailed Intervall

R:L <- qbeta( alpha/2, k+1/2, n-k+1/2)U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)

Excel:=BETA.INV(alpha/2;k+1/2;n-k+1/2)=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)

k=Anzahl der Conversions, n=Anzahl der Besucher

Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

top related