cc13 korsus

10.04.2023 1

Warum 99% der A/B Tests fehlerhaft sind

Andreas KorsusMarketing Technologist 4 Statistische Fehler, die (fast) jeder macht

Andreas Korsus10.04.2023 3

1. Fehler

Split URL Tests mit JavaScript Lösungen

Bedeutung der Geschwindigkeit

+100 ms -1% Verkäufe

Greg Linden, über Amazon

+500ms -20% Traffic

Marissa Meyer über Google

Wie lange dauert das?

50-1000ms

Lösung

A/A‘/B Test

A A‘ B

www.beispiel.de/original.htm

www.beispiel.de/original.htm?cachebuster

www.beispiel.de/variante-b.html

Inkl. Redirect Inkl. Redirect

Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-12%20ExPUnexpectedSIGKDD.pdf

Lösung

A/A‘/B Test

A A‘ B

Differenz gibt den Betrag der

Verzerrung an

Differenz gibt bereinigten Unterschied

zwischen A und B an

2. Fehler

Blind auf Signifikanz und Konfidenzintervalle der Testing-

Tools vertrauen

2. Fehler

Ist DAS wirklich signifikant?

Normalverteilung

95% Confidence interval

Binomialverteilung

Vergleich Binomial- & Normalverteilung

0% 0,5% 1% 1,5% 2%

Ausgewiesene Signifikanz: 96%Wahrer Wert: 77%

Problem

Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung

insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau

wieder

(Die Student t-Verteilung macht es auch nicht besser)

Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

Lösung

Mindestens 500 Besucher pro Variante

Konversionsrate < 2,0%:Mindestens 2000 Besucher pro Variante,

besser noch höher

Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante

Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.

3. Fehler

Multivariate Tests

Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt-

Fehlerwahrscheinlichkeit ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich

Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121

Problem

Test mit 1 Variante

Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:

Problem

Test mit 2 Varianten

Problem

18,55%

Test mit 4 Varianten

Problem

56%Test mit 16 Varianten

Lösung

Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten

Kombinationen nur mit Sinn und Verstand testen.Nicht alles, was geht.

Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von

5% / 4 = 1,25%(entspricht Signifikanzniveau 98,75%)

Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.

Erst multivariaten Test wie gewohnt durchführen

Besten „Kandidaten“ im A/B Test nochmal überprüfen

Machen Sie das auch?

Wochentag Up-/Downlift Signifikant?Montag +100% Nein

Dienstag -5% Nein

Mittwoch -15% Ja

Andreas Korsus

Das wird bestimmt noch positiv!

10.04.2023 25

Dienstag -5% Nein

Mittwoch -15% Ja

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Dienstag -5% Nein

Mittwoch -15% Ja

Donnerstag -3% Nein

Freitag +6% Nein

Samstag +15% Ja

Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)

4. Fehler

Wiederholtes Testen

Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung

zu fällen, jedes Mal ansteigen

Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt

Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787

Problem

Test mit 1 Mal „nachgucken“

Problem

Test mit 2 Mal nachgucken*

* Gleicher Zeitabstand zwischen den Auswertungen

Problem

Test mit 5 Mal nachgucken

Problem

Andreas Korsus

10.04.2023 33

Problem

Andreas Korsus

Diese Funktionen schauen nach jedem Besucher nach!

10.04.2023 34

Problem

Lösung

Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch*

Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie

sich an die Werte!

* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php

Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden.

Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt

Zu niedrig geschätzt: Der Test braucht ewig

Lösung

Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede

zuverlässig sehr früh und kleinere Unterschiede durch eine längere

Testdauer zu erkennen

Allerdings gibt es (noch) keine einfache Anwendung für die CRO

Pläne nach Pocock, O‘Brien Fleming, Alpha-Spending Funktionen, SPRT, Dreieckspläne

Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).

Lösung

Beispielplan nach O‘Brien Fleming

Führe eine Testdaueranalyse durch und schätze den Uplift konservativ

Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch:

1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%

Alles in allem

Mach keine A/B Split URL Tests in JavaScript-Tools – Starte mit A‘/B Tests!

Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus!

Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten!

Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden.

Arbeite methodisch sauber

Vielen Dank

http://xing.to/korsus

http://de.linkedin.com/in/korsus

Jeffrey’s Equal-Tailed Intervall

R:L <- qbeta( alpha/2, k+1/2, n-k+1/2)U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)

Excel:=BETA.INV(alpha/2;k+1/2;n-k+1/2)=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)

k=Anzahl der Conversions, n=Anzahl der Besucher

Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

cc13 korsus

Documents

zenghai li slac national accelerator laboratory lhc-cc13...

2017 fall unh career & internship fair · pdf filecc03...

roskin cc13 ch12 lecture

botany semester-vi cc13 dse3 dse4...synthesis of sucrose...

insidechemistry.nus.sg/_file/newsletter/cc13.pdf · 2...

nexco · 2019-06-20 · makþ/ax ï980-0022 2-11-1...

gagan akanksha brochure takeaway vishal cc13€¦ · title:...

report of cc13 · 2018-11-29 · adoption of agenda . 4....

cbcs.skbuonline.in · web viewcc10 – ring theory and...

productivity and resilience in eurasia oecd eurasia … ·...

voice lists & midi data - yamaha corporation · g08 (104)...

roskin cc13 ch.12

pdfc-cc13-2def - apc spc · title: pdfc-cc13-2def.pdf...

big data meets social analytics - ibm connect 2012 (cn-cc13)

measurement and analysis of pdds profile and output ... ·...

ycc01-usbm2, yco12 (usb-sbi), yco13 (usb … ycc01-usbm2,...

tracking items in the library of the st. catherine...i i...

the university of burdwan burdwan-713104, … british...

north carolina community college system dr. r. scott …...

reference code: 755935db-cc13-4cb2-bd6d · pdf filelenovo...