Typische Fehler bei A/B-Tests

A/B-Tests, auch Splittests genannt, sind eine der wichtigsten Methoden der Marketing-Optimierung heute. Die Technik ist mittlerweile leicht beherrschbar und gerade deshalb gibt es aber einige Fehler, die viele machen – selbst wenn sie schon länger mit dieser Methode arbeiten.

Die Erfindung der A/B-Tests

Die Erfolgsgeschichte der A/B-Split-Tests beginnt mit Ungehorsam. Der Amazon-Programmierer Greg Linden hatte Ende der 90er Jahre eine neue Empfehlungsfunktion entwickelt. Anhand der Produkte, die ein Kunde gerade in seinen virtuellen Einkaufswagen gelegt hat, wurden dazu passende andere Dinge empfohlen. Lindens Chef meinte: Das lenkt die Käufer ab.

Linden setzte hinter dem Rücken seines Chefs einen Versuch auf: Einige Tage lang wurde ein Teil der Besucher von amazon.com für seinen automatischen Test ausgewählt. Die erste Hälfte der Teilnehmer sah den Standard-Einkaufwagen, die zweite Hälfte den Einkaufswagen zusammen mit den neuen Empfehlungen.

Der Versuch belegte deutlich: Die Empfehlungen verbesserten den Umsatz so enorm, dass Lindens Chef die neue Funktion sofort umsetzen wollte.

A/B-Test für eMails

Seitdem ist A/B-Testing ein Werkzeug geworden, auf das kaum ein Marketer verzichten mag. Und auch für eMails lässt es sich sehr gut nutzen.

Moderne Newslettertools bieten das automatische Verschicken einer kleineren Menge von Testmails an. Ein Teil der Empfänger bekommt dann also eine von zwei verschiedenen Varianten einer Mail. Und dann wird gemessen, bei welcher Variante die Öffnungsrate oder die Klickrate höher sind – diese Variante wird dann automatisch an den Rest der Empfängerliste verschickt.

Vom Prinzip her sehr einfach und auch in der Praxis sehr erfolgreich. Und trotzdem müssen Sie ein paar Dinge beachten, damit Sie auch tatsächlich richtig damit arbeiten.

Knackpunkt Signifikanz

Um ein bisschen statistisches Grundwissen kommen Sie nicht herum, wenn Sie A/B-Tests machen. Denn die Statistik sagt Ihnen, ob der Unterschied, den Sie bei den beiden Varianten feststellen nur auf Zufall beruht oder nicht.

Unzuverlässiges Bauchgefühl

Ist das Ergebnis signifikant, ist es nicht nur Zufall. Um das herauszufinden, brauchen Sie aber immer eine Formel. Denn unser Bauchgefühl lässt uns bei Statistik generell im Stich. Untersuchungen haben gezeigt, dass auch studierte Statistiker oft falsch liegen, wenn sie statistische Zusammenhänge nach Gefühl beurteilen sollen.

Ein Beispiel: Sie legen zwölf Testpersonen ein neues Produkt in zwei verschiedenen Verpackungen vor und sagen ihnen, dass sie das Produkt behalten dürfen, was ihnen besser gefällt. Acht Personen wählen Verpackung A, vier wählen Verpackung B.

Und, welche Verpackung ist besser? Unser Bauchgefühl sagt: “Klar, Verpackung A.”
Aber es liegt falsch. Auch die um das Doppelte höhere “Zugriffsrate” sagt nichts. Ein statistischer Test (der Chi-Quadrat-Test) zeigt, dass das Ergebnis nicht signifikant ist, sondern Zufall.

Um herauszufinden, welche Verpackung besser ist, müssen Sie noch mehr Testpersonen einladen.

Je größer die Unterschiede zwischen den beiden Varianten, desto weniger Testpersonen reichen aus, um ein signifikantes Ergebnis zu bekommen. Leider wissen Sie aber vorher noch nicht, wie groß die Unterschiede sein werden, daher können Sie auch vorher nicht wissen, wie viele Testpersonen Sie brauchen.

Automatisierte Tools übernehmen daher die statistische Auswertung im laufenden Betrieb und beenden den Versuch, sobald das Ergebnis eine festgelegte Signifikanz erreicht hat.

Welche Ergebnisse sagen was?

Haben Sie ein statistisch signifikantes Ergebnis, wissen Sie zunächst nur, dass es nicht zufällig so ist. Aber woran es liegt, dass eine Mail häufiger geöffnet wurde als die andere, das wissen Sie noch lange nicht.

Werden die Teilnehmer Ihres Versuchs tatsächlich zufällig ausgewählt, dann können Sie davon ausgehen, dass die Unterschiede tatsächlich an den Unterschieden der beiden Mails liegen – also etwa an der Betreffzeile, die anders formuliert ist.

Wenn Sie einige Tests gemacht haben, dann werden Sie mit der Zeit erfahren, woran es tatsächlich liegt. Denn die Ergebnisse der Tests fließen idealerweise in die Erstellung der zukünftigen Inhalte mit ein. Nur so nutzen Sie A/B-Split-Tests, um die Qualität Ihrer Aussendungen weiter zu verbessern.

Was kann man überhaupt Testen?

Generell kann man natürlich alles testen – aber sinnvoll sind nur Varianten, die sich nur in einem oder zumindest nur wenigen Merkmalen unterscheiden. Je weniger Testteilnehmer Sie haben, desto weniger Varianten können Sie testen (weil die Ergebnisse sonst die Signifikanzschwelle nicht erreichen).

Beschränken Sie sich also z.B. auf eine Änderung in der Betreffzeile, eine andere Farbe für die Call-to-action-Buttons oder ein anderes Inhaltselement/ein anderes Thema.
Ein komplettes Redesign gegen die alte Variante Ihres Newsletters zu testen ist zwar möglich, aber eigentlich nicht der richtige Einsatzzweck von A/B-Testing. Denn am Ende haben Sie keine Ahnung, warum das neue Design besser ist als das alte.

Generell gilt also: Testen Sie in kleinen Schritten, achten Sie auf die Signifikanz, ziehen Sie vorsichtig Schlüsse aus den Ergebnissen und optimieren Sie davon ausgehend weiter.

Aber am allerwichtigsten: Fangen Sie so baldmöglichst mit A/B-Testing an, wenn Sie es noch nicht tun sollten.




Keine Kommentare möglich.