Testați și rulați: de ce testele A/B mai mici pot face mai mulți bani

(Acest articol a fost publicat pentru prima dată pe Florian Teschnerși cu amabilitate a contribuit la R-bloggeri). (Puteți raporta problema legată de conținutul acestei pagini aici)

Doriți să vă distribuiți conținutul pe R-bloggeri? dați clic aici dacă aveți un blog, sau aici dacă nu aveți.

Scurte sfaturi practice despre testarea A/B:

Opriți testele de dimensionare numai pentru semnificația statistică – În campaniile finite, scopul tău este profitul, nu inferența perfectă.
Tratați testarea ca pe un compromis – Fiecare expunere suplimentară la test cumpără învățare, dar arde și venituri dacă acea expunere primește un tratament mai slab.
Utilizați teste mai mici atunci când rezultatele sunt zgomotoase – Această lucrare arată că dimensiunile testelor de maximizare a profitului cresc mult mai lent decât dimensiunile clasice bazate pe putere.
Scalați dimensiunea testului cu un public accesibil – Dacă populația dvs. este limitată, dimensiunea testului ar trebui să reflecte direct această constrângere.
Permiteți împărțiri inegale atunci când anterioarele diferă – Dacă un tratament este probabil mai bun a priori (de exemplu, tratament vs reținere), celulele de testare asimetrice pot fi optime.

Aplicația strălucitoare pentru a testa implicațiile:

Testați și rulați aplicația Shiny

Versiune lungă

Tocmai am citit Test & Roll: Teste A/B pentru maximizarea profitului de Elea McDonnell Feit și Ron Berman (2019) și provoacă unul dintre obiceiurile implicite în experimentarea de marketing: planificarea testelor ca și cum obiectivul principal ar fi semnificația statistică.

Ideea lor este simplă: în majoritatea experimentelor de marketing reale, aveți o populație limitată (listă de e-mail, buget de campanie, fereastră de trafic limitată). În acest context, obiectivul potrivit este profitul total așteptat pe parcursul testului + lansăriinu valorile p.

Ideea de bază

O configurație A/B clasică are două etape:

Etapa de testare: expune n1 utilizatorii la tratamentul A și n2 utilizatorii la tratamentul B.
Etapa de rulare: distribuie câștigătorul celor rămași N - n1 - n2 utilizatorii.

Testele mai mari îmbunătățesc certitudinea, dar creează și costuri de oportunitate: mai mulți utilizatori în test înseamnă că mai mulți utilizatori pot vedea tratamentul mai slab înainte de lansare.

Lucrarea formalizează aceasta ca o problemă de decizie și derivă dimensiunile eșantionului care maximizează profitul. Sub priorități normale și rezultate normale, ei obțin soluții în formă închisă.

De ce contează acest lucru în practică

Dacă utilizați ipoteza-test clasic de dimensionare, recomandat n poate fi uriașă, mai ales când dimensiunile efectului sunt mici și răspunsul este zgomotos (care este exact ceea ce vedem în reclamă).

Cadrul lor produce teste de dimensiuni mult mai mici, deoarece optimizează rezultatele afacerii, nu controlul erorilor de tip I/II.

Două concluzii importante:

Dimensiunile optime ale testului cresc subliniar cu zgomotul de răspunsîn timp ce regulile clasice privind dimensiunea eșantionului cresc mult mai repede.
Dimensiunile optime ale testului sunt scalate cu rădăcina pătrată a mărimii populației Nceea ce le face funcționale pentru piețe mai mici și campanii limitate.

Comparație cu bandiții

Autorii evaluează eșantionarea Thompson (bandit cu mai multe arme). Bandiții câștigă de obicei prin optimizare pură, dar decalajul este adesea modest în exemplele lor.

Acest lucru este util din punct de vedere operațional: un proces de „testare, apoi rulare” în două etape este mult mai ușor de implementat, explicat și guvernat decât un bandit care se adaptează continuu, în special în organizațiile cu constrângeri de aprobare și raportare.

Aplicațiile sunt cea mai bună parte

Ei testează abordarea în trei contexte:

Experimente de design de site-uri web
Afișați decizii de publicitate
Teste de rezistență la catalog

În toate cazurile, se folosesc modele de maximizare a profitului celule de testare substanțial mai mici decât calculele clasice de putere și produc profit așteptat mai mare.

Un rezultat deosebit de practic: grupurile mici de holdout (obișnuite în catalog și practica CRM) pot fi pe deplin raționale atunci când prioritățile sunt asimetrice. Cu alte cuvinte, „diviziunile inegale” nu sunt întotdeauna un design prost; pot fi designul optim.

Ce am schimbat în propria mea gândire

Înainte de aceasta, am tratat „subputernicii” mai ales ca pe un steag roșu. După această lucrare, cred că o întrebare mai bună este:

Subputernicit pentru ce obiectiv?

Dacă obiectivul este inferența de tip publicație, logica clasică a puterii este corectă. Dacă obiectivul este profitul campaniei într-un orizont finit, un test mai mic poate fi cea mai bună decizie de afaceri.

Lista de verificare practică a implementării

Dacă executați teste tactice (e-mail, media plătită, pagini de destinație), această lucrare sugerează un flux de lucru mai bun:

Definiți populația totală accesibilă N pentru orizontul de decizie.
Stabiliți priorități pentru mijloacele de tratament din experimente similare anterioare.
Estimați variația răspunsului din datele istorice.
Calculați maximizarea profitului n1, n2.
Preangajați regula deciziei de lansare (câștigătorul profitului așteptat posterior).
Raportați regretul așteptat alături de avantajul așteptat.

Ultimul punct este subestimat: factorii de decizie înțeleg de obicei „dolarii așteptați expuși riscului” mai bine decât valorile p.

Concluzie

Pentru multe teste de marketing reale, „mai mic decât manualul” nu este o știință proastă. Este un design mai bun pentru decizii.

Dacă experimentul dvs. există pentru a conduce o acțiune comercială către un public limitat, Testați și rulați oferă o modalitate riguroasă de a alege dimensiunile eșantioanelor care maximizează profitul în loc de puritatea statistică.

Lucrare: Feit, EM și Berman, R. (2019). Test & Roll: Teste A/B pentru maximizarea profitului. SSRN: https://ssrn.com/abstract=3274875