Hvordan undgår man fejl, når man beregner GMV på en international markedsplads?

Når man arbejder med en markedsplads, er man nødt til at beregne bruttomærkevolumen (GMV). Det ser ud til at være enkelt i starten: alt hvad du behøver er at samle priserne på alle aktive annoncer i en kolonne og klikke på SUMM. Men hvis din markedsplads opererer i forskellige lande, er ting muligvis ikke så let.

Hvorfor er det svært at beregne GMV?

Jeg arbejder på Lalafo - en AI-drevet peer-to-peer markedsplads. Platformen har 3 millioner aktive brugere fra 4 lande hver måned. I slutningen af ​​2016 havde vi brug for at beregne den samlede monetære værdi af alle annoncer placeret på Lalafo for det år.

For det første opsummerede vi alle de priser, som brugerne har foreslået, eksklusive alle ikke-placerede og blokerede annoncer. Dette resulterede i en GMV, der var større end BNP i et land, vi brugte til evalueringen!

Vi rensede dataene og konverterede valutaen i realtid. Dette gjorde det samlede antal mindre, men det var stadig urimeligt stort.

Den mest populære måde at udskære anomalier i et rodet datasæt er ved hjælp af et interkvartilt interval (dataområde mellem 25. og 75. percentil). Denne fremgangsmåde løste heller ikke problemet, da mængden af ​​brugerpriser blev meget lav, efter at interkvartil rækkevidde blev implementeret.

Vær opmærksom på percentiler

En hurtig brainstorming-session gav os en idé om, at problemet var i percentilværdier: forskellen mellem nul og den første var for dramatisk.

En percentil (eller en centil) er et mål, der bruges i statistikker, der angiver den værdi, under hvilken en given procentdel af observationer falder i en gruppe af observationer. For eksempel er det 20. percentil den værdi (eller score), under hvilken 20% af observationer kan findes. Procentdel kan fungere som lineære eller ikke-lineære, afhængigt af om der er nogen fejl i datasættet. (Wikipedia)

Vi besluttede at gennemgå, hvordan alle percentiler mellem 1 og 100 handlede. Vi fandt, at alle data mellem procent 1 og 99 var lineære, mens mellem 99 og 100 fandt vi en stor bølge, der indikerer, at fejlen opstår inden for dette afsnit. Vi fjernede alle data mellem 99. og 100. percentil, som løste problemet.

Produktkategoriens betydning

Lalafo markedsplads indeholder forskellige produktkategorier. De mest "dyre" kategorier er ejendom og køretøjer. For at få en mere præcis GMV besluttede vi at redegøre for produktkategorier, mens vi beregner percentiler. F.eks. Er køretøjer og fast ejendom-percentiler snesevis gange større end tøjgenstande.

Som et resultat heraf:
- bestemte procentvis værdi for hver kategori.
- brugte percentiler kun i tilfælde af ikke-lineær GMV.
Dette gav os en præcis GMV.

En anden vigtig ting - valuta

Brugere glemmer ofte at indstille valutaen, mens de placerer deres annoncer. Dette resulterer i, at iPhone 7S sælges for kun $ 20 eller ovne, der koster mere end hele BNP i Colombia!

For at justere valutaen og samtidig beholde resultaterne af redigering af datasættet for 99. percentilen besluttede vi at gøre følgende:

- indstil en fælles pris for hver kategori, der svarer til medianen (procent 50) i kategorien.
- kig gennem datasættet og juster valutaen, hvis værdien er for lav eller for høj.

Beregning af GMV. Generelt råd:

- almindelige metoder (median, interkvartil rækkevidde) fungerer kun under en lineær GMV. Hvis de ikke fungerer, skal du tjekke værdien for alle percentiler.

- beregne percentiler separat for hver kategori.

- filtrer dine data før beregning.

- Kontroller valutaværdierne.