Projekt
AI nástroj pro inteligentní párování produktů z různých zdrojů proti master databázi. Kombinace vektorizace, kosinové podobnosti a fuzzy matchingu řeší problém, který ručně zabíral celé dny. Vznikl jako součást spolupráce s Ipsos.
Firmy pracují s katalogy od různých dodavatelů, kde stejný produkt má různé názvy, formáty a popisy. Jeden dodavatel napíše „Rexona Men 150ml“, jiný „REXONA pánská 150 ml spray“ — a člověk v Excelu musí ručně rozhodnout, jestli jde o stejný produkt. Při tisících položek denně je to neúnosné.
K tomu se přidávají odlišnosti v diakritice, zkratkách a jednotkách hmotnosti. Ruční párování je pomalé, náchylné k chybám a neškáluje se — přitom master databáze obsahuje přes 150 000 položek, které je potřeba prohledat pro každý nový produkt.
ProductMatch přijme seznam produktů ke spárování a porovná je proti celé master databázi. Nejprve převede názvy na numerické vektory pomocí TF-IDF, pak vybere nejbližší kandidáty kosinovou podobností. Výsledky zpřesní fuzzy matching s normalizací diakritiky a jednotek. Každý produkt dostane nejlepší shodu plus pět alternativ k ruční kontrole.
Názvy produktů se převedou na numerické vektory, které zachycují důležitost jednotlivých slov. Běžná slova jako „produkt“ mají nízkou váhu, specifické názvy vysokou.
Systém porovná vektory vstupního produktu se všemi položkami v master databázi a vybere nejbližší kandidáty. Výpočet proběhne i nad 150 000 položkami během sekund.
Jemné doladění výsledků pomocí rapidfuzz, které zachytí shody i přes překlepy, chybějící diakritiku nebo odlišné formáty hmotností a jednotek.
Sporné případy se zobrazí v přehledném rozhraní s top 5 alternativami. Analytik jedním klikem potvrdí nebo opraví shodu — systém se z těchto rozhodnutí učí.
Backend postavený na Django zpracovává vstupní data a orchestruje celý pipeline — od předzpracování názvů přes vektorizaci až po finální skórování. Scikit-learn zajišťuje TF-IDF a kosinovou podobnost, rapidfuzz doplňuje fuzzy vrstvu.
Celý systém je navržený tak, aby zvládl dávkové zpracování tisíců produktů najednou. Výsledky se ukládají do PostgreSQL s plnou historií párování pro pozdější audit a zlepšování modelu.
ProductMatch proměnil proces párování z celodenní manuální práce na automatizovaný pipeline s lidskou kontrolou jen tam, kde je potřeba.
Tisíce položek zpracovaných za minuty místo hodin ručního porovnávání. Analytici se soustředí na revizi sporných případů, ne na hledání shod v tabulkách.
Automatické párování s přesností přes 95 %. Normalizace diakritiky a jednotek zachytí shody, které by člověk snadno přehlédl při ručním procházení.
Systém zvládá prohledat přes 150 000 produktů v master databázi pro každou novou položku. Objem dat roste, ale čas zpracování zůstává prakticky stejný.
| Před | Po | |
|---|---|---|
| Párování | Ruční v Excelu | AI s >95 % přesností |
| Rychlost | Hodiny práce | Minuty |
| Diakritika | Přehlédnuté shody | Automatická normalizace |
| Kontrola | Bez ověření | Revizní rozhraní s top 5 alternativami |
| Škála | Desítky položek denně | 150 000+ v master DB |