← Zpět na projekty

ProductMatch

AI nástroj pro inteligentní párování produktů z různých zdrojů proti master databázi. Kombinace vektorizace, kosinové podobnosti a fuzzy matchingu řeší problém, který ručně zabíral celé dny. Vznikl jako součást spolupráce s Ipsos.

Výzva

Firmy pracují s katalogy od různých dodavatelů, kde stejný produkt má různé názvy, formáty a popisy. Jeden dodavatel napíše „Rexona Men 150ml“, jiný „REXONA pánská 150 ml spray“ — a člověk v Excelu musí ručně rozhodnout, jestli jde o stejný produkt. Při tisících položek denně je to neúnosné.

K tomu se přidávají odlišnosti v diakritice, zkratkách a jednotkách hmotnosti. Ruční párování je pomalé, náchylné k chybám a neškáluje se — přitom master databáze obsahuje přes 150 000 položek, které je potřeba prohledat pro každý nový produkt.

150 000+ produktů v master DB
>95 % přesnost párování
Ipsos klient

Jak to funguje

ProductMatch přijme seznam produktů ke spárování a porovná je proti celé master databázi. Nejprve převede názvy na numerické vektory pomocí TF-IDF, pak vybere nejbližší kandidáty kosinovou podobností. Výsledky zpřesní fuzzy matching s normalizací diakritiky a jednotek. Každý produkt dostane nejlepší shodu plus pět alternativ k ruční kontrole.

TF-IDF vektorizace

Názvy produktů se převedou na numerické vektory, které zachycují důležitost jednotlivých slov. Běžná slova jako „produkt“ mají nízkou váhu, specifické názvy vysokou.

Kosinová podobnost

Systém porovná vektory vstupního produktu se všemi položkami v master databázi a vybere nejbližší kandidáty. Výpočet proběhne i nad 150 000 položkami během sekund.

Fuzzy matching s normalizací

Jemné doladění výsledků pomocí rapidfuzz, které zachytí shody i přes překlepy, chybějící diakritiku nebo odlišné formáty hmotností a jednotek.

Revizní rozhraní

Sporné případy se zobrazí v přehledném rozhraní s top 5 alternativami. Analytik jedním klikem potvrdí nebo opraví shodu — systém se z těchto rozhodnutí učí.

Technologie a přístup

Backend postavený na Django zpracovává vstupní data a orchestruje celý pipeline — od předzpracování názvů přes vektorizaci až po finální skórování. Scikit-learn zajišťuje TF-IDF a kosinovou podobnost, rapidfuzz doplňuje fuzzy vrstvu.

Celý systém je navržený tak, aby zvládl dávkové zpracování tisíců produktů najednou. Výsledky se ukládají do PostgreSQL s plnou historií párování pro pozdější audit a zlepšování modelu.

Django backend framework
scikit-learn vektorizace & podobnost
rapidfuzz fuzzy matching
PostgreSQL databáze

Dopad

ProductMatch proměnil proces párování z celodenní manuální práce na automatizovaný pipeline s lidskou kontrolou jen tam, kde je potřeba.

Rychlost

Tisíce položek zpracovaných za minuty místo hodin ručního porovnávání. Analytici se soustředí na revizi sporných případů, ne na hledání shod v tabulkách.

Přesnost

Automatické párování s přesností přes 95 %. Normalizace diakritiky a jednotek zachytí shody, které by člověk snadno přehlédl při ručním procházení.

Škála

Systém zvládá prohledat přes 150 000 produktů v master databázi pro každou novou položku. Objem dat roste, ale čas zpracování zůstává prakticky stejný.

Shrnutí

Před Po
Párování Ruční v Excelu AI s >95 % přesností
Rychlost Hodiny práce Minuty
Diakritika Přehlédnuté shody Automatická normalizace
Kontrola Bez ověření Revizní rozhraní s top 5 alternativami
Škála Desítky položek denně 150 000+ v master DB

Řešíte podobnou výzvu?

Pojďme si o tom promluvit — první konzultace je zdarma.

Domluvit schůzku