Z letní stáže až na světovou konferenci: Student 1. ročníku FEL ČVUT upozornil na nedostatky v databázi ImageNet

Illia Volkov, student 1. ročníku bakalářského programu Otevřená informatika (OI), se na konci dubna 2025 zúčastnil prestižní konference International Conference on Learning Representations v Singapuru, která v oblasti umělé inteligence patří mezi světovou špičku. Illia Volkov zde prezentoval svůj příspěvek, který se věnoval nedostatkům databáze ImageNet a na kterém pracoval společně se studentem magisterského programu Otevřená informatika, Nikitou Kiselem.

Databáze ImageNet obsahuje přes 14 milionů obrázků a používá se pro trénování algoritmů strojového učení v oblasti počítačového vidění. Pro tento účel mají jednotlivé obrázky v databázi také přiřazeny štítky s danou kategorií, které algoritmu sdělují, co na obrázku je. Tímto způsobem se algoritmus učí obrázky rozpoznávat a měl by pak s určitou mírou spolehlivosti být schopen stanovit, co se nachází na obrázku, který ještě nikdy předtím “neviděl”. Je proto velmi důležité, aby obrázky v databázi měly přiřazeny správné štítky, jinak by hrozilo, že bude algoritmus naučený špatně.

Illia s Nikitou se zabývali nedostatky databáze ImageNet-1k, která je zmenšenou verzí výše zmiňované databáze – obsahuje “pouze” zhruba milion a půl obrázků a právě jeden tisíc kategorií. Ve svém příspěvku odhalili, že databáze obsahuje obrázky se špatně přiřazenými kategoriemi, duplikáty obrázků a také redundantní kategorie. Tyto nedostatky jsou však poměrně snadno vyřešitelné, ačkoliv to může být zdlouhavý proces. “Před cestou na konferenci jsme dlouho pracovali na aplikaci pro anotátory, kteří budou datovou sadu opravovat,” říká Illia Volkov. Anotátory je ale ještě potřeba vyškolit a vhodně pro ně nastavit instrukce. Studenti OI však objevili i problémy, které přímočaré řešení nemají.

Celá databáze, na které se daný algoritmus učí, je zpravidla rozdělena do tří datových sad – trénovací, validační a testovací. Na trénovací datové sadě se algoritmus učí od nuly, na validační datové sadě se pak nezávisle vyzkouší jeho účinnost, přičemž algoritmus je stále v procesu ladění parametrů. Na testovací datové sadě se poté hodnotí algoritmus ve své finální podobě. Všechny tři datové sady musí obsahovat jiné obrázky, což s sebou přináší jak výhody, tak i nevýhody.

Jedna z nevýhod, kterou Illia a Nikita objevili i u databáze ImageNet-1k, je takzvaný distribuční posun. Obecně se jedná o stav, kdy je v trénovací, validační a testovací datové sadě jiná distribuce různých typů obrázků. Například (nikoliv konkrétně v databázi ImageNet-1k) v trénovací datové sadě je v kategorii kočka 90 % obrázků zrzavých koček, zatímco ve validačních a testovacích datových sadách je procento zrzavých koček v kategorii kočka o dost nižší. Tento distribuční posun pak může způsobovat problémy, kdy si například algoritmus během trénování spojí kategorii kočka výhradně se zrzavou srstí a při validaci kočky jiné barvy označí třeba za psa či králíka. 

Distribuční posun však nutně nemusí být jen špatný; v reálném světě totiž data nejsou vždy nezávislá a nemají stejnou distribuci. Pokud se budeme držet příkladů týkajících se zbarvení zvířat, data z arktických oblastí budou přirozeně obsahovat vyšší koncentraci ledních medvědů, kteří jsou bíle zbarveni, než data z jižněji položených oblastí, kde se budou vyskytovat spíše černí a hnědí medvědi. Je ale dobré mít trénovací datovou sadu vyváženější, aby se algoritmus těmto problémům vyhnul. Avšak to by v případě databáze ImageNet-1k vyžadovalo větší zásah, který by ji relativně změnil. To by mělo dopad na porovnávání úspěšnosti algoritmů, jelikož tato databáze je v oboru jedna z nejpoužívanějších a je považována za určité měřítko. Vyřešení tohoto problému tak bude komplikované.

Letní stáž ve Skupině vizuálního rozpoznávání

Celá práce vznikala pod vedením Ing. Kláry Janouškové a prof. Jiřího Matase ze Skupiny vizuálního rozpoznávání (VRG), která působí na katedře kybernetiky FEL ČVUT. Illia Volkov se do výzkumné skupiny dostal ještě před svým nástupem do 1. ročníku studia během letní stáže, které pro své budoucí studenty po zápisu do studia nabízí program Otevřená informatika. Na stáž se přihlásil, protože si chtěl vydělat peníze ve svém studijním oboru. “Byl jsem mile překvapen, když mi přišla pozvánka na dvoutýdenní stáž v laboratoři, která se zabývá něčím, co mě opravdu zajímá,” vzpomíná Illia Volkov. Po dvou týdnech ve skupině VRG Illiovi nabídli, aby zůstal a ve své práci pokračoval. Kromě možnosti pracovat flexibilně během semestru a zkouškového období a získávání nových znalostí si Illia chválí také přátelský kolektiv, který je vždy ochotný mu pomoci.

Na stáži ve Skupině vizuálního rozpoznávání v létě 2024 tak vznikly základy pro příspěvek, který poté Illia Volkov prezentoval na konferencii ICLR v Singapuru. Tam získal velmi pozitivní ohlasy i od naprostých špiček z oboru umělé inteligence. “Často od odborníků slyšíme, jak je to důležitý projekt a že netušili, jak rozsáhlé problémy databáze má. Ptají se také, kdy bude hotová oprava,” popisuje Ing. Janoušková. Celý tým v současnosti pracuje na kompletní opravě databáze, která je však značně komplikovaná, a tak bude ještě chvíli trvat.

Přijatý příspěvek je dostupný online na adrese https://iclr-blogposts.github.io/2025/blog/imagenet-flaws/.

Fotografie: Illia Volkov

 

Další aktuality