Objektu noteikšana kā viena no galvenajām datorredzes lietojumprogrammām kļūst arvien nozīmīgāka scenārijos, kuriem nepieciešama augsta precizitāte, bet kuriem ir ierobežoti skaitļošanas resursi, piemēram, robotika un automašīnas bez vadītāja. Diemžēl daudzi mūsdienu augstas precizitātes detektori neatbilst šiem ierobežojumiem. Vēl svarīgāk ir tas, ka reālās pasaules objektu noteikšanas lietojumprogrammas darbojas dažādās platformās, kurām bieži nepieciešami dažādi resursi.
Tātad dabisks jautājums ir, kā izstrādāt precīzus un efektīvus objektu detektorus, kas var pielāgoties arī visdažādākajiem resursu ierobežojumiem?
EfficientDet: mērogojama un efektīva objektu noteikšana, kas pieņemta CVPR 2020, iepazīstina ar jaunu mērogojamu un efektīvu objektu detektoru saimi. Balstoties uz iepriekšējiem neironu tīklu mērogošanas darbiem (EfficientNet) un iekļaujot jaunu divvirzienu funkcionālo tīklu (BiFPN) un jaunus mērogošanas noteikumus, EfficientDet sasniedz mūsdienīgu precizitāti, kamēr 9 reizes mazāks un izmanto ievērojami mazāk aprēķinu nekā zināmie mūsdienu detektori. Šajā attēlā parādīta modeļu vispārējā tīkla arhitektūra.
Modeļa arhitektūras optimizēšana
EfficientDet ideja rodas no centieniem rast risinājumus skaitļošanas efektivitātes uzlabošanai, sistemātiski pārbaudot iepriekšējos modernākos noteikšanas modeļus. Parasti objektu detektoriem ir trīs galvenie komponenti: mugurkauls, kas no noteiktā attēla iegūst iezīmes; objektu tīkls, kas no mugurkaula kā ievades veic vairāku līmeņu funkcijas un izvada kombinēto funkciju sarakstu, kas attēla raksturīgajām īpašībām; un galīgais klases / kastes tīkls, kas izmanto kombinētās funkcijas, lai prognozētu katra objekta klasi un atrašanās vietu.
Pārskatot šo komponentu dizaina iespējas, mēs identificējām vairākas galvenās optimizācijas, lai uzlabotu veiktspēju un efektivitāti. Iepriekšējie detektori kā pamatus galvenokārt izmanto ResNets, ResNeXt vai AmoebaNet, kas ir vai nu mazāk jaudīgi, vai ar zemāku efektivitāti nekā EfficientNets. Sākotnēji ieviešot EfficientNet mugurkaulu, var sasniegt daudz lielāku efektivitāti. Piemēram, sākot ar RetinaNet bāzes līniju, kurā izmantots ResNet-50 mugurkauls, mūsu ablācijas pētījums parāda, ka, vienkārši aizstājot ResNet-50 ar EfficientNet-B3, precizitāte var uzlaboties par 3%, vienlaikus samazinot aprēķinu par 20%. Vēl viena optimizācija ir uzlabot funkcionālo tīklu efektivitāti. Lai gan lielākā daļa iepriekšējo detektoru vienkārši izmanto Downlink Pyramid Network (FPN), mēs konstatējam, ka pakārtotais FPN pēc savas būtības ir ierobežots ar vienvirziena informācijas plūsmu. Alternatīvie FPN, piemēram, PANet, pievieno papildu plūsmu par papildu aprēķina izmaksām.
Nesenie mēģinājumi izmantot neironu arhitektūras meklēšanu (NAS) ir atklājuši sarežģītāku NAS-FPN arhitektūru. Lai gan šī tīkla struktūra ir efektīva, tā ir arī neregulāra un ļoti optimizēta konkrētam uzdevumam, apgrūtinot pielāgošanos citiem uzdevumiem. Lai atrisinātu šīs problēmas, mēs piedāvājam jaunu divvirzienu funkciju tīklu BiFPN, kas īsteno ideju apvienot daudzslāņu funkcijas no FPN / PANet / NAS-FPN, kas ļauj informāciju pārraidīt gan no augšas uz leju, gan no vienas puses. no apakšas uz augšu. izmantojot regulārus un efektīvus savienojumus.
Lai vēl vairāk uzlabotu efektivitāti, mēs ierosinām jaunu ātri normalizētu sintēzes tehniku. Tradicionālās pieejas parasti izturas pret visiem FPN ievadiem vienādi, pat ar atšķirīgu izšķirtspēju. Tomēr mēs novērojam, ka ievades funkcijas ar dažādu izšķirtspēju bieži vien nevienlīdzīgi veicina izejas funkcijas. Tādējādi katrai ievades funkcijai mēs pievienojam papildu svaru un ļaujam tīklam uzzināt katras funkcijas nozīmi. Mēs arī aizstāsim visas parastās konvulcijas ar lētākām, dziļi atdalāmām konvekcijām. Izmantojot šo optimizāciju, mūsu BiFPN vēl vairāk uzlabo precizitāti par 4%, vienlaikus samazinot skaitļošanas izmaksas par 50%.
Trešā optimizācija ietver vislabākā kompromisa sasniegšanu starp precizitāti un efektivitāti dažādos resursu ierobežojumos. Mūsu iepriekšējais darbs ir parādījis, ka tīkla dziļuma, platuma un izšķirtspējas mērogošana var ievērojami uzlabot attēla atpazīšanas veiktspēju. Šīs idejas iedvesmoti, mēs ierosinām jaunu saliktu mērogošanas metodi objektu detektoriem, kas kopīgi palielina izšķirtspēju / dziļumu / platumu. Katram tīkla komponentam, ti, mugurkaulam, objektam un bloku / klases paredzamajam tīklam, būs viens sarežģīts mērogošanas faktors, kas kontrolē visas mērogošanas dimensijas, izmantojot heiristikas likumus. Šī pieeja ļauj viegli noteikt modeļa mērogošanu, aprēķinot mēroga koeficientu noteiktam mērķa resursu ierobežojumam.
Apvienojot jauno mugurkaulu un BiFPN, mēs vispirms izveidojam nelielu EfficientDet-D0 bāzes līniju un pēc tam pielietojam savienojuma mērogošanu, lai iegūtu EfficientDet-D1 līdz D7. Katram sērijveida modelim ir augstākas skaitļošanas izmaksas, kas aptver plašu resursu ierobežojumu diapazonu no 3 miljardiem FLOP līdz 300 miljardiem FLOPS, un nodrošina lielāku precizitāti.
Veiktspējas modelis
Novērtējot EfficientDet uz COCO datu kopas, objektu noteikšanai plaši izmantotas atsauces datu kopas. EfficientDet-D7 sasniedz vidējo vidējo precizitāti (mAP) 52,2, kas ir par 1,5 punktiem augstāk nekā iepriekšējais modernais modelis, izmantojot 4 reizes mazāk parametru un 9,4 reizes mazāk aprēķinu
Mēs arī salīdzinājām parametru lielumu un CPU / GPU latentumu starp EfficientDet un iepriekšējiem modeļiem. Ar līdzīgiem precizitātes ierobežojumiem EfficientDet modeļi GPU darbojas 2–4 reizes ātrāk un procesorā 5–11 reizes ātrāk nekā citi detektori. Kaut arī EfficientDet modeļi galvenokārt ir paredzēti objektu noteikšanai, mēs pārbaudām to efektivitāti arī citos uzdevumos, piemēram, semantiskajā segmentācijā. Lai veiktu segmentēšanas uzdevumus, mēs nedaudz modificējam EfficientDet-D4, aizstājot noteikšanas galvas un galvas zaudējumus un zaudējumus, vienlaikus saglabājot to pašu mērogoto mugurkaulu un BiFPN. Mēs salīdzinām šo modeli ar iepriekšējiem modernajiem segmentācijas modeļiem Pascal VOC 2012, plaši izmantotai segmentācijas testēšanas datu kopai.
Ņemot vērā to izcilo veiktspēju, ir sagaidāms, ka EfficientDet kalpos kā jauns pamats objektu noteikšanas nākotnes izpētei un potenciāli padarīs ļoti precīzus objektu noteikšanas modeļus noderīgus daudzās reālās pasaules lietojumprogrammās. Tādējādi vietnē Github.com tika atvērti visi koda un iepriekš sagatavotā modeļa pārtraukuma punkti.