EfficientDet: Ceļā Uz Mērogojamu Un Efektīvu Objektu Noteikšanu

2025 Autors: Ian Gardner | [email protected]. Pēdējoreiz modificēts: 2025-06-01 06:35

Objektu noteikšana kā viena no galvenajām datorredzes lietojumprogrammām kļūst arvien nozīmīgāka scenārijos, kuriem nepieciešama augsta precizitāte, bet kuriem ir ierobežoti skaitļošanas resursi, piemēram, robotika un automašīnas bez vadītāja. Diemžēl daudzi mūsdienu augstas precizitātes detektori neatbilst šiem ierobežojumiem. Vēl svarīgāk ir tas, ka reālās pasaules objektu noteikšanas lietojumprogrammas darbojas dažādās platformās, kurām bieži nepieciešami dažādi resursi.

Tātad dabisks jautājums ir, kā izstrādāt precīzus un efektīvus objektu detektorus, kas var pielāgoties arī visdažādākajiem resursu ierobežojumiem?

EfficientDet: mērogojama un efektīva objektu noteikšana, kas pieņemta CVPR 2020, iepazīstina ar jaunu mērogojamu un efektīvu objektu detektoru saimi. Balstoties uz iepriekšējiem neironu tīklu mērogošanas darbiem (EfficientNet) un iekļaujot jaunu divvirzienu funkcionālo tīklu (BiFPN) un jaunus mērogošanas noteikumus, EfficientDet sasniedz mūsdienīgu precizitāti, kamēr 9 reizes mazāks un izmanto ievērojami mazāk aprēķinu nekā zināmie mūsdienu detektori. Šajā attēlā parādīta modeļu vispārējā tīkla arhitektūra.

Modeļa arhitektūras optimizēšana

EfficientDet ideja rodas no centieniem rast risinājumus skaitļošanas efektivitātes uzlabošanai, sistemātiski pārbaudot iepriekšējos modernākos noteikšanas modeļus. Parasti objektu detektoriem ir trīs galvenie komponenti: mugurkauls, kas no noteiktā attēla iegūst iezīmes; objektu tīkls, kas no mugurkaula kā ievades veic vairāku līmeņu funkcijas un izvada kombinēto funkciju sarakstu, kas attēla raksturīgajām īpašībām; un galīgais klases / kastes tīkls, kas izmanto kombinētās funkcijas, lai prognozētu katra objekta klasi un atrašanās vietu.

Pārskatot šo komponentu dizaina iespējas, mēs identificējām vairākas galvenās optimizācijas, lai uzlabotu veiktspēju un efektivitāti. Iepriekšējie detektori kā pamatus galvenokārt izmanto ResNets, ResNeXt vai AmoebaNet, kas ir vai nu mazāk jaudīgi, vai ar zemāku efektivitāti nekā EfficientNets. Sākotnēji ieviešot EfficientNet mugurkaulu, var sasniegt daudz lielāku efektivitāti. Piemēram, sākot ar RetinaNet bāzes līniju, kurā izmantots ResNet-50 mugurkauls, mūsu ablācijas pētījums parāda, ka, vienkārši aizstājot ResNet-50 ar EfficientNet-B3, precizitāte var uzlaboties par 3%, vienlaikus samazinot aprēķinu par 20%. Vēl viena optimizācija ir uzlabot funkcionālo tīklu efektivitāti. Lai gan lielākā daļa iepriekšējo detektoru vienkārši izmanto Downlink Pyramid Network (FPN), mēs konstatējam, ka pakārtotais FPN pēc savas būtības ir ierobežots ar vienvirziena informācijas plūsmu. Alternatīvie FPN, piemēram, PANet, pievieno papildu plūsmu par papildu aprēķina izmaksām.

Nesenie mēģinājumi izmantot neironu arhitektūras meklēšanu (NAS) ir atklājuši sarežģītāku NAS-FPN arhitektūru. Lai gan šī tīkla struktūra ir efektīva, tā ir arī neregulāra un ļoti optimizēta konkrētam uzdevumam, apgrūtinot pielāgošanos citiem uzdevumiem. Lai atrisinātu šīs problēmas, mēs piedāvājam jaunu divvirzienu funkciju tīklu BiFPN, kas īsteno ideju apvienot daudzslāņu funkcijas no FPN / PANet / NAS-FPN, kas ļauj informāciju pārraidīt gan no augšas uz leju, gan no vienas puses. no apakšas uz augšu. izmantojot regulārus un efektīvus savienojumus.

Lai vēl vairāk uzlabotu efektivitāti, mēs ierosinām jaunu ātri normalizētu sintēzes tehniku. Tradicionālās pieejas parasti izturas pret visiem FPN ievadiem vienādi, pat ar atšķirīgu izšķirtspēju. Tomēr mēs novērojam, ka ievades funkcijas ar dažādu izšķirtspēju bieži vien nevienlīdzīgi veicina izejas funkcijas. Tādējādi katrai ievades funkcijai mēs pievienojam papildu svaru un ļaujam tīklam uzzināt katras funkcijas nozīmi. Mēs arī aizstāsim visas parastās konvulcijas ar lētākām, dziļi atdalāmām konvekcijām. Izmantojot šo optimizāciju, mūsu BiFPN vēl vairāk uzlabo precizitāti par 4%, vienlaikus samazinot skaitļošanas izmaksas par 50%.

Trešā optimizācija ietver vislabākā kompromisa sasniegšanu starp precizitāti un efektivitāti dažādos resursu ierobežojumos. Mūsu iepriekšējais darbs ir parādījis, ka tīkla dziļuma, platuma un izšķirtspējas mērogošana var ievērojami uzlabot attēla atpazīšanas veiktspēju. Šīs idejas iedvesmoti, mēs ierosinām jaunu saliktu mērogošanas metodi objektu detektoriem, kas kopīgi palielina izšķirtspēju / dziļumu / platumu. Katram tīkla komponentam, ti, mugurkaulam, objektam un bloku / klases paredzamajam tīklam, būs viens sarežģīts mērogošanas faktors, kas kontrolē visas mērogošanas dimensijas, izmantojot heiristikas likumus. Šī pieeja ļauj viegli noteikt modeļa mērogošanu, aprēķinot mēroga koeficientu noteiktam mērķa resursu ierobežojumam.

Apvienojot jauno mugurkaulu un BiFPN, mēs vispirms izveidojam nelielu EfficientDet-D0 bāzes līniju un pēc tam pielietojam savienojuma mērogošanu, lai iegūtu EfficientDet-D1 līdz D7. Katram sērijveida modelim ir augstākas skaitļošanas izmaksas, kas aptver plašu resursu ierobežojumu diapazonu no 3 miljardiem FLOP līdz 300 miljardiem FLOPS, un nodrošina lielāku precizitāti.

Veiktspējas modelis

Novērtējot EfficientDet uz COCO datu kopas, objektu noteikšanai plaši izmantotas atsauces datu kopas. EfficientDet-D7 sasniedz vidējo vidējo precizitāti (mAP) 52,2, kas ir par 1,5 punktiem augstāk nekā iepriekšējais modernais modelis, izmantojot 4 reizes mazāk parametru un 9,4 reizes mazāk aprēķinu

Mēs arī salīdzinājām parametru lielumu un CPU / GPU latentumu starp EfficientDet un iepriekšējiem modeļiem. Ar līdzīgiem precizitātes ierobežojumiem EfficientDet modeļi GPU darbojas 2-4 reizes ātrāk un procesorā 5-11 reizes ātrāk nekā citi detektori. Kaut arī EfficientDet modeļi galvenokārt ir paredzēti objektu noteikšanai, mēs pārbaudām to efektivitāti arī citos uzdevumos, piemēram, semantiskajā segmentācijā. Lai veiktu segmentēšanas uzdevumus, mēs nedaudz modificējam EfficientDet-D4, aizstājot noteikšanas galvas un galvas zaudējumus un zaudējumus, vienlaikus saglabājot to pašu mērogoto mugurkaulu un BiFPN. Mēs salīdzinām šo modeli ar iepriekšējiem modernajiem segmentācijas modeļiem Pascal VOC 2012, plaši izmantotai segmentācijas testēšanas datu kopai.

Ņemot vērā to izcilo veiktspēju, ir sagaidāms, ka EfficientDet kalpos kā jauns pamats objektu noteikšanas nākotnes izpētei un potenciāli padarīs ļoti precīzus objektu noteikšanas modeļus noderīgus daudzās reālās pasaules lietojumprogrammās. Tādējādi vietnē Github.com tika atvērti visi koda un iepriekš sagatavotā modeļa pārtraukuma punkti.

Ieteicams:

Kā Pagriezt Kameru Ap Objektu

Veidojot objektu 3D redaktoros, ir svarīgi ņemt vērā modeli no visām pusēm, lai noteiktu, kā tas izskatīsies no dažādiem leņķiem. Pagriežot kameru ap objektu, jūs varat savlaicīgi atrast trūkumus un tos novērst. Instrukcijas 1

Kā Izveidot Efektīvu Pārdošanas Reklāmu Vietnē Avito

Augstas konkurences apstākļos šajā interneta vietnē jums rūpīgi jāpārdomā katrs reklāmas elements. Kas jāņem vērā, lai jūsu reklāma tiktu pamanīta starp līdzīgām reklāmām? Pat ja jums ir unikāla un noderīga prece, to ir ļoti viegli nepārdot, ja izveidojat reklāmu, kas nepievērsīs pat ļoti ieinteresēta pircēja uzmanību

EfficientDet: Ceļā Uz Mērogojamu Un Efektīvu Objektu Noteikšanu

Satura rādītājs:

Modeļa arhitektūras optimizēšana

Veiktspējas modelis

Ieteicams:

Kā Pagriezt Kameru Ap Objektu

Kā Izveidot Efektīvu Pārdošanas Reklāmu Vietnē Avito

Ko Gaidīt No Apple Jaunā IPhone SE?

Pārskats Par Jauno Viedtālruni Honor 9X

Samsung Galaxy Note 8: Pārskats, Specifikācijas, Salīdzinājums Ar Galaxy S8 +, Xiaomi Mi Mix 2, IPhone 8

Visas Google Pixel 4 Viedtālruņa Priekšrocības Un Trūkumi

Visas Realme 5i Priekšrocības Un Trūkumi

Kā Pēc Zvana Palielināt Fotoattēlu

Kā Iestatīt GPRS Samsung Megaphone

Kā Paslēpt Mobilā Tālruņa Numuru

Kā Tālruņi Darbojas Ar 2 Sim Kartēm

Kā Uzzināt Atrašanās Vietu Pēc Megafon Tālruņa Numura

Kā Atspējot Video Karti BIOS

Kā Bez Maksas Runāt Pa Tālruni

Kā Iestatīt Datumu Un Laiku HTC

Kā Pilnībā Iztīrīt Tālruni

Kā Atjaunot IPad