EfficientDet: Op Soek Na Skaalbare En Doeltreffende Opsporing Van Voorwerpe

INHOUDSOPGAWE:

EfficientDet: Op Soek Na Skaalbare En Doeltreffende Opsporing Van Voorwerpe
EfficientDet: Op Soek Na Skaalbare En Doeltreffende Opsporing Van Voorwerpe

Video: EfficientDet: Op Soek Na Skaalbare En Doeltreffende Opsporing Van Voorwerpe

Video: EfficientDet: Op Soek Na Skaalbare En Doeltreffende Opsporing Van Voorwerpe
Video: EfficientDet Implementation | Object Detection 2024, November
Anonim

As een van die belangrikste toepassings in rekenaarvisie word voorwerpopsporing al hoe belangriker in scenario's wat hoë presisie benodig, maar beperkte rekenaarbronne het, soos robotika en bestuurderslose motors. Ongelukkig voldoen baie moderne deteksies met hoë presisie nie aan hierdie beperkings nie. Wat nog belangriker is: toepassings vir die opsporing van voorwerpe in die regte wêreld word op verskillende platforms uitgevoer, wat dikwels verskillende hulpbronne benodig.

Skaalbare en doeltreffende opsporing van voorwerpe
Skaalbare en doeltreffende opsporing van voorwerpe

Die natuurlike vraag is dus hoe om akkurate en doeltreffende voorwerpdetektors te ontwerp wat ook kan aanpas by 'n wye verskeidenheid hulpbronbeperkings?

EfficientDet: skaalbare en doeltreffende opsporing van voorwerpe, aangeneem op CVPR 2020, stel 'n nuwe familie van skaalbare en doeltreffende voorwerpdetektors bekend. Voortbouend op vorige werk aan die skaal van neurale netwerke (EfficientNet) en die integrasie van 'n nuwe tweerigting-funksionele netwerk (BiFPN) en nuwe skaalreëls, bereik EfficientDet moderne presisie terwyl dit 9 keer kleiner is en gebruik aansienlik minder berekening as bekende moderne detektors. Die volgende figuur toon die algemene netwerkargitektuur van die modelle.

Beeld
Beeld

Optimalisering van modelargitektuur

Die idee agter EfficientDet spruit uit 'n poging om oplossings te vind om die berekeningsdoeltreffendheid te verbeter deur stelselmatig die nuutste moderne opsporingsmodelle te ondersoek. In die algemeen het voorwerpverklikkers drie hoofkomponente: 'n ruggraat wat kenmerke uit 'n gegewe beeld onttrek; 'n netwerk van voorwerpe wat verskeie vlakke van funksies vanaf die ruggraat as invoer neem en 'n lys uitvoer van gekombineerde funksies wat kenmerkende eienskappe van die beeld voorstel; en 'n finale klas- / boksnetwerk wat gekombineerde funksies gebruik om die klas en ligging van elke voorwerp te voorspel.

Nadat ons die ontwerpopsies vir hierdie komponente nagegaan het, het ons verskeie sleuteloptimalisasies geïdentifiseer om prestasie en doeltreffendheid te verbeter. Vorige verklikkers gebruik meestal ResNets, ResNeXt of AmoebaNet as ruggraat, wat minder kragtig is of 'n laer doeltreffendheid het as EfficientNets. Met die aanvanklike implementering van die EfficientNet-ruggraat kan baie meer doeltreffendheid behaal word. As ons byvoorbeeld begin met 'n RetinaNet-basislyn wat 'n ResNet-50-ruggraat gebruik, wys ons ablasie-studie dat die vervanging van ResNet-50 deur EfficientNet-B3 die akkuraatheid met 3% kan verbeter, terwyl die berekening met 20% verminder word. 'N Ander optimalisering is om die doeltreffendheid van funksionele netwerke te verbeter. Alhoewel die meeste van die vorige detectors bloot die Downlink Pyramid Network (FPN) gebruik, vind ons dat die downstream FPN inherent beperk is tot 'n eenrigtingvloei van inligting. Alternatiewe FPN's soos PANet voeg ekstra stroomop toe teen die koste van addisionele berekening.

Onlangse pogings om Neural Architecture Search (NAS) te gebruik, het 'n ingewikkelder NAS-FPN-argitektuur ontdek. Alhoewel hierdie netwerkstruktuur effektief is, is dit ook onreëlmatig en baie geoptimaliseer vir 'n spesifieke taak, wat dit moeilik maak om by ander take aan te pas. Om hierdie probleme op te los, stel ons 'n nuwe netwerk van tweerigtingfunksies BiFPN voor, wat die idee implementeer om meerlaagsfunksies van FPN / PANet / NAS-FPN te kombineer, waarmee inligting van bo na onder oorgedra kan word en van onder na bo. gebruik gereelde en effektiewe verbindings.

Beeld
Beeld

Om die doeltreffendheid verder te verbeter, stel ons 'n nuwe vinnig genormaliseerde sintesetegniek voor. Tradisionele benaderings behandel gewoonlik alle insette op FPN op dieselfde manier, selfs in verskillende resolusies. Ons merk egter op dat invoerfunksies met verskillende resolusies dikwels ongelyk bydra tot die uitvoerfunksies. Dus voeg ons ekstra gewig by elke invoerfunksie en laat ons die netwerk die belangrikheid van elkeen leer. Ons sal ook alle gereelde kronkels vervang met goedkoper, diep skeibare kronkels. Met hierdie optimalisering verbeter ons BiFPN die akkuraatheid met 4%, terwyl die berekeningskoste met 50% verlaag word.

Die derde optimalisering behels die bereiking van die beste kompromie tussen akkuraatheid en doeltreffendheid onder verskillende hulpbronbeperkings. Ons vorige werk het getoon dat die skaal van die diepte, breedte en resolusie van 'n netwerk die beeldherkenningsprestasie aansienlik kan verbeter. Geïnspireer deur hierdie idee stel ons 'n nuwe saamgestelde skaalmetode vir objekdetektors voor wat die resolusie / diepte / breedte gesamentlik verhoog. Elke netwerkkomponent, dws ruggraat-, voorwerp- en blok- / klasvoorspellende netwerk, het een komplekse skaalfaktor wat alle skaalafmetings met behulp van heuristiese reëls beheer. Hierdie benadering maak dit maklik om te bepaal hoe die model geskaal kan word deur 'n skaalfaktor te bereken vir 'n bepaalde beperking op die teikenhulpbron.

Deur die nuwe ruggraat en BiFPN te kombineer, ontwerp ons eers 'n klein EfficientDet-D0-basislyn en pas dan saamgestelde skaal toe om EfficientDet-D1 tot D7 te kry. Elke seriemodel het 'n hoër rekenkoste, wat 'n wye verskeidenheid hulpbronbeperkings van 3 miljard FLOP's tot 300 miljard FLOPS dek, en bied 'n hoër akkuraatheid.

Prestasiemodel

Evaluering van EfficientDet op die COCO-datastel, 'n algemeen gebruikte verwysingsdatastel vir opsporing van voorwerpe. EfficientDet-D7 behaal 'n gemiddelde gemiddelde akkuraatheid (mAP) van 52,2, wat 1,5 punte hoër is as die vorige moderne model, met 4 keer minder parameters en 9,4 keer minder berekeninge

Beeld
Beeld

Ons het ook die grootte van die parameter en die CPU / GPU-latency tussen EfficientDet en vorige modelle vergelyk. Met soortgelyke akkuraatheidsbeperkings loop EfficientDet-modelle 2-4 keer vinniger op die GPU en 5-11 keer vinniger op die verwerker as ander detektors. Terwyl EfficientDet-modelle hoofsaaklik bedoel is vir die opsporing van voorwerpe, toets ons ook die doeltreffendheid daarvan in ander take soos semantiese segmentering. Om segmenteringstake uit te voer, wysig ons EfficientDet-D4 effens deur die opsporingskop en kopverlies en -verlies te vervang, terwyl ons dieselfde afgeskaalde ruggraat en BiFPN behou. Ons vergelyk hierdie model met vorige moderne segmenteringsmodelle vir Pascal VOC 2012, 'n gebruikte datastel vir segmenteringstoetse.

Beeld
Beeld

Vanweë hul uitsonderlike prestasie, word verwag dat EfficientDet sal dien as 'n nuwe grondslag vir toekomstige navorsing oor voorwerpopsporing en moontlik baie akkurate voorwerpopsporingsmodelle nuttig sal maak in baie werklike toepassings. So maak al die breekpunte van die kode en die vooraf-opgeleide model op Github.com oop.

Aanbeveel: