Vedi traduzione automatica
Questa è una traduzione automatica. Per vedere il testo originale in inglese cliccare qui
#White Papers
{{{sourceTextContent.title}}}
Come i sensori di immagine di Neuromorphic rubano i trucchi dall'occhio umano
{{{sourceTextContent.subTitle}}}
Dando la priorità alle parti dinamiche di una scena, le macchine possono bloccare più efficientemente le immagini
{{{sourceTextContent.description}}}
Quando Eadweard Muybridge ha installato le sue macchine fotografiche a Leland Stanford? azienda agricola del cavallo di s Palo Alto in 1878, potrebbe a malapena immaginare la rivoluzione che stava circa per scintillare. Muybridge ha attrezzato un dozzina o più macchine fotografiche separate usando i legare di viaggio in modo che innescassero in una sequenza del veloce-fuoco che avrebbe registrato uno di Stanford? thoroughbreds di s a velocità. I risultati fotografici hanno concluso un dibattito fra la corsa degli entusiasti, stabilenti che un cavallo galoppante brevemente avesse tutti e quattro i piedini fuori dalla terra? anche se accade così velocemente esso? s impossible affinchè chiunque vedano. Più importante, Muybridge presto ha calcolato fuori come ripetere le copie delle immagini che ha preso delle andature animali in un senso che ha incitato i suoi oggetti a sembrare muoversi.
Generazioni di videocamere e del pellicola, includenti oggi? i migliori sistemi di formazione immagine di s, possono seguire il loro stirpe di nuovo a Muybridge? macchine fotografiche boxy di s. Naturalmente, l'apparecchiatura moderna usa i rivelatori semi conduttori anziché le piastre di vetro ed il numero dei telai che possono essere richiesti ogni secondo è notevolmente maggior. Ma la strategia di base è identica: Bloccate una sequenza delle immagini tranquille, che una volta giocate indietro velocemente danno al visore l'illusione di movimento.
Se le immagini devono essere analizzate da un calcolatore piuttosto di quanto osservate, là? la s nessuna necessità di preoccuparsi per se l'illusione fosse buon', ma voi potrebbe ancora avere bisogno di di registrare i lotti dei telai ogni secondo per seguire correttamente l'azione.
Realmente, neppure con un alto tasso di struttura, la vostra apparecchiatura non può spettare all'operazione: Qualunque state provando ad analizzare potrebbe cambiare troppo rapidamente. Che cosa allora fate? Molti assistenti tecnici risponderebbero a quella domanda cercando i sensi amplificare il tasso di video struttura usando l'elettronica con più alto rendimento. Sosteniamo che voi? la d è più ricca riconsiderando l'intero problema e progettando la vostra video apparecchiatura in modo da funziona più di meno come Muybridge? le macchine fotografiche di s e preferibilmente funziona di più come i suoi occhi.
La strategia generale di generazione dei sistemi d'elaborazione elettronici ispirati da quei biologici è denominata l'ingegneria neuromorphic. Per le decadi, questa attività è stata un'esercitazione nella ricerca pura, ma in questi ultimi 10 anni o così, noi ed altri ricercatori stiamo perseguendo questo metodo per sviluppare i sistemi pratici di visione. Per per capire come un occhio artificiale del genere noi? la VE che studia può sorpassare persino una videocamera ad alta velocità, li ha lasciati in primo luogo disabuse voi dell'idea che il senso che il video ingranaggio moderno aziona è ragionevole.
Immagini per un momento che voi? re prova di analizzare qualcosa che accada realmente veloce per esempio un lanciatore che getta un baseball. Se provate ad usare una videocamera convenzionale, che registra qualcosa come 30 o forse persino a 60 fotogrammi al secondo, voi? mancanza del ll più del movimento del lanciatore? braccio di s come sbatte la sfera verso il piatto. Forse alcune strutture interferiranno il suo braccio nelle posizioni differenti. Ma voi? bloccaggio del ll relativamente poche informazioni di interesse, con il linguaggio figurato molto ridondante del lanciatore? monticello di s, il tappeto erboso dell'infield ed altre parti costanti dei precedenti. Cioè la scena record sarete under- e oversampled allo stesso tempo!
Là? s nessun senso evitare quel problema poichè tutte le parti del sensore di immagine nella vostra macchina fotografica ripartono una fonte comune di sincronizzazione. Mentre questa debolezza ha vinto? la t è un problema per un visore casuale, se voleste un calcolatore analizzare le sfumature del lanciatore? il movimento del braccio di s, i vostri dati sarà doloroso inadeguato. In alcuni casi, il postprocessing specializzato potrebbe lasciarlo derivare i risultati che avete voluto. Ma questo metodo di forza bruta lo verrebbe a mancare negli ambienti con potere, la larghezza di banda e le risorse di computazione limitati quali sui dispositivi mobili, i ronzi del multicopter, o altri generi di piccoli robot.
La comunità di macchina-visione è stata attaccata con questo problema di base per le decadi. Ma la situazione può presto cambiare per il migliore mentre noi ed altri ricercatori sviluppiamo l'apparecchiatura che prova le parti differenti della scena ai tassi differenti, imitante come l'occhio funziona. Con tale ingranaggio, quelle parti della scena che contengono movimenti veloci sono provate velocemente, mentre lento-cambiano le parti sono provate ai tassi più bassi, andando tutto il senso giù a zero se niente cambia.
Convincere le videocamere per funzionare questo senso è ingannevole, perché indossate? la t sanno in anticipo che le parti della scena cambieranno e quanto agirà in tal modo velocemente. Ma come descriviamo qui sotto, l'affare del cervello e dell'occhio umano con questo problema continuamente. E le ricompense di copiatura come funzionano sarebbero enormi. Non solo farebbe gli oggetti di evoluzione rapida? esplosioni, insetti durante il volo, disastrose vetro? più favorevole all'analisi, inoltre permetterebbe le videocamere sugli smartphones ed altri dispositivi a pile ai movimenti ordinari record usando molto meno potere.
Gli assistenti tecnici paragonano spesso l'occhio ad una videocamera. Ci sono alcune somiglianze da essere sicure, ma nella verità l'occhio è una creazione molto più complicata. In particolare, la gente? le retine di s indossano? luce di girata di t appena nei segnali elettrici: Procedano l'uscita dell'occhio? cellule del fotoricettore di s nei sensi specializzati, bloccanti il roba di interesse? cambiamenti spaziali e temporali? ed inviando quelle informazioni al cervello in un modo stupefacente efficiente.
Conoscere come questo metodo funziona per gli occhi, noi ed altri stanno studiando i sistemi di macchina-visione in cui ogni pixel registra il relativo proprio campione in risposta ai cambiamenti nella quantità di luce che di avvenimento riceve. Che cosa? la s stata necessaria per realizzare questo schema è circuiti elettronici che possono seguire continuamente le ampiezze di ogni pixel e registrare i cambiamenti soltanto di quei pixel che si spostano nel livello chiaro da un certo molto piccolo importo prescritto.
Questo metodo è denominato campione dell'livello-incrocio. Nel passato, qualche gente ha esplorato usando per i segnali audio? per esempio, ridurrlo la quantità di dati? la d deve registrare con il campione usuale di costante-tasso. Ed i ricercatori accademici stanno sviluppando gli analoghi elettronici della retina in silicone per la ricerca dal fine degli '80. Ma soltanto nella decade passata tenti gli assistenti tecnici per applicare l'livello-incrocio che prova all'aquisizione in tempo reale pratica delle immagini.
Ispirato dalla biologia dell'occhio e del cervello, abbiamo cominciato a sviluppare i toner che contengono gli allineamenti dei sensori indipendente di funzionamento del pixel nel 2000s iniziale. Nelle nostre macchine fotografiche più recenti, ogni pixel è attaccato ad un rivelatore dell'livello-incrocio e ad un circuito separato di esposizione-misura. Per ogni pixel specifico, l'elettronica rileva quando l'ampiezza di quel pixel? il segnale di s raggiunge una soglia precedentemente stabilita sopra o sotto il livello di segnale ultimo-registrato, quale a punto il nuovo livello allora è registrato. In questo modo ogni pixel ottimizza il relativo proprio campione secondo i cambiamenti nella luce che contiene.
Con questa disposizione, se la quantità di luce che raggiunge un pixel dato cambia rapidamente, che il pixel è provato frequentemente. Se niente cambia, il pixel smette di acquistare che cosa risulterebbe appena essere informazioni ridondanti e va in ozio fino a che le cose non comincino accadere ancora nel relativo campo visivo molto piccolo. I circuiti elettronici hanno associato con le uscite di quel pixel una nuova misura piuttosto come un cambiamento è rilevato ed inoltre si tiene al corrente della posizione nell'allineamento del sensore del pixel che avverte quel cambiamento. Queste uscite, o? eventi? sono messi secondo una rappresentazione di evento di indirizzo denominato di protocollo, che ha uscito dall'idromele del Carver? laboratorio di s a Caltech nell'inizio degli anni 90. Il treno degli eventi tali uscite del sensore di visione assomiglia così al treno dei punti che vedete quando misurate i segnali che viaggiano lungo un nervo.
La chiave è che le informazioni visive non sono acquisite o non registrate come la serie usuale di telai completi separati entro i millisecondi. Piuttosto, esso? s generata ad un tasso molto più alto? ma soltanto dalle parti dell'immagine dove ci sono nuove letture. Di conseguenza, appena le informazioni che sono relative si acquistano, trasmesso, immagazzinato e finalmente procedato dalle procedure di macchina-visione.
Abbiamo progettato i circuiti di registrazione e dell'livello-incrocio nella nostra macchina fotografica per reagire con velocità ardente. Con la nostra apparecchiatura, i tempi della lettura e dell'acquisizione dei dati di alcuni dieci dei nanosecondi sono possibili nelle scene brillantemente illuminate. Per i livelli standard della stanza-luce, l'aquisizione e la lettura richiedono alcuni dieci dei microsecondi. Questi tassi hanno luogo oltre tutti ma l'oggi disponibile ad alta velocità più specializzato delle videocamere, centinaia di valutazione dei costi delle macchine fotografiche di migliaia di dollari. Ed anche se potreste permettere una tal macchina fotografica, lo allagherebbe con principalmente informazioni senza valore. La campionatura dei pixel differenti ai tassi differenti, da un lato, riduce non appena il costo di equipaggiamento ma anche l'assorbimento di corrente di energia, la larghezza di banda della trasmissione ed i requisiti di memoria? vantaggi che estendono bene oltre la fase di aquisizione. Ma voi? il ll sperpera quei benefici se tutto che facciate è ricostruisce una serie di video telai ordinari dai dati in moda da poterlo applicare voi le procedure image-processing convenzionali.
Per completamente sbloccare il potenziale dei sensori eyelike di visione, dovete abbandonare l'intera nozione di video telaio. Quello può essere un piccolo duro per ottenere la vostra testa intorno, ma non appena fate quello, siete liberato ed il successivi procedandolo fanno ai dati possono risolvere le cose che potreste mancare al contrario facilmente? compreso i movimenti dettagliati del braccio del nostro lanciatore ipotetico di baseball.
Per fa questo, benchè, voi? il ll deve ripensare come procedate i dati e voi? il ll probabilmente deve scrivere il nuovo codice invece di usando una biblioteca standard di video-analisi. Ma le formulazioni matematiche adatte per questo nuovo genere di videocamera sono semplici ed eleganti e rendono alcune procedure molto efficienti. Effettivamente, nell'applicazione delle tali procedure all'uscita dei nostri sensori autosampling di visione, potevamo indicare che determinate mansioni in tempo reale di visione potrebbero essere fatte funzionare ad un tasso di dieci persino alle centinaia di chilocicli, mentre le tecniche struttura-basate convenzionali di video-analisi si sono applicate alla stessa situazione superata fuori ai 60 hertz penosamente lento.
Un altro vantaggio di analizzare i flussi di dati quasi continui dai nostri sensori eyelike anziché una serie di video telai convenzionali è che possiamo fare il buon uso della sincronizzazione del segnale, appena come i neuroni biologici fanno. Ciò è forse il meglio spiegato con un esempio specifico.
Supponga che abbiate voluto progettare un robot mobile che usa un sistema di macchina-visione per traversare il relativo ambiente. Chiaramente, avere un programma 3-D delle cose intorno esso sarebbe utile. Così voi? d senza attrezzatura di dubbio il robot con due macchine fotografiche piuttosto separate in modo che abbia visione stereo. Che molto è abbastanza semplice. Ma ora dovete programmare il relativo cervello robot per analizzare i dati che riceve dalle relative macchine fotografiche e girata che in una rappresentazione di spazio 3-D.
Se entrambe le macchine fotografiche registrano qualche cosa di distinto? lasciato? la s lo dice? persona dello S.A. che fa un passo davanti al robot? esso? s abbastanza facile risolvere quanto lontano la persona è. Ma supponga che due genti differenti entrino nel robot? campo visivo di s allo stesso tempo. O sei genti. Risolvendo quale è quale nelle due viste della macchina fotografica ora ottiene più provocatorio. E senza potere accertare delle identità per sicuro, il robot non potrà determinare la posizione 3-D di ciascuno di questi ostacoli umani.
Con i sensori di visione del tipo noi? la VE che studia, tali funzionamenti di corrispondenza diventa più semplice: Dovete appena cercare le coincidenze nelle letture dalle due macchine fotografiche. Se i pixel dalle macchine fotografiche separate registrano i cambiamenti molto allo stesso istante, quasi certamente stanno osservando lo stesso evento. Applicando alcune prove geometriche standard alle coincidenze osservate può più ulteriormente inchiodare giù il fiammifero.
Tobi Delbrück ed altri a ETH Zurigo ha dimostrato il potere di questo metodo in 2007 costruendo un portiere robot su scala ridotta di calcio che per mezzo di un sensore eyelike che era largamente simile ad il nostro. Ha avuto un tempo di reazione al di sotto di 3 millisecondi. (Peter Schmeichel, mangia il vostro cuore fuori.) Eravate da provare a realizzare quella velocità usando una videocamera convenzionale, voi? la necessità di d di trovare uno che potrebbe registrare alcune centinaia di fotogrammi al secondo e la difficoltà di calcolo sarebbero enormi. Ma con Delbrück? il sensore dinamico neuromorphic di visione di s, il calcolatore che fa funzionare il suo portiere di calcio stava correndo a passi lunghi avanti ad un carico puro del CPU di 4 per cento.
Rispetto alle video tecniche standard, i sensori neuromorphic di visione offrono la velocità aumentata, la maggior gamma dinamica ed il risparmio nel costo di calcolo. Di conseguenza, mansioni esigenti di macchina-visione? come il tracciato dell'ambiente in 3-D, l'inseguimento degli oggetti multipli, o risposta rapidamente alle azioni percepite? può funzionare ai tassi di chilocicli su fissaggi a pile poco costosi. Così questo genere di apparecchiatura terrebbe conto? sempre-su? l'input visivo sui dispositivi mobili astuti, che è attualmente impossibile a causa della quantità di potere tali mansioni informaticamente intense consuma.
Un'altra applicazione naturale dei sensori neuromorphic di visione è in innesti retinici elettronici per il ristabilimento della vista a quelle di cui la visione è stata persa alla malattia. Effettivamente, due di noi (Posch e Benosman) hanno contribuito a trovare la visione di Pixium, un'azienda francese che ha sviluppato un innesto retinico neuromorphic, che ora sta subendo i test clinici. Diverso degli innesti facenti concorrenza in sviluppo, che sono struttura basata, Pixium? l'uso dei prodotti di s evento-ha basato il campione per fornire ai pazienti stimolo visivo. Ora, questi innesti possono dare a pazienti soltanto una capacità generale di percepire la luce e le figure. Ma la tecnologia dovrebbe migliorare rapidamente nel corso di prossimi anni ed il forse un giorno potrà offrire la gente che ha perso la loro visione naturale la capacità di riconoscere i fronti? tutti i grazie alle retine artificiali hanno ispirato da quelle reali.
Potete invitare i sensori eyelike di visione per evolverti a partire dall'oggi disponibile aprente la strada di disegni nelle forme che finalmente svolgono un grande ruolo nella tecnologia, nell'automatismo ed in più medici. Effettivamente, esso wouldn? la t li sorprende se dimostrassero altrettanto seminale quanto Muybridge? macchine fotografiche di legno di s.
Questo articolo originale è stato publicato in stampa As? Dando a macchine gli occhi Humanlike.?
Circa gli autori
Ralph Etienne-Cummings e co-author Christoph Posch e Ryad Benosman lavora insieme sui sistemi neuromorphic di visione. Etienne-Cummings lavora all'Università John Hopkins; Posch e Benosman sono all'istituto della visione, a Parigi. Il trio? la ricerca congiunta di s si è sviluppata dalle loro frequenti riunioni ad un'officina di estate sull'ingegneria neuromorphic in tellururo, Colo. ? Molta nostra collaborazione ha uscito da quell'officina? dice Etienne-Cummings. ? E molta montagna che biking.?
{{medias[11821].description}}
{{medias[11822].description}}