Vedi traduzione automatica
Questa è una traduzione automatica. Per vedere il testo originale in inglese cliccare qui
#News
{{{sourceTextContent.title}}}
Il guanto imballato con sensore impara le firme di presa umana
{{{sourceTextContent.subTitle}}}
Indossando un guanto ricco di sensori durante la manipolazione di una varietà di oggetti, i ricercatori del MIT hanno compilato un enorme set di dati che consente a un sistema di intelligenza artificiale di riconoscere gli oggetti solo attraverso il tatto. Le informazioni possono essere utilizzate per aiutare i robot a identificare e manipolare gli oggetti e possono essere di aiuto nella progettazione protesica.
{{{sourceTextContent.description}}}
I ricercatori hanno sviluppato un guanto a maglia a basso costo, chiamato "guanto tattile scalabile" (STAG), dotato di circa 550 minuscoli sensori su quasi tutta la mano. Ogni sensore cattura i segnali di pressione mentre gli esseri umani interagiscono con gli oggetti in vari modi. Una rete neurale elabora i segnali per "imparare" un dataset di modelli di segnali di pressione relativi a specifici oggetti. Poi, il sistema usa quel dataset per classificare gli oggetti e predire il loro peso in base alla sensazione di solitudine, senza alcun input visivo necessario.
In un articolo pubblicato su Nature, i ricercatori descrivono un set di dati che hanno compilato utilizzando STAG per 26 oggetti comuni, tra cui una lattina di soda, forbici, pallina da tennis, cucchiaio, penna e tazza. Utilizzando il set di dati, il sistema ha previsto l'identità degli oggetti con una precisione fino al 76%. Il sistema può anche prevedere il peso corretto della maggior parte degli oggetti in un raggio di circa 60 grammi.
Guanti simili a sensori utilizzati oggi costano migliaia di dollari e spesso contengono solo circa 50 sensori che catturano meno informazioni. Anche se STAG produce dati ad altissima risoluzione, è realizzato con materiali disponibili in commercio per un totale di circa 10 dollari.
Il sistema di rilevamento tattile potrebbe essere utilizzato in combinazione con la tradizionale visione artificiale e con set di dati basati su immagini per dare ai robot una comprensione più umana dell'interazione con gli oggetti.
"Gli esseri umani possono identificare e gestire bene gli oggetti perché abbiamo un feedback tattile. Mentre tocchiamo gli oggetti, ci sentiamo intorno e ci rendiamo conto di cosa sono. I robot non hanno un feedback così ricco", ha detto Subramanian Sundaram, un ex studente laureato nel Computer Science and Artificial Intelligence Laboratory (CSAIL). "Abbiamo sempre voluto che i robot facessero quello che gli umani possono fare, come fare i piatti o altre faccende. Se vuoi che i robot facciano queste cose, devono essere in grado di manipolare gli oggetti molto bene"
I ricercatori hanno anche utilizzato il dataset per misurare la cooperazione tra regioni della mano durante le interazioni tra oggetti. Ad esempio, quando qualcuno usa l'articolazione centrale dell'indice, raramente usa il pollice. Ma le punte dell'indice e del medio corrispondono sempre all'uso del pollice.
"Per la prima volta, per la prima volta, dimostriamo quantificabilmente che, se sto usando una parte della mia mano, quanto sia probabile che io usi un'altra parte della mia mano", ha detto.
I produttori di protesi possono potenzialmente utilizzare le informazioni per scegliere, ad esempio, i punti ottimali per posizionare i sensori di pressione e aiutare a personalizzare la protesi in base ai compiti e agli oggetti con cui le persone interagiscono regolarmente.
Aderire al Sundaram sulla carta sono: Petr Kellnhofer e Jun-Yan Zhu; Yunzhu Li; Antonio Torralba, professore di EECS e direttore del MIT-IBM Watson AI Lab; e Wojciech Matusik, professore associato di ingegneria elettrica e informatica e capo del gruppo Computational Fabrication.
STAG è accoppiato con un polimero elettricamente conduttivo che cambia la resistenza alla pressione applicata. I ricercatori hanno cucito fili conduttivi attraverso i fori nel film polimerico conduttivo, dalla punta delle dita alla base del palmo. I fili si sovrappongono in modo da trasformarli in sensori di pressione. Quando qualcuno che indossa il guanto sente, solleva, tiene in mano e fa cadere un oggetto, i sensori registrano la pressione in ogni punto.
I fili si collegano dal guanto a un circuito esterno che traduce i dati di pressione in "mappe tattili", che sono essenzialmente brevi video di punti che crescono e si restringono attraverso la grafica di una mano. I punti rappresentano la posizione dei punti di pressione e la loro dimensione rappresenta la forza - più grande è il punto, maggiore è la pressione.
Da queste mappe, i ricercatori hanno compilato un dataset di circa 135.000 fotogrammi video provenienti da interazioni con 26 oggetti. Queste cornici possono essere utilizzate da una rete neurale per prevedere l'identità e il peso degli oggetti e fornire informazioni sulla comprensione umana.
Per identificare gli oggetti, i ricercatori hanno progettato una rete neurale convoluzionale (CNN), che di solito viene utilizzata per classificare le immagini, per associare specifici pattern di pressione a specifici oggetti. Ma il trucco era quello di scegliere cornici da diversi tipi di presa per ottenere un quadro completo dell'oggetto.
L'idea era di imitare il modo in cui gli esseri umani possono tenere un oggetto in pochi modi diversi per riconoscerlo, senza usare la vista. Allo stesso modo, la CNN dei ricercatori sceglie fino a otto fotogrammi semirandom dal video che rappresentano la più dissimile afferrare-dire, tenendo una tazza dal basso, dall'alto e maniglia.
Ma la CNN non può scegliere solo fotogrammi casuali tra le migliaia di fotogrammi in ogni video, o probabilmente non sceglierà impugnature distinte. Invece, raggruppa fotogrammi simili tra loro, dando luogo a cluster distinti che corrispondono a grasps unici. Quindi, estrae un telaio da ciascuno di questi cluster, assicurandosi di avere un campione rappresentativo. Poi la CNN utilizza i modelli di contatto appresi durante l'addestramento per prevedere la classificazione di un oggetto tra i fotogrammi scelti.
"Vogliamo massimizzare la variazione tra i frame per dare il miglior input possibile alla nostra rete", ha detto Kellnhofer. "Tutti i fotogrammi all'interno di un singolo cluster dovrebbero avere una firma simile che rappresenta i modi simili di afferrare l'oggetto. Il campionamento da cluster multipli simula un essere umano che cerca interattivamente di trovare afferramenti diversi durante l'esplorazione di un oggetto"
Per la stima del peso, i ricercatori hanno costruito un dataset separato di circa 11.600 fotogrammi da mappe tattili di oggetti raccolti con il dito e il pollice, tenuti e lasciati cadere. In particolare, la CNN non è stata addestrata su nessun telaio su cui è stata testata, il che significa che non poteva imparare ad associare il peso ad un oggetto. Nei test, un singolo telaio è stato inserito nella CNN. In sostanza, la CNN rileva la pressione intorno alla mano causata dal peso dell'oggetto e ignora la pressione causata da altri fattori, come il posizionamento della mano per evitare che l'oggetto scivoli. Poi calcola il peso in base alle pressioni appropriate.
Il sistema potrebbe essere combinato con i sensori già presenti sui giunti dei robot che misurano la coppia e la forza per aiutarli a prevedere meglio il peso dell'oggetto.
"Le articolazioni sono importanti per prevedere il peso, ma ci sono anche componenti importanti del peso dalla punta delle dita e dal palmo che catturiamo", ha detto Sundaram.