Informazione

I ricercatori cercano nel cervello gli algoritmi per il problema del cocktail party

I ricercatori cercano nel cervello gli algoritmi per il problema del cocktail party


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

La capacità di un computer di riconoscere alcuni segnali nascosti in una massa di dati rumorosi ma non altri è un problema ben noto e attualmente intrattabile per gli informatici che lavorano nel campo del linguaggio e dell'elaborazione del suono. Conosciuto come il problema del cocktail party, gli algoritmi in grado di identificare una voce specifica e amplificarla mentre smorzano la cacofonia di altre voci, rumori e distorsioni prodotti dall'ambiente sono rimasti sfuggenti fino ad oggi.

CORRELATO: QUESTO DISPOSITIVO BRAIN-COMPUTER DÀ VOCE A CHI NON PU PARLARE

Fortunatamente, gli scienziati hanno un sistema da modellare per aiutarli a risolvere questo problema: il cervello umano. Gli esseri umani sono animali sociali, e come tali i nostri cervelli sono stati altamente evoluti per isolare e concentrarsi sulla voce della persona con cui stiamo parlando, smorzando e spesso persino sopprimendo altre voci e rumori ambientali interamente per ascoltare ciò che una persona sta dicendo. Ora, i ricercatori stanno iniziando a fare progressi significativi nella comprensione di come il cervello isola ed elabora una voce specifica tra le tante, oltre a sviluppare nuovi approcci per risolvere il problema.

L'effetto cocktail party

L'effetto cocktail party, come è noto, è la capacità del cervello umano di concentrarsi su una sola voce in mezzo alla folla e isolarla dal rumore ambientale circostante. Anche se questo potrebbe sembrare abbastanza semplice per alcuni, è facile dare per scontato l'effetto del cocktail party e non apprezzare quanto sia straordinario un processo neurologico.

In una folla, le voci sono distruzioni nell'aria circostante che si scontrano e si disperdono l'una nell'altra, rendendo difficile sentire la voce di qualcuno a meno che non preveda semplicemente tutto il resto urla o qualcosa di simile. Dal momento che questa non è una soluzione ideale al problema del cocktail party, il nostro cervello fa invece qualcos'altro che è piuttosto straordinario.

In frazioni di secondo, il nostro cervello identifica e isola il segnale vocale della persona che vogliamo ascoltare e lo amplifica. Quindi, filtra o maschera tutti gli altri segnali vocali o rumori in modo che questi suoni vengano soppressi, permettendoci di ascoltare ciò che una persona sta dicendo nella maggior parte delle circostanze sociali.

Ogni giorno, il nostro cervello elabora un'infinità di suoni a cui dà la priorità in frazioni di secondo. E proprio come stanno rimuovendo continuamente l'immagine di quel pezzo del nostro naso che si estende fisicamente nel nostro campo visivo altrimenti non ostruito, il nostro cervello amplifica i suoni su cui ci stiamo concentrando e sopprime gli altri rumori a priorità inferiore nell'ambiente in modo che funzionalmente scompaiono.

Ma come esattamente il nostro cervello raggiunga questo incredibile effetto cocktail party è stato un mistero per decenni dopo che il "problema del cocktail party" è stato discusso per la prima volta dai ricercatori negli anni '50. Fortunatamente, la ricerca degli ultimi anni ha fatto luce su come il nostro cervello identifica e isola questi importantissimi segnali vocali in contesti sociali, portandoci molto più vicini che mai a replicare lo stesso processo usando una macchina.

Segregazione di diversi segnali vocali nella corteccia uditiva

Il ultimo decennio ha visto importanti miglioramenti nella nostra comprensione di come gli esseri umani identificano ed elaborano la parola e il linguaggio. Una coppia di ricercatori supportati dall'istituto nazionale statunitense per la sordità e altri disturbi della comunicazione pubblicano un documento straordinario nella rivista Natura in 2012 ciò ha mostrato come non solo potessimo vedere come il cervello filtrava e distingueva tra segnali vocali concorrenti, ma i ricercatori erano anche in grado di prevedere quale parola stava ascoltando l'intervistato.

Edward Chang, Ph.D., neurochirurgo e professore associato presso l'Università della California a San Francisco (UCSF) inizialmente non stava cercando di identificare il modo in cui gli umani ottengono l'effetto cocktail party; stava curando pazienti con epilessia. Ha impiantato un foglio di 256 elettrodi appena sotto il cranio dei suoi pazienti per monitorare l'attività elettrica nello strato esterno dei neuroni dei loro lobi temporali.

Chang e Nima Mesgarani, Ph.D., borsista post-dottorato presso l'UCSF, si sono resi conto che questi pazienti presentavano loro una rara opportunità. Con la loro attrezzatura sofisticata - che era abbastanza sensibile da rilevare l'attivazione di un singolo neurone - e il fatto che gli elettrodi intracranici sarebbero anche in grado di monitorare la corteccia uditiva - che si trova nel lobo temporale - potevano studiare come il cervello elabora il suono con dettagli senza precedenti.

Tre soggetti volontari hanno ascoltato registrazioni audio simultanee, una letta da una donna e l'altra da un uomo, con istruzioni per ascoltare una delle due parole target specifiche che avrebbero iniziato il campione audio, quindi avrebbero riportato quale fosse la voce sull'audio campione detto dopo quelle parole. Analizzando le letture degli elettrodi utilizzando un algoritmo di decodifica che potrebbe identificare i modelli e ricostruire ciò che il soggetto ha sentito, i ricercatori hanno scoperto che le letture degli elettrodi hanno raccolto solo il pattern dell'altoparlante mirato, il che significa che la corteccia uditiva ignora il non- altoparlante di destinazione interamente.

"Molte persone pensavano che la corteccia uditiva stesse semplicemente trasmettendo queste informazioni alla parte cognitiva del cervello, alla corteccia frontale e alle aree di controllo esecutivo, dove sarebbero state realmente elaborate", ha detto Chang. "Quello che abbiamo scoperto è che la corteccia uditiva è di per sé piuttosto sofisticata. È come se sapesse quali suoni devono essere raggruppati ed estrae solo quelli rilevanti per il singolo parlante ".

Ancora più notevole è il fatto che l'algoritmo di decodifica è stato in grado di prevedere quale oratore il soggetto stava ascoltando in base alla sola attività neurale e che è stato in grado di rilevare il momento in cui l'attenzione del soggetto si è spostata o deviata verso l'altro oratore. Ciò che questo ci dice è che la corteccia uditiva detiene la chiave per comprendere come il cervello umano possa affrontare il problema del cocktail party in un modo che i computer attualmente non possono.

Differenziare la voce dal suono

Mentre un computer può decodificare l'attività neurale del cervello e sapere esattamente cosa ha effettivamente sentito la corteccia uditiva, ciò non è sufficiente per superare da solo il problema del cocktail party; abbiamo ancora bisogno di sapere com'è che il cervello fa effettivamente queste distinzioni e differenzia i segnali vocali e altri rumori ambientali per concentrarsi sulla voce mirata.

I ricercatori dell'Università di Ginevra, Svizzera (UNIGE) e dell'Università di Maastricht nei Paesi Bassi hanno pubblicato quest'estate un articolo sulla rivista Natura comportamento umano che ha cercato di arrivare alla radice del meccanismo di questo processo, vale a dire come il cervello elabora le voci che sentiamo e le parole che vengono dette.

Per fare ciò, i ricercatori hanno ideato una raccolta di pseudoparole - parole prive di significato - pronunciate da un fonetico esperto in tre diverse altezze. Ai soggetti che ascoltano i campioni vocali è stato quindi chiesto di svolgere i compiti uditivi specifici di differenziare tra diverse altezze della stessa voce o ascoltando i suoni del parlato stessi, noti come fonemi.

"Abbiamo creato 120 pseudoparole che rispettano la fonologia della lingua francese ma che non hanno senso, per assicurarci che l'elaborazione semantica non interferisca con la pura percezione dei fonemi", ha detto Narly Golestani, professore nella sezione di psicologia dell'UNIGE Facoltà di Psicologia e Scienze dell'Educazione (FPES) e coautore dell'articolo.

Sanne Rutten, ricercatore presso l'UNIGE FPES e coautore dell'articolo, ha affermato che il compito di differenziare le voci dell'oratore doveva essere il più difficile possibile per il soggetto al fine di studiare accuratamente il modo in cui il cervello esegue questo udito in lavorazione. "Per rendere la differenziazione delle voci tanto difficile quanto la differenziazione dei suoni del parlato, abbiamo creato la percezione di tre voci diverse dagli stimoli registrati, piuttosto che registrare tre persone diverse."

Prima del test, i ricercatori hanno analizzato le differenze nei parametri acustici tra i suoni della voce e quelli del fonema, come la frequenza - alta o bassa - la modulazione temporale - la velocità percepita del suono parlato - e la modulazione spettrale - il modo in cui l'energia sonora viene distribuita sulle varie frequenze. È stato determinato che le modulazioni spettrali elevate sono più utili nel differenziare i diversi campioni vocali e che le modulazioni spettrali basse insieme alla modulazione temporale rapida sono state più utili per identificare le differenze nei fonemi.

Durante il test stesso, ai soggetti è stato chiesto di identificare tre suoni vocali specifici - / p /, / t /, o / k /, come nelle pseudo-parole preperibion, gabratade ed ecalimacre - o di identificare se il campione era stato parlato con la voce uno, due o tre. Durante il test, i loro cervelli sono stati scansionati da una macchina per la risonanza magnetica funzionale (fMRI) per monitorare l'ossigenazione del sangue del cervello, un modo molto efficace per identificare quali parti del cervello erano più attive poiché più attività richiede più ossigeno di quanto meno attivo regioni del cervello.

Utilizzando un modello computerizzato per analizzare i risultati fMRI, i ricercatori hanno scoperto che la corteccia uditiva amplificava le modulazioni spettrali superiori quando era incaricato di differenziare le voci e quando gli veniva chiesto di identificare i fonemi specifici nei campioni, si concentrava sul temporale modulazioni e modulazioni spettrali inferiori rispetto ad altri stimoli.

"I risultati mostrano grandi somiglianze tra le informazioni sulle attività nei suoni stessi e i dati neurali fMRI", ha detto Golestani.

Ciò dimostra che la corteccia uditiva elabora lo stesso suono in modo diverso a seconda del compito specifico che sta cercando di svolgere, rivelando i meccanismi essenziali coinvolti nel modo in cui ascoltiamo le persone che ci stanno parlando e come il nostro cervello distingue tra voci diverse. "Questa è la prima volta che è stato dimostrato, negli esseri umani e utilizzando metodi non invasivi, che il cervello si adatta al compito da svolgere in modo coerente con le informazioni acustiche a cui si fa riferimento nei suoni del parlato", ha detto Rutten.

Risolvere il problema del cocktail party con algoritmi modellati sulla corteccia uditiva

Man mano che la nostra comprensione di ciò che accade all'interno della corteccia uditiva cresce e scopriamo più meccanismi dell'effetto cocktail party, possiamo usare queste nuove intuizioni per migliorare il modo in cui i sistemi informatici elaborano il suono della voce umana. Sebbene i sistemi di elaborazione del linguaggio naturale come l'API di sintesi vocale di Google siano certamente potenti, i loro migliori algoritmi per il problema del cocktail party sono ancora inadeguati. Ci vorranno almeno diversi anni prima che la ricerca neurologica sulla corteccia uditiva produca il tipo di scoperte che ci consentono di sviluppare i giusti algoritmi per riprodurre l'effetto cocktail party nei computer.

Fino ad allora, il tipo di interfacce per computer a comando vocale come quelle viste su Star Trek rimarranno fuori portata. Ma la ricerca sulla corteccia uditiva mostra molte promesse ei dati che abbiamo raccolto finora dagli studi neurologici dimostrano che ulteriori ricerche su questa regione del cervello riveleranno probabilmente nuove meccaniche neurologiche essenziali per lo sviluppo di algoritmi efficienti per il cocktail. problema di partito.


Guarda il video: Lalgoritmo di Dijkstra (Giugno 2022).


Commenti:

  1. Keith

    Bravo, penso che questa sia un'ottima idea.

  2. Kajikora

    Mi scuso che ti sto interrompendo, ma propongo di andare in modo diverso.

  3. Issiah

    Non ne vale la pena.

  4. Ivon

    Penso che tu commetta un errore. Suggerisco di discuterne. Scrivimi in PM, comunicheremo.

  5. Nasir

    È esatto

  6. Rodolfo

    Mi scuso, ma secondo me ammette l'errore. Mi offro di discuterne. Scrivimi in PM.

  7. Delmore

    Quindi sì!

  8. Akitilar

    Sono d'accordo, questa è un'ottima idea.



Scrivi un messaggio