Screenshot/Youtube

Da biste nekoga jasno čuli u gomili, stavite ove slušalice i pogledajte tu osobu

Autor: Zlatko Govedić

Istraživači sa Sveučilišta u Washingtonu (SAD) predstavili su vrhunski sustav za uklanjanje buke koji koristi umjetnu inteligenciju za izolaciju glasa jednog govornika u bučnoj gomili, tako da ga nositelj jednostavno gleda u njega.

Inovativna tehnologija, koja se može izgraditi korištenjem standardnih slušalica, nudi značajan napredak u slušnoj percepciji, osobito pogodujući onima s poteškoćama sa sluhom.

Moderna slušna pomagala često se bore s potpunim uklanjanjem pozadinske buke u prenapučenim okruženjima, što predstavlja izazov za ljude koji se pokušavaju usredotočiti na jedan razgovor. Kako bi to riješili, istraživači su razvili sustav “sluha ciljanog govora” (THS) koji koristi UI za razlikovanje i pojačavanje glasa odabranog govornika.

‘Brže od treptaja oka’

“Sada smo skloni razmišljati o umjetnoj inteligenciji kao o web-baziranim chatbotovima koji odgovaraju na pitanja. Ali u ovom projektu razvijamo umjetnu inteligenciju kako bismo modificirali slušnu percepciju svakoga tko nosi slušalice, s obzirom na njihove preferencije. S našim uređajima sada možete jasno čuti jednog govornika, čak i ako ste u bučnom okruženju s mnogo drugih ljudi koji razgovaraju”, objašnjava informatičar i suautor studije Shyam Gollakota.

Sustav THS je elegantno jednostavan, ali vrlo učinkovit. Standardne slušalice za suzbijanje buke opremljene su s dva mikrofona, po jedan na svakoj slušalici. Kako bi izolirao glas govornika, korisnik pogleda osobu koju želi čuti i pritisne tipku na slušalicama tri do pet sekundi. Sustav hvata zvučne valove iz zvučnika, analizira ih pomoću softvera za strojno učenje i izolira glas, filtrirajući spoljnu buku čak i ako se zvučnik pomiče.

Demonstracijski video pokazao je sposobnost slušalica da filtriraju buku iz okoliša, uključujući razgovore u zatvorenom prostoru i buku vanjske fontane, fokusirajući se isključivo na željeni glas govornika.




AI obrađuje govornikov glas nevjerojatnom brzinom, postižući latenciju od samo 18,24 milisekunde, što je znatno brže od treptaja oka. Taj gotovo trenutni odgovor omogućuje korisnicima da čuju ciljanog govornika u stvarnom vremenu bez primjetnog kašnjenja.

Bakterije sve otpornije na lijekove: Mogle bi pobiti milijune ljudi, ali postoji rješenje




Udvostručenje jasnoće glasa

U testovima koji su uključivali 21 sudionika, sustav je gotovo udvostručio percipiranu jasnoću glasa govornika u usporedbi s neobrađenim zvukom. Sustav THS temelji se na prethodnoj tehnologiji “semantičkog sluha” koju je razvio tim sa Sveučilišta u Washingtonu, koji je koristio UI za prepoznavanje specifičnih zvukova kao što su pjev ptica i alarmi.

Dok je trenutni sustav ograničen na izoliranje jednog po jednog govornika i bori se s višestrukim glasnim glasovima iz istog smjera, korisnici mogu ponovno uzorkovati glas govornika kako bi poboljšali jasnoću. Istraživači namjeravaju u budućnosti proširiti svoju tehnologiju na slušalice i slušna pomagala.

U duhu suradnje, tim je svoj THS kod učinio javno dostupnim na GitHubu, potičući daljnji razvoj i inovacije. Iako sustav još nije komercijalno dostupan, izdanje otvorenog koda omogućuje drugima da izgrade i poboljšaju tehnologiju.

Autor:Zlatko Govedić
Komentari odražavaju stavove njihovih autora, ali ne nužno i stavove portala Dnevno.hr. Molimo čitatelje za razumijevanje te suzdržavanje od vrijeđanja, psovanja i vulgarnog izražavanja. Portal Dnevno.hr zadržava pravo obrisati komentar bez najave i/li prethodnog objašnjenja.