Sztuczna inteligencja słucha, żebyśmy mogli lepiej słyszeć

Naukowcy z SIT opracowali technologię głębokiego odszumiania opartą na sztucznej inteligencji, która usuwa hałas z nagrań, pozostawiając czysty głos
System AI jest szkolony na tysiącach przykładów mowy i hałasu, aby rozpoznawać i usuwać szum, nawet nieprzewidywalny
Zespół przetestował prawie sto frameworków AI, zanim osiągnął optymalną wersję działającą w czasie rzeczywistym na małych urządzeniach
Trwają rozmowy z partnerami branżowymi w celu wdrożenia tej technologii

Zespół naukowców z Singapore Institute of Technology (SIT) spędzili ostatnie dwa lata na szkoleniu ram sztucznej inteligencji, aby wycinały hałaśliwe dźwięki otoczenia z nagranej mowy, pozostawiając tylko słodki dźwięk czystego głosu. Profesor Ian McLoughlin, dyrektor klastra Infocomm Technology w SIT, wraz z zespołem opracował technologię, która z pomocą sztucznej inteligencji (AI) może dosłownie przebić się przez szum.

Problem konwencjonalnych technik poprawy jakości dźwięku

Technologia ta, znana jako głębokie odszumianie, tworzy modele głębokiego maszynowego uczenia się, które pozwalają identyfikować i śledzić dźwięki tła oraz mowy podczas rozmowy. System sztucznej inteligencji jest następnie szkolony w celu usuwania tych pierwszych i odszumiania przy jednoczesnym ulepszaniu tych drugich. Hałas zniekształca mowę. Jeśli wiesz, czym jest szum, możesz go usunąć za pomocą techniki przetwarzania sygnału sprzed 20 lat, bez sztucznej inteligencji. Problem pojawia się jednak, gdy hałas zmienia się w nieprzewidywalny sposób, na przykład przez odgłosy wiatru lub gdy w ogóle nie wiadomo, jakiego rodzaju dźwięku można się spodziewać. Sztuczna inteligencja jest bardzo dobra w identyfikowaniu i modelowaniu rzeczy, nawet tych, o których nigdy wcześniej nie słyszała.

Co może zdziałać sztuczna inteligencja w tym obszarze

Jeśli wytrenujesz sztuczną inteligencję do rozpoznawania 100 różnych dźwięków dzwonka, może ona modelować dźwięk prawie każdego możliwego dzwonka. Naukowcy z SIT trenują odszumiającą sztuczną inteligencję za pomocą tysięcy rodzajów mowy i hałasu. Badania zostały przeprowadzone we współpracy z singapurskim oddziałem tajwańskiej firmy elektroakustycznej i wspierane przez AI Singapore, krajowy program mający na celu zwiększenie możliwości w zakresie sztucznej inteligencji w tym kraju. W sumie zespół przeszkolił prawie sto frameworków sztucznej inteligencji, zanim dotarł do ostatecznej wersji. Kolejnym wyzwaniem było zapewnienie, że technologia będzie mogła działać na małym systemie wbudowanym, takim jak ten znajdujący się w przenośnym sprzęcie audio, i działać w czasie rzeczywistym bez zauważalnego opóźnienia między sygnałami wejściowym i wyjściowym. Obecnie prowadzone są rozmowy z partnerami branżowymi, aby przyjrzeć się, w jaki sposób technologia odszumiania oparta na sztucznej inteligencji SIT może zostać dopuszczona do wdrożenia.

Treść oryginalnego artykułu na ten temat dostępna pod adresem: LINK

Więcej informacji o rozwoju sztucznej inteligencji oraz jej zastosowaniach można znaleźć w Nawigatorze technologicznym:

Przejdź do Nawigatora technologicznego

Sztuczna inteligencja słucha, żebyśmy mogli lepiej słyszeć

Problem konwencjonalnych technik poprawy jakości dźwięku

Co może zdziałać sztuczna inteligencja w tym obszarze

Przegląd technologiczny

Sesja i preferencje (zwiń)

Zagnieżdżone treści (zwiń)

Dopasowywanie treści (zwiń)

Monitorowanie i analityka (zwiń)