Zespół naukowców z Singapore Institute of Technology (SIT) spędzili ostatnie dwa lata na szkoleniu ram sztucznej inteligencji, aby wycinały hałaśliwe dźwięki otoczenia z nagranej mowy, pozostawiając tylko słodki dźwięk czystego głosu. Profesor Ian McLoughlin, dyrektor klastra Infocomm Technology w SIT, wraz z zespołem opracował technologię, która z pomocą sztucznej inteligencji (AI) może dosłownie przebić się przez szum.
Problem konwencjonalnych technik poprawy jakości dźwięku
Technologia ta, znana jako głębokie odszumianie, tworzy modele głębokiego maszynowego uczenia się, które pozwalają identyfikować i śledzić dźwięki tła oraz mowy podczas rozmowy. System sztucznej inteligencji jest następnie szkolony w celu usuwania tych pierwszych i odszumiania przy jednoczesnym ulepszaniu tych drugich. Hałas zniekształca mowę. Jeśli wiesz, czym jest szum, możesz go usunąć za pomocą techniki przetwarzania sygnału sprzed 20 lat, bez sztucznej inteligencji. Problem pojawia się jednak, gdy hałas zmienia się w nieprzewidywalny sposób, na przykład przez odgłosy wiatru lub gdy w ogóle nie wiadomo, jakiego rodzaju dźwięku można się spodziewać. Sztuczna inteligencja jest bardzo dobra w identyfikowaniu i modelowaniu rzeczy, nawet tych, o których nigdy wcześniej nie słyszała.
Co może zdziałać sztuczna inteligencja w tym obszarze
Jeśli wytrenujesz sztuczną inteligencję do rozpoznawania 100 różnych dźwięków dzwonka, może ona modelować dźwięk prawie każdego możliwego dzwonka. Naukowcy z SIT trenują odszumiającą sztuczną inteligencję za pomocą tysięcy rodzajów mowy i hałasu. Badania zostały przeprowadzone we współpracy z singapurskim oddziałem tajwańskiej firmy elektroakustycznej i wspierane przez AI Singapore, krajowy program mający na celu zwiększenie możliwości w zakresie sztucznej inteligencji w tym kraju. W sumie zespół przeszkolił prawie sto frameworków sztucznej inteligencji, zanim dotarł do ostatecznej wersji. Kolejnym wyzwaniem było zapewnienie, że technologia będzie mogła działać na małym systemie wbudowanym, takim jak ten znajdujący się w przenośnym sprzęcie audio, i działać w czasie rzeczywistym bez zauważalnego opóźnienia między sygnałami wejściowym i wyjściowym. Obecnie prowadzone są rozmowy z partnerami branżowymi, aby przyjrzeć się, w jaki sposób technologia odszumiania oparta na sztucznej inteligencji SIT może zostać dopuszczona do wdrożenia.
Treść oryginalnego artykułu na ten temat dostępna pod adresem: LINK
Więcej informacji o rozwoju sztucznej inteligencji oraz jej zastosowaniach można znaleźć w Nawigatorze technologicznym: