Big data po polsku

  • W ramach projektu CLARIN-PL-Biz polskie uczelnie przygotują oprogramowanie do przetwarzania dużych zbiorów danych w języku polskim.
  • Naukowcy opracują też narzędzia do maszynowego tłumaczenia dokumentów z języka angielskiego.
  • Przedsiębiorcy korzystający z platformy będą mogli łatwo wyszukiwać i pobierać informacje ze zbiorów big data.

Platforma zajmująca się tłumaczeniem języków naturalnych i przetwarzaniem dużych danych językowych przy pomocy sztucznej inteligencji powstanie w wyniku prac polskiego konsorcjum CLARIN-PL zrzeszającego sześć jednostek naukowych. Liderem CLARIN-PL jest Politechnika Wrocławska, a samo konsorcjum to część Europejskiej Infrastruktury Badawczej CLARIN (Common Language Resources and Technology Infrastructure). Uczelnie opracowują elektroniczne dokumenty i narzędzia umożliwiające pracę na dużych zbiorach tekstów pisanych w języku polskim. Platforma, częściowo finansowana przez Unię Europejską w ramach programu Inteligentny Rozwój, będzie gotowa w 2023 roku.

(graf. Getty Images)

Tłumaczenia dużych zbiorów tekstów

Dodatkowo naukowcy przygotują system, który zbierze odpowiednie dane i doda do nich algorytmy odzwierciedlające zasady języka polskiego i innych języków słowiańskich. Zgromadzone informacje zostaną połączone z dostępnymi w internecie tekstami angielskimi i w ten sposób oprogramowanie przetłumaczy duże zbiory danych automatycznie na język polski. Z wyników prac systemu skorzystają firmy, które będą mogły pracować na danych wcześniej dla nich niedostępnych. O jakość przekładu zadbają zatrudnieni w projekcie programiści, lingwiści i specjaliści ds. przetwarzania języka.

(graf. Getty Images)

Analiza różnych środków przekazu

Konsorcjum opracuje też narzędzia do eksploracji wielkich zbiorów danych tekstowych oraz takich, które wykorzystują kilka środków przekazu jednocześnie (np. mowę i tekst). Dzięki temu polskie przedsiębiorstwa będą mogły pobierać informacje z materiałów audiowizualnych, aplikacji, stron internetowych czy mediów społecznościowych dostępnych w języku angielskim. Autorzy projektu planują prosty w obsłudze interfejs użytkownika.