Big data po polsku

  • W ramach projektu CLARIN-PL-Biz polskie uczelnie przygotują oprogramowanie do przetwarzania dużych zbiorów danych w języku polskim.
  • Naukowcy opracują też narzędzia do maszynowego tłumaczenia dokumentów z języka angielskiego.
  • Przedsiębiorcy korzystający z platformy będą mogli łatwo wyszukiwać i pobierać informacje ze zbiorów big data.

Platforma zajmująca się tłumaczeniem języków naturalnych i przetwarzaniem dużych danych językowych przy pomocy sztucznej inteligencji powstanie w wyniku prac polskiego konsorcjum CLARIN-PL zrzeszającego sześć jednostek naukowych. Liderem CLARIN-PL jest Politechnika Wrocławska, a samo konsorcjum to część Europejskiej Infrastruktury Badawczej CLARIN (Common Language Resources and Technology Infrastructure). Uczelnie opracowują elektroniczne dokumenty i narzędzia umożliwiające pracę na dużych zbiorach tekstów pisanych w języku polskim. Platforma, częściowo finansowana przez Unię Europejską w ramach programu Inteligentny Rozwój, będzie gotowa w 2023 roku.

Tłumaczenia dużych zbiorów tekstów

Dodatkowo naukowcy przygotują system, który zbierze odpowiednie dane i doda do nich algorytmy odzwierciedlające zasady języka polskiego i innych języków słowiańskich. Zgromadzone informacje zostaną połączone z dostępnymi w internecie tekstami angielskimi i w ten sposób oprogramowanie przetłumaczy duże zbiory danych automatycznie na język polski. Z wyników prac systemu skorzystają firmy, które będą mogły pracować na danych wcześniej dla nich niedostępnych. O jakość przekładu zadbają zatrudnieni w projekcie programiści, lingwiści i specjaliści ds. przetwarzania języka.

Analiza różnych środków przekazu

Konsorcjum opracuje też narzędzia do eksploracji wielkich zbiorów danych tekstowych oraz takich, które wykorzystują kilka środków przekazu jednocześnie (np. mowę i tekst). Dzięki temu polskie przedsiębiorstwa będą mogły pobierać informacje z materiałów audiowizualnych, aplikacji, stron internetowych czy mediów społecznościowych dostępnych w języku angielskim. Autorzy projektu planują prosty w obsłudze interfejs użytkownika.