Powrót do listy wiadomości Dodano: 2020-05-17  |  Ostatnia aktualizacja: 2020-05-17
Największy neuronowy model języka polskiego
fot. pixabay
fot. pixabay

W Laboratorium Inteligentnych Systemów Informatycznych Ośrodku Przetwarzania Informacji - Państwowym Instytucie Badawczym (OPI PIB) powstały dwa nowe modele statystyczne języka polskiego.

Polskie modele RoBERTa to reprezentacje języka naturalnego stworzone dzięki uczeniu maszynowemu. Osiągane przez nie wysokie odwzorowanie semantyki i składni możliwe jest poprzez wykorzystanie wielkich ilości danych. Ich udostępnienie przez OPI PIB pozwoli na budowę zaawansowanych systemów przetwarzania tekstów, np. do wykrywania w nich emocji.

Oba opisy statystyczne bazują na architekturze BERT opracowanej w ubiegłym roku przez Google. RoBERTa jest obecnie największym modelem wytrenowanym w Polsce – w oparciu o 130 gigabajtów danych odpowiadających 400 tysiącom książek. Mniejszy model Polish RoBERTa base bazuje na 20-gigabajtowym zbiorze.

Z modeli OPI PIB można korzystać w zależności od potrzeb i możliwości technicznych. Zostały z powodzeniem przetestowane w oparciu o Kompleksową Listę Ewaluacji Językowych (KLEJ benchmark) opracowaną przez Allegro.

(rr)

Kategoria wiadomości:

Nowinki techniczne

Źródło:
pap
urządzenia z xtech

Interesują Cię ciekawostki i informacje o wydarzeniach w branży?
Podaj swój adres e-mail a wyślemy Ci bezpłatny biuletyn.

Komentarze (0)

Możesz być pierwszą osobą, która skomentuje tę wiadomość. Wystarczy, że skorzystasz z formularza poniżej.

Wystąpiły błędy. Prosimy poprawić formularz i spróbować ponownie.
Twój komentarz :