Największy neuronowy model języka polskiego

Powrót do listy wiadomości Dodano: 2020-05-17 | Ostatnia aktualizacja: 2020-05-17

W Laboratorium Inteligentnych Systemów Informatycznych Ośrodku Przetwarzania Informacji - Państwowym Instytucie Badawczym (OPI PIB) powstały dwa nowe modele statystyczne języka polskiego.

Polskie modele RoBERTa to reprezentacje języka naturalnego stworzone dzięki uczeniu maszynowemu. Osiągane przez nie wysokie odwzorowanie semantyki i składni możliwe jest poprzez wykorzystanie wielkich ilości danych. Ich udostępnienie przez OPI PIB pozwoli na budowę zaawansowanych systemów przetwarzania tekstów, np. do wykrywania w nich emocji.

Oba opisy statystyczne bazują na architekturze BERT opracowanej w ubiegłym roku przez Google. RoBERTa jest obecnie największym modelem wytrenowanym w Polsce – w oparciu o 130 gigabajtów danych odpowiadających 400 tysiącom książek. Mniejszy model Polish RoBERTa base bazuje na 20-gigabajtowym zbiorze.

Z modeli OPI PIB można korzystać w zależności od potrzeb i możliwości technicznych. Zostały z powodzeniem przetestowane w oparciu o Kompleksową Listę Ewaluacji Językowych (KLEJ benchmark) opracowaną przez Allegro.

(rr)

Kategoria wiadomości:

Nowinki techniczne

Źródło:: pap

Komentarze (0)

Możesz być pierwszą osobą, która skomentuje tę wiadomość. Wystarczy, że skorzystasz z formularza poniżej.

Uwaga! Aby dodać komentarz, konieczna jest obsługa JavaScript w Twojej przeglądarce. Jeśli - mimo włączenia jej - nadal nie możesz dodać komentarza, prosimy o kontakt pod adresem: biuro@xtech.pl