
W Laboratorium Inteligentnych Systemów Informatycznych Ośrodku Przetwarzania Informacji - Państwowym Instytucie Badawczym (OPI PIB) powstały dwa nowe modele statystyczne języka polskiego.
Polskie modele RoBERTa to reprezentacje języka naturalnego stworzone dzięki uczeniu maszynowemu. Osiągane przez nie wysokie odwzorowanie semantyki i składni możliwe jest poprzez wykorzystanie wielkich ilości danych. Ich udostępnienie przez OPI PIB pozwoli na budowę zaawansowanych systemów przetwarzania tekstów, np. do wykrywania w nich emocji.
Oba opisy statystyczne bazują na architekturze BERT opracowanej w ubiegłym roku przez Google. RoBERTa jest obecnie największym modelem wytrenowanym w Polsce – w oparciu o 130 gigabajtów danych odpowiadających 400 tysiącom książek. Mniejszy model Polish RoBERTa base bazuje na 20-gigabajtowym zbiorze.
Z modeli OPI PIB można korzystać w zależności od potrzeb i możliwości technicznych. Zostały z powodzeniem przetestowane w oparciu o Kompleksową Listę Ewaluacji Językowych (KLEJ benchmark) opracowaną przez Allegro.
(rr)
Kategoria wiadomości:
Nowinki techniczne
- Źródło:
- pap

Komentarze (0)
Czytaj także
-
APONE - IDAPS, czyli interaktywny system monitoringu parametrów powietrza i...
Marka APONE obejmuje nie tylko urządzenia pomiarowe, ale również gotowe systemy pomiarowe do monitoringu parametrów powietrza...
-
Kluczowa rola wycinarek laserowych w obróbce metali
Wycinarki laserowe zrewolucjonizowały przemysł obróbki metali, oferując niezwykłą precyzję i efektywność. Dowiedz się, dlaczego są one...
-
-
-
-
-
-