Nowe prace wyjaśniające wewnętrzne mechanizmy sztucznej inteligencji mogą pomóc w uniknięciu zagrożenia załamania się modelu AI, potencjalnie zapobiegając w przyszłości rosnącej liczbie halucynacji AI.
Po raz pierwszy określenie załamania się modelu zostało użyte w 2024 roku i odnosi się do scenariusza, w którym model AI trenowany na danych wygenerowanych przestaje dostarczać dokładne wyniki, a zamiast tego przedstawia niedokładny ciąg informacji z powodu niskiej jakości danych treningowych.
Niektórzy badacze ostrzegają, że wysokiej jakości dane tekstowe dedykowane do trenowania systemów LLM wyczerpią się już w tym roku, a zatem te tworzone przez same modele odgrywają coraz większą rolę w treningu, co zwiększa ryzyko załamania się modeli.
Analizując prosty, ale skuteczny zestaw modeli statystycznych zwanych rodzinami wykładniczymi, zespół naukowców z King's College London, Norweskiego Uniwersytetu Nauki i Technologii oraz Międzynarodowego Centrum Fizyki Teoretycznej im. Abdusa Salama odkrył, że wystarczy zaledwie jeden punkt danych ze świata zewnętrznego zintegrowany z procesem szkolenia, aby zapobiec temu zjawisku we wszystkich badanych przypadkach.
Choć znacznie prostsze niż modele LLM, modele rodzin wykładniczych należą do najpotężniejszych modeli wykorzystywanych do modelowania danych. Zespół ma nadzieję, że rzucając światło na uczenie się w pętli zamkniętej w tak prostym, a zarazem skutecznym środowisku, uda im się ustalić zasady, które potencjalnie pozwolą uniknąć kolizji modeli w częściej stosowanych LLM.
Badanie opublikowane w Physical Review Letters przedstawia to, w jaki sposób standardowe trenowanie rodzin wykładniczych w scenariuszu pętli zamkniętej zawsze prowadzi do załamania się modelu. Praca pokazuje jednak, że wprowadzenie pojedynczego punktu danych spoza pętli zamkniętej lub uwzględnienie podczas treningu wcześniejszego przekonania, np. pochodzącego z pakietu wiedzy zdobytej wcześniej, zapobiega załamaniu się modelu. Co zaskakujące, efekt ten występuje nawet wtedy, gdy liczba punktów danych generowanych przez maszyny jest nieskończenie większa.
Autorzy dostarczają również dowodów na to, że podobne zjawisko obserwuje się w innej klasie modeli, tj. ograniczonych maszynach Boltzmanna, co sugeruje, że ich wyniki prawdopodobnie nie ograniczają się wyłącznie do rodzin wykładniczych. W przyszłości grupa ma nadzieję przetestować nowe zasady na większych i bardziej złożonych modelach, takich jak sieci neuronowe.
(rr)
Kategoria wiadomości:
Nowinki techniczne
- Źródło:
- techxplore
Komentarze (0)
Czytaj także
-
Jak systemy wizyjne AI wykrywają nieprawidłowości, których człowiek nie zauważa?
Najdroższe błędy w produkcji bardzo rzadko wyglądają jak oczywiste błędy. Części wyglądają poprawnie. Etykieta jest na miejscu. Produkt...
-
Kluczowa rola wycinarek laserowych w obróbce metali
Wycinarki laserowe zrewolucjonizowały przemysł obróbki metali, oferując niezwykłą precyzję i efektywność. Dowiedz się, dlaczego są one...
-
-
-
-
-