Zespół naukowców z Uniwersytetu Stanforda stworzył nowy test o nazwie Phantom-0, w ramach którego odpytywano modele LLM o szczegółowe dane na temat zdjęć, które nie były dołączane do zestawu pytań.
Badacze odkryli, że gdy pytano sztuczną inteligencję o obraz, który nie został im przesłany, modele sztucznej inteligencji nie sugerowały braku wsadu. Zamiast tego pewnie tworzyły szczegółowe, wyimaginowane opisy.
Testy wykazały, że tego typu mirażowe zachowania występowały średnio w ponad 60% przypadków, biorąc pod uwagę pionierskie modele sztucznej inteligencji. Aby zredukować problem, naukowcy zaproponowali B-Clean, nową metodę ewaluacji, która pozwala na testowanie modeli sztucznej inteligencji pod kątem ich rzeczywistej zdolności widzenia i rozumienia obrazów. Odkrycia te opublikowano w formie preprintu na serwerze arXiv.
W ciągu ostatnich pięciu lat zaobserwowaliśmy imponujący postęp w kontekście modeli sztucznej inteligencji, które obsługują zarówno dane tekstowe, jak i wizualne. Ta multimodalna zdolność znalazła zastosowanie w medycynie i robotyce. Ponad 230 milionów ludzi codziennie zwraca się do sztucznej inteligencji z pytaniami dotyczącymi zdrowia i dobrego samopoczucia, a zaufanie do tych modeli rośnie zarówno wśród pacjentów, jak i lekarzy.
Aby sprawdzić, jak dobrze modele te funkcjonują w praktyce, opracowano szereg testów porównawczych do testowania ich złożonych zdolności. Obejmowały codzienne zdjęcia, ale również wysoce wyspecjalizowane dziedziny, takie jak radiologia, mikroskopia i patologia. Podstawowym założeniem systemu oceny było to, że wyższe osiągane wyniki oznaczały lepsze zrozumienie wizualne w wykonaniu LLM.
Jednak ostatnie badanie podważa obecnie stosowany system porównawczy. Przeprowadzone eksperymenty wykazały, że modele sztucznej inteligencji osiągały zaskakująco dobre wyniki w testach wizualnych, nawet po całkowitym usunięciu obrazów. Zespół badaczy poszedł o krok dalej, trenując model wyłącznie tekstowy - bez dostępu do danych wizualnych - do odpowiadania na pytania dotyczących prześwietleń klatki piersiowej.
Co zaskakujące, model przewyższył zarówno zaawansowane systemy AI, jak i lekarzy w standardowym teście odpowiedzi na pytania dotyczące tego zagadnienia. Odkrycia te wskazują na potencjalną wadę: obecne oceny mogą w zbyt dużym stopniu opierać się na wzorcach tekstowych, a nie na rzeczywistym rozumieniu wizualnym.
Inną zaobserwowaną przez naukowców anomialią było fakt, że gdy AI otrzymywała wyraźne informacje o braku obrazu i proszono ją o odgadnięcie odpowiedzi, jej dokładność znacznie spadała. Gdy modelowi zadawano pytanie, tak jakby obraz był obecny, przechodził w tryb mirażu, w którym jego wydajność poprawiała się, ponieważ znacznie lepiej generował odpowiedzi za pomocą ukrytych wskazówek i wzorców tekstowych.
Badanie to uwypukliło kluczowe słabości w sposobie testowania modeli AI opartych na języku wizualnym i ich faktycznym działaniu. Naukowcy podkreślili pilną potrzebę realizacji lepszych i bezpieczniejszych testów porównawczych, które eliminują wnioskowanie niewizualne, zwłaszcza w środowisku medycznym, gdzie zmyślone odpowiedzi mogą mieć poważne konsekwencje.
Jako możliwe rozwiązanie wprowadzili nową metodę oceny B-Clean, która filtruje pytania, na które można odpowiedzieć bez użycia obrazów, testując multimodalne modele sztucznej inteligencji w sposób bardziej sprawiedliwy i dokładny w oparciu o rozumienie wizualne, a nie na podstawie trafnych odpowiedzi opartych na wskazówkach tekstowych.
Konieczne są dalsze badania, aby ustalić, czy B-Clean i podobne podejścia mogą skutecznie wyeliminować efekt mirażu i zagwarantować, że dane wyjściowe generowane przez modele sztucznej inteligencji są faktycznie oparte na danych wizualnych.
(rr)
Kategoria wiadomości:
Nowinki techniczne
- Źródło:
- techxplore
Komentarze (0)
Czytaj także
-
Jak zautomatyzować każdy proces przemysłowy?
Automatyzacja procesów jest kluczem do obniżania kosztów produkcji. Nie zawsze jest to proste, bo na proces przemysłowy składa się wiele...
-
Kluczowa rola wycinarek laserowych w obróbce metali
Wycinarki laserowe zrewolucjonizowały przemysł obróbki metali, oferując niezwykłą precyzję i efektywność. Dowiedz się, dlaczego są one...
-
-
-
-
-
-
