Miraże AI

Powrót do listy wiadomości Dodano: 2026-04-18 | Ostatnia aktualizacja: 2026-04-18

Miraże AI

Zespół naukowców z Uniwersytetu Stanforda stworzył nowy test o nazwie Phantom-0, w ramach którego odpytywano modele LLM o szczegółowe dane na temat zdjęć, które nie były dołączane do zestawu pytań.

Badacze odkryli, że gdy pytano sztuczną inteligencję o obraz, który nie został im przesłany, modele sztucznej inteligencji nie sugerowały braku wsadu. Zamiast tego pewnie tworzyły szczegółowe, wyimaginowane opisy.

Testy wykazały, że tego typu mirażowe zachowania występowały średnio w ponad 60% przypadków, biorąc pod uwagę pionierskie modele sztucznej inteligencji. Aby zredukować problem, naukowcy zaproponowali B-Clean, nową metodę ewaluacji, która pozwala na testowanie modeli sztucznej inteligencji pod kątem ich rzeczywistej zdolności widzenia i rozumienia obrazów. Odkrycia te opublikowano w formie preprintu na serwerze arXiv.

W ciągu ostatnich pięciu lat zaobserwowaliśmy imponujący postęp w kontekście modeli sztucznej inteligencji, które obsługują zarówno dane tekstowe, jak i wizualne. Ta multimodalna zdolność znalazła zastosowanie w medycynie i robotyce. Ponad 230 milionów ludzi codziennie zwraca się do sztucznej inteligencji z pytaniami dotyczącymi zdrowia i dobrego samopoczucia, a zaufanie do tych modeli rośnie zarówno wśród pacjentów, jak i lekarzy.

Aby sprawdzić, jak dobrze modele te funkcjonują w praktyce, opracowano szereg testów porównawczych do testowania ich złożonych zdolności. Obejmowały codzienne zdjęcia, ale również wysoce wyspecjalizowane dziedziny, takie jak radiologia, mikroskopia i patologia. Podstawowym założeniem systemu oceny było to, że wyższe osiągane wyniki oznaczały lepsze zrozumienie wizualne w wykonaniu LLM.

Jednak ostatnie badanie podważa obecnie stosowany system porównawczy. Przeprowadzone eksperymenty wykazały, że modele sztucznej inteligencji osiągały zaskakująco dobre wyniki w testach wizualnych, nawet po całkowitym usunięciu obrazów. Zespół badaczy poszedł o krok dalej, trenując model wyłącznie tekstowy - bez dostępu do danych wizualnych - do odpowiadania na pytania dotyczących prześwietleń klatki piersiowej.

Co zaskakujące, model przewyższył zarówno zaawansowane systemy AI, jak i lekarzy w standardowym teście odpowiedzi na pytania dotyczące tego zagadnienia. Odkrycia te wskazują na potencjalną wadę: obecne oceny mogą w zbyt dużym stopniu opierać się na wzorcach tekstowych, a nie na rzeczywistym rozumieniu wizualnym.

Inną zaobserwowaną przez naukowców anomialią było fakt, że gdy AI otrzymywała wyraźne informacje o braku obrazu i proszono ją o odgadnięcie odpowiedzi, jej dokładność znacznie spadała. Gdy modelowi zadawano pytanie, tak jakby obraz był obecny, przechodził w tryb mirażu, w którym jego wydajność poprawiała się, ponieważ znacznie lepiej generował odpowiedzi za pomocą ukrytych wskazówek i wzorców tekstowych.

Badanie to uwypukliło kluczowe słabości w sposobie testowania modeli AI opartych na języku wizualnym i ich faktycznym działaniu. Naukowcy podkreślili pilną potrzebę realizacji lepszych i bezpieczniejszych testów porównawczych, które eliminują wnioskowanie niewizualne, zwłaszcza w środowisku medycznym, gdzie zmyślone odpowiedzi mogą mieć poważne konsekwencje.

Jako możliwe rozwiązanie wprowadzili nową metodę oceny B-Clean, która filtruje pytania, na które można odpowiedzieć bez użycia obrazów, testując multimodalne modele sztucznej inteligencji w sposób bardziej sprawiedliwy i dokładny w oparciu o rozumienie wizualne, a nie na podstawie trafnych odpowiedzi opartych na wskazówkach tekstowych.

Konieczne są dalsze badania, aby ustalić, czy B-Clean i podobne podejścia mogą skutecznie wyeliminować efekt mirażu i zagwarantować, że dane wyjściowe generowane przez modele sztucznej inteligencji są faktycznie oparte na danych wizualnych.

(rr)

Kategoria wiadomości:

Nowinki techniczne

Źródło:: techxplore

Komentarze (0)

Możesz być pierwszą osobą, która skomentuje tę wiadomość. Wystarczy, że skorzystasz z formularza poniżej.

Uwaga! Aby dodać komentarz, konieczna jest obsługa JavaScript w Twojej przeglądarce. Jeśli - mimo włączenia jej - nadal nie możesz dodać komentarza, prosimy o kontakt pod adresem: biuro@xtech.pl