Fizyczne systemy sztucznej inteligencji wykorzystują algorytmy uczenia maszynowego do wykrywania otoczenia, planowania działań, a następnie ich wykonywania. Kluczowym aspektem ich funkcjonowania są moduły percepcji wzrokowej, które pozwalają analizować obrazy rejestrowane przez kamery, a następnie je interpretować.
Większość istniejących modułów percepcji wzrokowej opiera się na kamerach RGB-D, urządzeniach rejestrujących zarówno obrazy kolorowe (RGB), jak i informacje związane z głębią (D). W większości przypadków kamery te są jednak przymocowane do robota i pozostają nieruchome, co ogranicza możliwość wykrywania zmian w dynamicznych i złożonych środowiskach.
Naukowcy z Uniwersytetu Jiao Tong w Szanghaju, Chińskiej Akademii Nauk i Uniwersytetu Technologicznego w Dalian opracowali niedawno nowy system robotyczny inspirowany ludzkimi gałkami ocznymi, który może się obracać i powiększać obraz, aby uzyskiwać bardziej wyraźne obrazy obiektów bez potrzeby stosowania dodatkowych czujników lub droższych kamer. Ta zrobotyzowana gałka oczna o nazwie EyeVLA została zaprezentowana w artykule opublikowanym na serwerze preprintów arXiv.
W przeciwieństwie do wielu innych robotycznych systemów percepcji wzrokowej wprowadzonych w przeszłości, system przypominający gałkę oczną stworzony przez badaczy może się obracać i powiększać obraz, aby wyraźniej uchwycić określone elementy otoczenia. Ponadto tworzący go zespół opracował modele uczenia maszynowego, które pozwalają sztucznej gałce ocznej przetwarzać instrukcje użytkowników i odpowiednio zmieniać punkt widzenia.
Opracowane przez nich modele, trenowane metodą uczenia przez wzmacnianie, przekształcają ruchy kamery w tokeny akcji, planując jej przyszłe działania w sposób podobny do tego, w jaki modele LLM przewidują słowa lub obrazy. Umieszczają również dwuwymiarowe pola wokół obiektów, aby nakierować system na określone obszary zainteresowania.
Naukowcy przetestowali swój system w serii eksperymentów w pomieszczeniach, gdzie ocenili jego zdolność do pozyskiwania wyraźniejszych obrazów i ich dokładnej interpretacji. Stwierdzili, że system działał niezwykle dobrze bez konieczności korzystania z bardzo drogich czujników i kamer.
W przyszłości będzie mógł zostać udoskonalony i przetestowany w szerszym zakresie dynamicznych środowisk. Docelowo zostanie zintegrowany z innymi komponentami robotycznymi i wdrożony w rzeczywistych warunkach. EyeVLA może ostatecznie zwiększyć wydajność robotów w szerokim zakresie zastosowań - od inspekcji infrastruktury, magazynów czy przestrzeni publicznych po monitorowanie środowiska naturalnego i efektywne wykonywanie prac w gospodarstwach domowych.
(rr)
Kategoria wiadomości:
Nowinki techniczne
- Źródło:
- techxplore
Komentarze (0)
Czytaj także
-
Nowoczesna ścieżka edukacyjna w BCU przy Lotniczych Zakładaach Naukowych
Firma Bosch Rexroth, uznawana za lidera w dziedzinie technologii napędów i systemów sterowania, podjęła się ambitnego zadania - kompleksowo...
-
Kluczowa rola wycinarek laserowych w obróbce metali
Wycinarki laserowe zrewolucjonizowały przemysł obróbki metali, oferując niezwykłą precyzję i efektywność. Dowiedz się, dlaczego są one...
-
-
-
-
-
