Digitália

2024.03.19. 06:00

Megmutatjuk, miért élünk sorsfordító időket az ember-robot történelemben

Akadnak pillanatok a technikatörténetben is, mikor dobpergésnek kellene felhangoznia.

MW

Forrás: Figure AI

Minap valami egészen új, történetformáló esemény történt, ami megelőlegezheti a következő éveket, egyesek szerint évtizedeket.

Évek óta zajlik a fejlett humanoid robotok fejlesztése. Működik a Boston Dynamics atlétikai képességű Atlas robotja, a kissé roggyant mozgású Tesla, lehet csevegni a rejtélyes Sophiával és Amecával. Most pedig itt van Figure 01-es robot, amelyik kifinomult mozgásokra és beszédre egyaránt képes: tanul, értelmez és társalog.

A humanoidot az a Figure AI hozta össze, melynek fejlesztéseit Jeff Bezos, az OpenAI (a ChatGPT megalkotója) és az Nvidia finanszírozza. Olyan robot, amely bármelyik sci-fiben otthonosan nézne ki – csak immáron nem trükkfelvétel, hanem maga a valóság.

Március 9-én a Figure AI startup robotikai cég közzétette az alább látható rövid videót a Figure 01 robotjáról. A humanoid új Visual Language Model (VLM) modellt futtat, ami teljesen új minőségre emelte versenytársai közül. Megközelíti a Csillagok háborúja C-3PO-jának képességeit.

Lássuk, mi történt! A videóban Figure 01 egy asztal mögött áll, amin tányér, alma, csésze, edénytároló látható. Egy ember áll a robot elé, és megkérdezi tőle: „Figure 01, mit látsz most?”

Figure 01 kissé szokatlan, de emberi hangon válaszol. Nincsenek arcvonásai, csak animált fény mozog a homlokán, szinkronban a hangjával.

Megválaszolja, mi van az asztalon és megemlíti a pultra támaszkodó férfit is.

(Magyarul: feldolgozza, hogy mit lát, érti a beszédet és korrekt válaszokat ad élő szóban.)

Ekkor megkérdezik tőle: „Kaphatok valamit enni?”

A 01-es válasza „persze”, majd ügyes mozdulattal felemeli az almát, és átadja.

A férfi kiönt némi papírhulladékot az asztalra egy szemetesből és közben felteszi a kérdést: „Meg tudná magyarázni, miért tette azt, amit az imént tett, s közben visszarakja a szemetet?”

A robot rendet csinál és ezalatt válaszol is: „Szóval, neked adtam az almát, mert ez az egyetlen ehető tárgy, ami az asztalon elérhető”. Azután kérésre a tálcára pakol. Látszólag teljesen hétköznapi események zajlanak.

Mi történt?

A Figure AI vállalat közleményében kifejtette, hogy a Figure 01 speech-to-speech, azaz beszédről-beszédre gondolkodásra képes az OpenAI multimodális modellje, a VLM segítségével. Ez a hétköznapi fogalmazásban azt jelenti, hogy míg az eddigi ChatGPT-k írásbeli kérdésekre (promptokra) tudtak csak válaszolni, a Figure 01 megérti-feldolgozza a látványt, a beszédet és fizikai cselekvéssel, valamint értelmes beszéddel képes reagálni.

A gyártó ezt „tanult alacsony szintű bimanuális manipulációnak” nevezi. A rendszer a képeket pixelszintig(!) feldolgozza neurális hálózatával. „Ezek a hálózatok 10 Hz-en veszik fel a képeket, és 200 Hz-en 24-DOF műveleteket (csuklópózokat és ujjízületi szögeket) generálnak” – írja a Figure AI közleménye.

Azt állítják, hogy a videóban látható összes mozzanat a rendszer öntanulásán alapul, nincs semmilyen trükk, távműködtetés, senki sem bábozott titokban a színfalak mögött.

Ha ez mind igaz, akkor hűha.

Hírlevél feliratkozás
Ne maradjon le a szon.hu legfontosabb híreiről! Adja meg a nevét és az e-mail-címét, és mi naponta elküldjük Önnek a legfontosabb híreinket!