पिछले दो दशकों में ह्यूमनॉइड रोबोट का विकास धीमी गति से हुआ है, लेकिन हाल ही में हमने इस क्षेत्र में अधिक से अधिक प्रगति देखी है। जैसा कि हमने हाल ही में लिखा था, MWC 2024 में एक AI रोबोट प्रस्तुत किया गया था अमेका, और एक अन्य विकास, यूनिट्री H1, ह्यूमनॉइड रोबोटों के बीच गति रिकॉर्ड तोड़ दिया। और अब फिगर एआई और ओपनएआई कंपनियों के बीच सहयोग का एक शानदार परिणाम इंटरनेट पर सामने आया है - एक ह्यूमनॉइड रोबोट का एक आश्चर्यजनक वीडियो जो अब लोगों के साथ बातचीत कर सकता है।
स्टार्टअप फिगर एआई ने एक वीडियो जारी किया जिसमें फिगर 01 रोबोट को नए विज़ुअल लैंग्वेज मॉडल (वीएलएम) के साथ काम करते हुए दिखाया गया है। इसमें चित्र 01 एक मेज पर खड़ा है जिस पर एक प्लेट, एक सेब और एक कप है। बायीं ओर एक ड्रायर है. और एक व्यक्ति के सवाल पर कि रोबोट उसके सामने क्या देखता है, वह मेज पर पड़ी हर चीज का विस्तार से वर्णन करके उत्तर देता है।
और फिर आदमी पूछता है कि क्या वह कुछ खा सकता है, और रोबोट जवाब देता है: "बेशक", और फिर चतुराई से सहज गति के साथ वह सेब लेता है और आदमी को सौंप देता है। उसके बाद एक और आश्चर्यजनक प्रदर्शन आता है - एक आदमी चित्र 01 के सामने एक टोकरी से टूटा हुआ कचरा डालता है और रोबोट से यह बताने के लिए कहता है कि उसने ऐसा क्यों किया, और साथ ही टोकरी में कचरा इकट्ठा करता है। और वह कागज को वापस कूड़ेदान में डालते समय अपना "विचार" बताता है। रोबोट ने कहा, "तो मैंने तुम्हें एक सेब दिया क्योंकि यह एकमात्र खाद्य वस्तु है जो मैं तुम्हें मेज से दे सकता था।"
कंपनी के प्रतिनिधियों ने बताया कि चित्र 01 एक पूर्व-प्रशिक्षित मल्टीमॉडल मॉडल का उपयोग करता है OpenAI, वीएलएम, छवियों और पाठों को समझने के लिए, और अपनी प्रतिक्रियाएँ उत्पन्न करने के लिए ध्वनि संकेतों पर निर्भर करता है। मान लीजिए, यह OpenAI के GPT-4 से भिन्न है, जो लिखित संकेतों पर केंद्रित है।
यह उस चीज़ का भी उपयोग करता है जिसे कंपनी "सीखे गए निम्न-स्तरीय द्वि-मैनुअल जोड़-तोड़" कहती है। सिस्टम गति नियंत्रण के लिए अपने तंत्रिका नेटवर्क के साथ सटीक छवि अंशांकन (पिक्सेल स्तर तक) का समन्वय करता है। फिगर एआई ने एक बयान में कहा, "ये नेटवर्क 10 हर्ट्ज पर छवियां प्राप्त करते हैं और 24 हर्ट्ज पर 200-डीओएफ क्रियाएं (कलाई मुद्रा और उंगलियों के जोड़ कोण) उत्पन्न करते हैं।"
कंपनी का दावा है कि वीडियो में प्रत्येक व्यवहार सिस्टम लर्निंग पर आधारित है, इसलिए पर्दे के पीछे से कोई भी व्यक्ति चित्र 01 का उल्लंघन नहीं कर रहा है। बेशक, एक बारीकियां है - यह ज्ञात नहीं है कि रोबोट कितनी बार इस प्रक्रिया से गुजरा। शायद यह सौवीं बार था, जो उनकी सटीक गतिविधियों को स्पष्ट करता है। लेकिन किसी भी मामले में, यह उपलब्धि शानदार और थोड़ी शानदार लगती है।
चित्र 01 अब वास्तविक दुनिया के कार्यों को पूरा कर रहा है
सब कुछ स्वायत्त है:
-स्वायत्त नेविगेशन और बल-आधारित हेरफेर
- बिन का पता लगाने और प्राथमिकता देने के लिए सीखा हुआ विज़न मॉडल
-प्रतिक्रियाशील बिन हेरफेर (भिन्नता उत्पन्न करने के लिए मजबूत)
- अन्य चयन/स्थान कार्यों के लिए सामान्यीकरण pic।twitter.com/0wFmYnq0GC- फिगर (@फिगर_रोबोट) फ़रवरी 26, 2024
यह भी पढ़ें: