मेटा का इमेजबाइंड एआई मानवीय धारणा की नकल कर सकता है

मेटा नाम के तहत ओपन एक्सेस आर्टिफिशियल इंटेलिजेंस में कोड प्रकाशित करता है इमेजबाइंड, जो लोगों द्वारा अपने परिवेश को देखने या उसकी कल्पना करने के तरीके के समान डेटा के बीच संबंधों की भविष्यवाणी करता है। जबकि मिडजर्नी, स्टेबल डिफ्यूजन, और डीएएल-ई 2 जैसे छवि जनरेटर शब्दों को छवियों से जोड़ते हैं, जिससे आप केवल एक पाठ्य विवरण के आधार पर दृश्य दृश्य बना सकते हैं, इमेजबाइंड इससे आगे जाता है। यह पाठ, चित्र या वीडियो, ऑडियो, 3डी मापन, तापमान डेटा और गति डेटा को लिंक कर सकता है - और ऐसा हर अवसर पर पूर्व-प्रशिक्षण की आवश्यकता के बिना करता है। यह एक ढांचे का प्रारंभिक चरण है जो अंततः सरल इनपुट जैसे पाठ संकेत, छवि, या ऑडियो (या इसके संयोजन) से जटिल वातावरण उत्पन्न करने में सक्षम होगा।

मेटावर्स प्रोजेक्ट

आप ImageBind को मशीन लर्निंग और ह्यूमन लर्निंग के सन्निकटन के रूप में सोच सकते हैं। उदाहरण के लिए, यदि आप एक गतिशील वातावरण में खड़े हैं, जैसे कि एक व्यस्त शहर की सड़क, तो आपका मस्तिष्क (ज्यादातर अनजाने में) कारों, ऊंची इमारतों, मौसम, और बहुत कुछ के बारे में जानकारी प्राप्त करने के लिए स्थलों, ध्वनियों और अन्य संवेदी संवेदनाओं को अवशोषित करता है। . मनुष्य और अन्य जानवर हमारे आनुवंशिक लाभों के लिए इस डेटा को संसाधित करने के लिए विकसित हुए हैं: अस्तित्व और हमारे डीएनए पर गुजरना। (जितना अधिक आप अपने परिवेश के बारे में जानते हैं, उतना ही अधिक आप खतरे से बच सकते हैं और बेहतर जीवित रहने और पनपने के लिए अपने पर्यावरण के अनुकूल हो सकते हैं)। जैसे-जैसे कंप्यूटर जानवरों के मल्टीसेंसरी कनेक्शन की नकल करने के करीब आते हैं, वे डेटा के केवल सीमित टुकड़ों के आधार पर पूरी तरह से महसूस किए गए दृश्यों को उत्पन्न करने के लिए उन कनेक्शनों का उपयोग कर सकते हैं।

इसलिए जब आप मिडजर्नी का उपयोग "समुद्र तट की गेंद पर गैंडालफ कॉस्ट्यूम बैलेंसिंग में एक बासट हाउंड" बनाने के लिए कर सकते हैं और उस अजीब दृश्य की अपेक्षाकृत यथार्थवादी तस्वीर प्राप्त कर सकते हैं, तो ImageBind जैसा एक मल्टीमॉडल AI उपकरण प्रासंगिक के साथ कुत्ते के साथ एक वीडियो बना सकता है। ध्वनियाँ, जिसमें एक विस्तृत बैठक कक्ष, कमरे का तापमान और कुत्ते का सटीक स्थान और दृश्य में बाकी सभी शामिल हैं। मेटा शोधकर्ता अपने डेवलपर उन्मुख ब्लॉग में नोट करते हैं, "यह ऑडियो संकेतों के साथ संयोजन करके स्थिर छवियों से एनिमेशन बनाने का एक उत्कृष्ट अवसर बनाता है।" "उदाहरण के लिए, एक निर्माता एक अलार्म घड़ी और एक कौवा मुर्गा के साथ एक छवि को जोड़ सकता है और घड़ी को खंडित करने के लिए रोस्टर या अलार्म घड़ी की ध्वनि को खंडित करने के लिए एक ऑडियो क्यू का उपयोग कर सकता है और वीडियो अनुक्रम में दोनों को चेतन कर सकता है।"

मेटा

इस नए खिलौने के साथ और क्या किया जा सकता है, यह स्पष्ट रूप से मेटा की मुख्य महत्वाकांक्षाओं में से एक को इंगित करता है: वीआर, मिश्रित वास्तविकता और मेटास्पेस। उदाहरण के लिए, एक भविष्य के हेडसेट की कल्पना करें जो मक्खी पर पूरी तरह से महसूस किए गए 3D दृश्यों (ध्वनि, गति, आदि के साथ) का निर्माण कर सकता है। या वर्चुअल गेम डेवलपर्स अंततः इसका उपयोग डिजाइन प्रक्रिया में श्रमसाध्य कार्य के एक महत्वपूर्ण हिस्से को बचाने के लिए कर सकते हैं। इसी तरह, सामग्री निर्माता केवल पाठ, छवियों या ऑडियो के आधार पर यथार्थवादी साउंडट्रैक और गति के साथ इमर्सिव वीडियो बना सकते हैं। यह कल्पना करना भी आसान है कि कैसे ImageBind जैसे उपकरण दृश्य या श्रवण हानि वाले लोगों को अपने पर्यावरण को बेहतर ढंग से समझने में सहायता करने के लिए रीयल-टाइम मल्टीमीडिया विवरण उत्पन्न करके पहुंच में नए दरवाजे खोलते हैं।

यह भी दिलचस्प: आर्टिफिशियल इंटेलिजेंस पर आधारित सर्वोत्तम उपकरण

मेटा कहते हैं, "विशिष्ट एआई सिस्टम में, प्रत्येक प्रासंगिक साधन के लिए एक विशिष्ट एम्बेडिंग (यानी, संख्याओं के वैक्टर जो मशीन सीखने में डेटा और उनके संबंधों का प्रतिनिधित्व कर सकते हैं) हैं।" "इमेजबाइंड से पता चलता है कि तौर-तरीकों के प्रत्येक व्यक्तिगत संयोजन के साथ डेटा पर प्रशिक्षित किए बिना कई तौर-तरीकों के लिए एक सामान्य एम्बेडिंग स्थान बनाना संभव है। यह महत्वपूर्ण है क्योंकि शोधकर्ता नमूने के साथ डेटासेट नहीं बना सकते हैं, उदाहरण के लिए, एक व्यस्त शहर की सड़क से ऑडियो डेटा और थर्मल डेटा, या गहराई डेटा और समुंदर के किनारे की चट्टान का एक पाठ्य विवरण।

मेटा का मानना है कि यह तकनीक अंततः मौजूदा छह "इंद्रियों" से परे जाएगी, इसलिए बोलने के लिए। "हालांकि हमने अपने वर्तमान अध्ययन में छह तौर-तरीकों की जांच की, हम मानते हैं कि नए तौर-तरीकों को पेश करना जो अधिक से अधिक इंद्रियों को जोड़ते हैं - जैसे कि स्पर्श, भाषण, गंध और fMRI मस्तिष्क संकेत - समृद्ध मानव-केंद्रित AI मॉडल की अनुमति देंगे।" इस नए सैंडबॉक्स की खोज में रुचि रखने वाले डेवलपर्स मेटा के ओपन सोर्स कोड में गोता लगाकर शुरू कर सकते हैं।

यह भी पढ़ें:

स्रोतEngadget

साइन अप करें

0 टिप्पणियाँ

एंबेडेड समीक्षा

सभी टिप्पणियाँ देखें

अन्य लेख

मेटा का इमेजबाइंड एआई मानवीय धारणा की नकल कर सकता है

हाल की टिप्पणियाँ