मेटा ने आर्टिफिशियल इंटेलिजेंस पर आधारित एक नया जनरेटर बनाया है

आर्टिफिशियल इंटेलिजेंस (एआई) टेक्स्ट-टू-इमेज जेनरेटर हाल के महीनों में सुर्खियां बटोर रहे हैं, लेकिन शोधकर्ता पहले ही अगली सीमा पर चले गए हैं: एआई-पावर्ड टेक्स्ट-टू-वीडियो जेनरेटर। मेटा शोधकर्ताओं ने सार्वजनिक रूप से इस तरह के एक नए जनरेटर, द वर्ज की रिपोर्ट पेश की है।

मेटा की मशीन लर्निंग इंजीनियरिंग टीम प्रस्तुत मेक-ए-वीडियो नामक एक नई प्रणाली। यह एआई मॉडल उपयोगकर्ताओं को दृश्य का एक मोटा विवरण दर्ज करने की अनुमति देता है, और यह एक छोटा वीडियो बनाता है जो उनके पाठ से मेल खाता है। वीडियो स्पष्ट रूप से कृत्रिम हैं, धुंधली वस्तुओं और विकृत एनिमेशन के साथ, लेकिन कृत्रिम बुद्धिमत्ता सामग्री निर्माण के क्षेत्र में अभी भी एक महत्वपूर्ण उपलब्धि है।

- विज्ञापन -

अपने पोस्ट में Facebook मेटा के सीईओ मार्क जुकरबर्ग ने काम को "अद्भुत प्रगति" के रूप में वर्णित किया, और कहा: "फोटो बनाने की तुलना में वीडियो बनाना अधिक कठिन है, क्योंकि प्रत्येक पिक्सेल को सही ढंग से उत्पन्न करने के अलावा, सिस्टम को यह भी अनुमान लगाना होगा कि वे समय के साथ कैसे बदलेंगे।"

क्लिप पांच सेकंड से अधिक नहीं चलती है और इसमें कोई आवाज नहीं होती है, लेकिन सुराग की एक विशाल श्रृंखला को कवर करती है। हालांकि यह स्पष्ट है कि वीडियो कंप्यूटर जनित है, ऐसे एआई मॉडल की गुणवत्ता में निकट भविष्य में तेजी से सुधार होगा। कुछ ही वर्षों में, एआई छवि जनरेटर लगभग समझ से बाहर के चित्र बनाने से लेकर फोटोरिअलिस्टिक सामग्री तक चले गए हैं। और जबकि वीडियो में प्रगति धीमी हो सकती है, विषय क्षेत्र की लगभग असीमित जटिलता को देखते हुए, निर्बाध वीडियो निर्माण के लिए पुरस्कार कई संगठनों और कंपनियों को परियोजना में महत्वपूर्ण संसाधनों का निवेश करने के लिए प्रेरित करेगा।

कंपनी का कहना है कि वह सिस्टम का एक डेमो संस्करण जारी करने की योजना बना रही है, लेकिन यह नहीं बताया है कि इसे कब या कैसे लागू किया जाएगा। मॉडल का वर्णन करने वाले एक पेपर में, मेटा शोधकर्ताओं ने ध्यान दिया कि मेक-ए-वीडियो को छवि-कैप्शन जोड़े के साथ-साथ बिना लेबल वाले वीडियो फुटेज पर प्रशिक्षित किया जाता है।

प्रशिक्षण सामग्री दो डेटासेट, WebVid-10M और HD-VILA-100M से ली गई थी, जिसमें एक साथ लाखों वीडियो होते हैं और सैकड़ों हजारों घंटे के वीडियो फुटेज होते हैं। वैसे, इसमें स्टॉक फुटेज भी शामिल है।

शोधकर्ताओं ने ध्यान दिया कि धुंधले फ्रेम और बिखरे हुए एनिमेशन के अलावा मॉडल में कई तकनीकी सीमाएं हैं। मेक-ए-वीडियो 16×64 पिक्सल के रिज़ॉल्यूशन पर वीडियो के 64 फ्रेम आउटपुट करता है, जिसे बाद में एक अलग एआई मॉडल का उपयोग करके 768×768 पिक्सल में बदल दिया जाता है।

आप यूक्रेन को रूसी आक्रमणकारियों से लड़ने में मदद कर सकते हैं। ऐसा करने का सबसे अच्छा तरीका यूक्रेन के सशस्त्र बलों को धन दान करना है जीवन बचाएं या आधिकारिक पेज के माध्यम से NBU.

- विज्ञापन -

यह भी दिलचस्प:

मेटा ने विवरण के आधार पर वीडियो बनाने के लिए एआई दिखाया