नया एआई Microsoft किसी भी व्यक्ति की आवाज की नकल कर सकता है

गुरुवार को शोधकर्ताओं... Microsoft VALL-E नामक एक नए कृत्रिम बुद्धिमत्ता (AI) मॉडल की घोषणा की, जो तीन सेकंड का ऑडियो नमूना दिए जाने पर मानव आवाज की सटीक नकल कर सकता है। एक बार जब यह एक विशेष आवाज सीख लेता है, तो VALL-E वक्ता के भावनात्मक स्वर को संरक्षित करते हुए उस व्यक्ति के कुछ भी कहने के ऑडियो को संश्लेषित कर सकता है।

इसके लेखकों का सुझाव है कि VALL-E का उपयोग उच्च गुणवत्ता वाले टेक्स्ट-टू-स्पीच, स्पीच एडिटिंग के लिए किया जा सकता है, जहां किसी व्यक्ति की रिकॉर्डिंग को संपादित किया जा सकता है और टेक्स्ट ट्रांसक्रिप्शन से बदला जा सकता है (उन्हें ऐसी बातें कहने के लिए कहा जा सकता है जो उन्होंने मूल रूप से नहीं कही थीं), और अन्य जनरेटिव एआई मॉडल जैसे कि संयुक्त ऑडियो सामग्री बनाने के लिए GPT-3.

Microsoft VALL-E को "न्यूरल कोडेक लैंग्वेज मॉडल" कहा जाता है, और यह EnCodec नामक तकनीक पर आधारित है जिसे मेटा ने अक्टूबर 2022 में घोषित किया था। अन्य टेक्स्ट-टू-स्पीच विधियों के विपरीत, जो आम तौर पर तरंगों में हेरफेर करके भाषण को संश्लेषित करते हैं, VALL-E अलग ऑडियो उत्पन्न करता है पाठ और ध्वनिक संकेतों से कोडेक कोड। यह मूल रूप से विश्लेषण करता है कि कोई व्यक्ति कैसा लगता है, उस जानकारी को अलग-अलग घटकों (जिन्हें "टोकन" कहा जाता है) में तोड़ता है, एनकोडेक के लिए धन्यवाद, और प्रशिक्षण डेटा का उपयोग यह मिलान करने के लिए करता है कि यह "जानता है" कि वह आवाज़ कैसी होगी यदि वह बाहर अन्य वाक्यांश बोलता है तीन सेकंड के नमूने का.

Microsoft मेटा द्वारा संकलित लिब्रिलाइट नामक ऑडियो लाइब्रेरी पर VALL-E की वाक् संश्लेषण क्षमताओं को प्रशिक्षित किया गया। इसमें 60 से अधिक उद्घोषकों के 7 घंटे के अंग्रेजी भाषा के प्रसारण शामिल हैं, जो ज्यादातर सार्वजनिक रूप से उपलब्ध लिब्रीवॉक्स ऑडियोबुक से लिए गए हैं।

उद्घोषक की आवाज के समय और भावनात्मक स्वर को संरक्षित करने के अलावा, VALL-E ऑडियो नमूने के "ध्वनिक वातावरण" का अनुकरण भी कर सकता है। उदाहरण के लिए, यदि नमूना टेलीफोन वार्तालाप से प्राप्त किया गया था, तो संश्लेषित ऑडियो आउटपुट टेलीफोन वार्तालाप के ध्वनिक और आवृत्ति गुणों का अनुकरण करेगा। नमूने भी Microsoft प्रदर्शित करें कि VALL-E स्वर के समय में विविधता उत्पन्न कर सकता है।

शायद VALL-E की धोखाधड़ी और धोखाधड़ी को संभावित रूप से सुविधाजनक बनाने की क्षमता के कारण, Microsoft दूसरों को प्रयोग करने के लिए VALL-E कोड उपलब्ध नहीं कराया है, इसलिए हम इसकी क्षमताओं का परीक्षण नहीं कर पाएंगे। ऐसा प्रतीत होता है कि शोधकर्ता इस तकनीक से होने वाले संभावित सामाजिक नुकसान से अवगत हैं। लेख के अंत में वे लिखते हैं:

"चूंकि VALL-E भाषण को संश्लेषित कर सकता है जो वक्ता की पहचान को संरक्षित करता है, इसमें मॉडल के दुरुपयोग के संभावित जोखिम हो सकते हैं, जैसे आवाज की पहचान को खराब करना या किसी विशिष्ट वक्ता का प्रतिरूपण करना। इस तरह के जोखिमों को कम करने के लिए, एक मान्यता मॉडल बनाया जाएगा ताकि यह पता लगाया जा सके कि VALL-E का उपयोग करके एक ऑडियो क्लिप को संश्लेषित किया गया था या नहीं।"

आप यूक्रेन को रूसी आक्रमणकारियों से लड़ने में मदद कर सकते हैं। ऐसा करने का सबसे अच्छा तरीका यूक्रेन के सशस्त्र बलों को धन दान करना है जीवन बचाएं या आधिकारिक पेज के माध्यम से NBU.

यह भी पढ़ें:

स्रोतArsTechnica

साइन अप करें

0 टिप्पणियाँ

एंबेडेड समीक्षा

सभी टिप्पणियाँ देखें

अन्य लेख

नया एआई Microsoft 3 सेकंड के ऑडियो सैंपल से किसी भी व्यक्ति की आवाज़ की नकल करता है

हाल की टिप्पणियाँ