Sam AltmanSam Altman (CEO of OpenAI)

ओपनएआई का टेक्स्ट-टू-वीडियो मॉडल सोरा : यह क्या है और यह कैसे काम करता है?

सैम ऑल्टमैन ने ओपनएआई की नवीनतम रचना सोरा पेश की है जो टेक्स्ट प्रॉम्प्ट से एक मिनट लंबे वीडियो बनाने में सक्षम है।Open AI Sora

अपने सनसनीखेज एआई चैटबॉट चैटजीपीटी से दुनिया को आश्चर्यचकित करने के बाद, ओपनएआई एक और रचना के साथ वापस आ गया है। सैम ऑल्टमैन के नेतृत्व वाले एआई स्टार्ट-अप ने एक नया सॉफ्टवेयर पेश किया है जो टेक्स्ट प्रॉम्प्ट के आधार पर हाइपर यथार्थवादी एक मिनट के वीडियो बना सकता है। सोरा नाम का यह सॉफ्टवेयर फिलहाल रेड टीमिंग चरण में है, जहां कंपनी सिस्टम में खामियों की पहचान करने की दिशा में काम कर रही है। ओपनएआई कथित तौर पर मॉडल पर प्रतिक्रिया इकट्ठा करने के लिए दृश्य कलाकारों, डिजाइनरों और फिल्म निर्माताओं के साथ भी काम कर रहा है।Open AI Sora

ओपनएआई के सीईओ सैम ऑल्टमैन ने कंपनी के वीडियो जेनरेशन मॉडल सोरा को पेश करने के लिए अपने एक्स खाते का सहारा लिया। ऑल्टमैन ने नए एआई मॉडल की दक्षता और दृश्य क्षमताओं को प्रदर्शित करने के लिए अपने प्रोफ़ाइल पर कई वीडियो साझा किए। जबकि मॉडल वर्तमान में रेड टीमिंग चरण में है, ओपनएआई ने इसके व्यापक लॉन्च के संबंध में कोई जानकारी साझा नहीं की है।

Sam Altman
          Sam Altman (CEO of OpenAI)

सोरा क्या है?

OpenAI के अनुसार, सोरा एक टेक्स्ट-टू-वीडियो मॉडल है जो “दृश्य गुणवत्ता और उपयोगकर्ता के संकेत का पालन बनाए रखते हुए” एक मिनट लंबे वीडियो बनाता है। ओपनएआई का दावा है कि सोरा विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ कई पात्रों के साथ जटिल दृश्य उत्पन्न करने में सक्षम है। कंपनी के अनुसार, मॉडल न केवल उपयोगकर्ता के संकेत को समझ सकता है, बल्कि यह भी समझने में सक्षम है कि ये चीजें वास्तविक दुनिया में कैसे दिखाई देंगी।

मॉडल की शुरुआत के बाद, ऑल्टमैन ने अपने अनुयायियों द्वारा अनुरोधित संकेतों के आधार पर सोरा की रचनाएँ साझा कीं। साइकिल चलाने वाली डॉल्फ़िन से लेकर ड्रैगन की सवारी करने वाली गिलहरी तक, यहां कुछ नमूना वीडियो हैं जो सोरा की बहुमुखी प्रतिभा को दर्शाते हैं।

सोरा मूल रूप से एक प्रसार मॉडल है जो एक ही बार में संपूर्ण वीडियो तैयार करने या जेनरेट किए गए वीडियो को लंबा करने में सक्षम है। मॉडल एक ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है जो जीपीटी मॉडल के समान बेहतर स्केलिंग प्रदर्शन को अनलॉक करता है। एआई मॉडल वीडियो और छवियों को डेटा की छोटी इकाइयों के संग्रह के रूप में दिखाता है जिन्हें पैच के रूप में जाना जाता है। इनमें से प्रत्येक पैच GPT में टोकन के समान है। OpenAI ने कहा कि सोरा DALL-E और GPT मॉडल के लिए किए गए पिछले शोध पर बनाया गया है। यह DALL-E 3 से पुनः कैप्चरिंग तकनीक उधार लेता है जिसमें दृश्य प्रशिक्षण डेटा के लिए वर्णनात्मक कैप्शन तैयार करना शामिल है।

प्राकृतिक भाषा में संकेतों से वीडियो बनाने के अलावा, मॉडल एक मौजूदा छवि लेने और उससे एक वीडियो बनाने में सक्षम है। OpenAI के अनुसार, यह अनिवार्य रूप से छवि के घटकों को सटीक रूप से एनिमेट करेगा। यह छूटे हुए फ़्रेमों को भरकर मौजूदा वीडियो का विस्तार करने में भी सक्षम है।

Sora:क्षमताएं और सीमाएंOpen AI Sora

Photo Credit: Brian Merchant (Screenshot)

ओपनएआई का दावा है कि सोरा को भाषा की गहरी समझ है जो उसे सटीकता के साथ संकेतों की व्याख्या करने और जीवंत भावनाओं को प्रदर्शित करने वाले चरित्र बनाने की अनुमति देती है। दिलचस्प बात यह है कि सोरा लगातार दृश्य शैली और पात्रों के साथ एक ही जेनरेट किए गए वीडियो के भीतर कई शॉट बनाने में भी सक्षम है।

कंपनी ने इस बात पर भी प्रकाश डाला कि सोरा की अपनी सीमाएँ हैं। वर्तमान में, मॉडल सटीकता के साथ “जटिल दृश्य की भौतिकी” बनाने में संघर्ष कर सकता है। कारण और प्रभाव के विशिष्ट उदाहरणों को समझने में भी कठिनाई हो सकती है। कंपनी ने एक परिदृश्य बताते हुए इसका उदाहरण दिया जहां एक व्यक्ति कुकी से काट सकता है, हालांकि, कुकी पर काटने का निशान नहीं हो सकता है। इसी तरह, सोरा भी संकेत में स्थानिक विवरण को भ्रमित कर सकता है जैसे कि यह बाएं और दाएं को भ्रमित कर सकता है, और समय के साथ होने वाली घटनाओं के सटीक विवरण के साथ संघर्ष कर सकता है।

क्या सोरा सुरक्षित है?

अपनी आधिकारिक वेबसाइट पर, OpenAI ने कहा है कि वह अपने उत्पादों में सोरा को सुलभ बनाने से पहले कई सुरक्षा उपाय कर रहा है। कंपनी ने इस बात पर जोर दिया कि वे गलत सूचना, घृणित सामग्री और पूर्वाग्रह के लिए विशिष्ट डोमेन विशेषज्ञों की एक टीम के साथ काम कर रहे हैं। ये विशेषज्ञ सोरा का प्रतिकूल परीक्षण करेंगे। इसके अलावा, कंपनी एक डिटेक्शन क्लासिफायर जैसे टूल भी बना रही है जो भ्रामक सामग्री का पता लगा सकता है और बता सकता है कि कोई वीडियो सोरा द्वारा तैयार किया गया था या नहीं।

“हम दुनिया भर के नीति निर्माताओं, शिक्षकों और कलाकारों को उनकी चिंताओं को समझने और इस नई तकनीक के लिए सकारात्मक उपयोग के मामलों की पहचान करने के लिए शामिल करेंगे। व्यापक शोध और परीक्षण के बावजूद, हम उन सभी लाभकारी तरीकों की भविष्यवाणी नहीं कर सकते हैं जिनसे लोग हमारी तकनीक का उपयोग करेंगे, न ही उन सभी तरीकों की भविष्यवाणी कर सकते हैं जिनसे लोग इसका दुरुपयोग करेंगे। इसलिए हमारा मानना है कि वास्तविक दुनिया के उपयोग से सीखना समय के साथ तेजी से सुरक्षित एआई सिस्टम बनाने और जारी करने का एक महत्वपूर्ण घटक है, ”आधिकारिक वेबसाइट पर लिखा है।

OpenAI ने यह भी कहा कि यदि हम OpenAI उत्पाद में मॉडल को तैनात करते हैं तो यह भविष्य में C2PA मेटाडेटा को शामिल करेगा। सरल शब्दों में, C2PA एक खुला तकनीकी मानक है जो प्रकाशकों, कंपनियों और अन्य लोगों को इसकी उत्पत्ति और संबंधित जानकारी को सत्यापित करने के लिए मीडिया में मेटाडेटा एम्बेड करने की अनुमति देता है। कंपनी ने यह भी कहा है कि वह DALL E-3 का उपयोग करने वाले अपने उत्पादों में मौजूद मौजूदा सुरक्षा उपायों का लाभ उठा रही है।

इसके अलावा, OpenAI द्वारा तैनात टेक्स्ट क्लासिफायर कंपनी की उपयोग नीति का उल्लंघन करने वाले संकेतों पर नज़र रखेगा और यहां तक कि उन्हें अस्वीकार भी करेगा, जिसमें अत्यधिक हिंसा, यौन सामग्री, घृणित छवि, सेलिब्रिटी समानता या दूसरों के आईपी के अनुरोध शामिल हैं। कंपनी के पास मजबूत इमेज क्लासिफायर भी हैं जो यह सुनिश्चित करने के लिए हर वीडियो के फ्रेम की समीक्षा करेंगे कि वे कंपनी की उपयोग नीति के साथ संरेखित हैं।

ओपनएआई का सोरा ऐसे समय में आया है जब स्टेबिलिटी एआई जैसे टेक्स्ट-टू-वीडियो मॉडल ने एआई वीडियो पीढ़ी की आश्चर्यजनक क्षमताओं को दिखाया है। सैम अल्टमैन के नेतृत्व वाली कंपनी की नजर आर्टिफिशियल जनरल इंटेलिजेंस पर है और वह सोरा को उस दिशा में एक कदम आगे के रूप में देखती है। हम जो देख रहे हैं, सोरा स्पष्ट रूप से मौजूदा जेनरेटिव एआई वीडियो निर्माण मॉडल से मीलों आगे है। Google ने अक्टूबर 2022 में एक समान मॉडल पेश किया, जिसका नाम Imagen Video है, हालाँकि, ऐसा कोई मॉडल नहीं है जिसे तकनीकी दिग्गज की ओर से जनता द्वारा एक्सेस किया गया हो। Google ने अपने टेक्स्ट-टू-वीडियो मॉडल फेनाकी पर भी काम किया है और मेटा ने भी मेक-ए-वीडियो टूल के साथ काम किया है। हालाँकि, ऐसा लगता है कि OpenAI ने सभी को पीछे छोड़ दिया है।

Leave a Reply

Your email address will not be published. Required fields are marked *