Text-to-Video Generator OpenAI Sora Launch
OpenAI Sora: पाठ्य संकेतों से वीडियो बनाने के लिए Sora OpenAI का नया जेनरेटिव एआई मॉडल है। वर्तमान में पूर्वावलोकन में, नया मॉडल यह समझने की अपनी क्षमता का लाभ उठाते हुए कि वास्तविक दुनिया में चीजें कैसे मौजूद हैं और चरित्र या शैली में व्यवधान के बिना कई शॉट्स का संयोजन करके 60 सेकंड तक के फोटोरिअलिस्टिक वीडियो बना सकता है।
OpenAI को गतिमान भौतिक दुनिया को समझना और उसका अनुकरण करना सिखा रहे हैं, जिसका लक्ष्य प्रशिक्षण मॉडल हैं जो लोगों को उन समस्याओं को हल करने में मदद करते हैं जिनके लिए वास्तविक दुनिया की बातचीत की आवश्यकता होती है।
ओपनएआई के अनुसार, सोरा जटिल कैमरा गति और कई पात्रों सहित अत्यधिक विस्तृत दृश्य बना सकता है। तकनीकी दृष्टिकोण से, सोरा एक प्रसार मॉडल है। इसका शुरुआती बिंदु स्थिर शोर की तरह दिखने वाला एक वीडियो है जिसे धीरे-धीरे चरण दर चरण शोर को हटाकर अंतिम परिणाम में बदल दिया जाता है।
हम वीडियो और छवियों को डेटा की छोटी इकाइयों के संग्रह के रूप में प्रस्तुत करते हैं जिन्हें पैच कहा जाता है, जिनमें से प्रत्येक GPT में एक टोकन के समान है। हम डेटा का प्रतिनिधित्व कैसे करते हैं, इसे एकीकृत करके, हम अलग-अलग अवधि, रिज़ॉल्यूशन और पहलू अनुपात को फैलाते हुए, पहले की तुलना में दृश्य डेटा की एक विस्तृत श्रृंखला पर प्रसार ट्रांसफार्मर को प्रशिक्षित कर सकते हैं।
OpenAI Sora: Realistic text to video
OpenAI सोरा में हल की गई एक चुनौतीपूर्ण समस्या पर प्रकाश डालता है, अर्थात् विषय को अस्थायी रूप से दृश्य से बाहर होने पर भी वही रखना और दृश्य शैली को संरक्षित करना, मॉडल को एक समय में कई फ़्रेमों पर संचालित करने की अनुमति देना, जो यह जानने की कुछ क्षमता लाता है कि क्या पहले से होगा और इसकी योजना बनाओ।
OpenAI ने सोरा का उपयोग करके बनाए गए कई प्रभावशाली वीडियो दिखाए, जिनमें सोने की भीड़ के दौरान कैलिफोर्निया के ऐतिहासिक फुटेज, टोक्यो की सड़क पर चलती एक स्टाइलिश महिला, बर्फ में खेलते हुए गोल्डन रिट्रीवर्स और अन्य शामिल हैं।
वैसे भी, कुछ जेनरेट किए गए वीडियो शारीरिक रूप से अविश्वसनीय गति दिखा सकते हैं, ओपनएआई स्वीकार करता है, जैसा कि एक वीडियो में दिखाया गया है कि एक व्यक्ति कन्वेयर बेल्ट पर गलत दिशा में चल रहा है या दूसरी जगह जहां रेत एक कुर्सी में बदल जाती है और काउंटर-सहज ज्ञान युक्त गति प्रदर्शित करती है।
नया मॉडल अभी आम जनता के लिए खुला नहीं है क्योंकि OpenAI अपनी सुरक्षा में सुधार के लिए काम कर रहा है। उदाहरण के लिए, इसमें टेक्स्ट इनपुट संकेतों को अस्वीकार करना शामिल है जिसमें अत्यधिक हिंसा, यौन सामग्री, घृणित कल्पना, या तीसरे पक्ष के आईपी या सेलिब्रिटी गोपनीयता अधिकारों का उल्लंघन शामिल है। इस उद्देश्य के लिए, ओपनएआई का कहना है कि वह मॉडल की सीमाओं का परीक्षण करने के लिए गलत सूचना, घृणास्पद सामग्री और पूर्वाग्रह जैसे क्षेत्रों में विशेषज्ञों के साथ काम कर रहा है।
OpenAI introduces Sora, यह एक टेक्स्ट-टू-वीडियो AI मॉडल है
व्यापक शोध और परीक्षण के बावजूद, हम उन सभी लाभकारी तरीकों की भविष्यवाणी नहीं कर सकते हैं जिनसे लोग हमारी तकनीक का उपयोग करेंगे, न ही उन सभी तरीकों की भविष्यवाणी कर सकते हैं जिनसे लोग इसका दुरुपयोग करेंगे। इसीलिए हमारा मानना है कि वास्तविक दुनिया के उपयोग से सीखना समय के साथ तेजी से सुरक्षित एआई सिस्टम बनाने और जारी करने का एक महत्वपूर्ण घटक है।
OpenAI ने DALL-E-3 के लिए बनाए गए सुरक्षा तरीकों को सोरा पर लागू करने की भी योजना बनाई है, साथ ही AI के माध्यम से बनाए गए वीडियो का पता लगाने के लिए C2PA मेटाडेटा भी लागू किया है।
सोरा बाजार में प्रवेश करने वाला पहला टेक्स्ट-टू-वीडियो जेनरेशन एआई मॉडल नहीं है। अन्य समाधानों में Runway, Pika, Stability AI, Google Lumiere, और अन्य शामिल हैं।
जैसा कि हैकर न्यूज़ पर कई टिप्पणीकारों ने बताया है, ओपनएआई द्वारा निर्मित डेमो वीडियो मॉडल को सर्वोत्तम रूप से दिखाने के लिए “निश्चित रूप से चेरी-पिक” हैं और एक बहुत ही विशिष्ट विचार से वीडियो बनाने का प्रयास करते समय परिणाम बहुत भिन्न हो सकते हैं।
इसके अतिरिक्त, प्रारंभिक अपनाने वालों द्वारा बनाए गए वीडियो मामूली गुणवत्ता और विवरण के प्रतीत होते हैं। हालाँकि, यह सोरा की प्रभावशालीता और टेक्स्ट-टू-वीडियो पीढ़ी के क्षेत्र में उत्पन्न होने वाली गति पर कोई प्रभाव नहीं डालता है।
2 thoughts on “OpenAI Sora – New INSANE Text to Video Model: 2024 OpenAI मॉडल जो टेक्स्ट से मनमोहक वीडियो तैयार करता है”