Written By Ashutosh Ojha
Published By: Ashutosh Ojha | Published: Sep 12, 2025, 05:16 PM (IST)
Microsoft Copilot 3D
और पढें: Microsoft ने लॉन्च किया MAI-Image-2 का सेकंड जनरेशन मॉडल, जानिए क्या है इसमें खास
Microsoft ने अपने AI टूल Copilot में एक नया और दिलचस्प फीचर पेश किया है। अब यह सिर्फ लिखे हुए टेक्स्ट को समझने और जवाब देने तक सीमित नहीं रहेगा, बल्कि स्क्रिप्ट को पढ़कर आवाज में बदल भी सकेगा। कंपनी ने बताया कि यह सुविधा किसी सामान्य टेक्स्ट-टू–स्पीच टेक्नोलॉजी जैसी नहीं होगी, बल्कि यह नैचुरल और एक्सप्रेसिव आवाज तैयार करेगी। इस क्षमता को Microsoft के खुद के बनाए MAI-Voice-1 AI मॉडल के जरिए संभव किया गया है। खास बात यह है कि यूजर्स अलग-अलग स्टाइल में अपनी स्क्रिप्ट को आवाज में बदल सकते हैं और यह आवाज बिल्कुल ह्यूमन टोन जैसी लगेगी। और पढें: Microsoft ने लॉन्च किया Copilot Health, क्या अब AI बताएगा आपकी सेहत का हाल?
कंपनी के Microsoft AI प्रमुख मुस्तफा सुलेमान ने ‘X’ पर इस नए फीचर की जानकारी दी। उन्होंने बताया कि यह अभी Copilot Labs में उपलब्ध है और फिलहाल पर्सनल अकाउंट से लॉगिन करने वाले यूजर्स इसका एक्सपीरियंस कर सकते हैं। इस समय इसमें तीन मोड्स दिए गए हैं। पहला है Scripted Mode, जिसमें AI लिखे हुए टेक्स्ट को उसी तरह पढ़ता है जैसे लिखा गया है। इसमें कोई खास उतार-चढ़ाव या एक्सप्रेशन नहीं जोड़ा जाता। यह मोड औपचारिक घोषणाओं, डॉक्यूमेंट पढ़ने और जानकारी प्रस्तुत करने के लिए परफेक्ट है। और पढें: GTA 6 की पूरी स्टोरी खत्म करने में कितना समय लगेगा? नई रिपोर्ट ने कर दिया बड़ा खुलासा
दूसरा मोड है Emotive Mode, इसमें आवाज के साथ-साथ भावनाओं को भी जोड़ा जाता है। इसमें टोन, पिच और आवाज की गहराई को बदलकर टेक्स्ट को नाटकीय और आकर्षक बनाया जाता है। यह मोड विज्ञापन, मार्केटिंग और अनौपचारिक नैरेशन के लिए काफी यूजफुल है। वहीं तीसरा और सबसे खास है Story Mode, इसमें एक ही टेक्स्ट को कई आवाजों और किरदारों के रूप में पढ़ा जा सकता है। इसे खासतौर पर कहानियां सुनाने, पॉडकास्ट जैसे प्रेजेंटेशन और विश्लेषण संबंधी कार्यों के लिए डिजाइन किया गया है। इस फीचर की सबसे बड़ी खासियत यह है कि इसे अभी मुफ्त में यूज किया जा सकता है, हालांकि भविष्य में कोई सीमा या प्राइसिंग मॉडल आएगा या नहीं, यह साफ नहीं है।
Microsoft ने अपने बयान में कहा कि MAI-Voice-1 मॉडल को बेहद शक्तिशाली तरीके से ट्रेन किया गया है। यह मॉडल प्राकृतिक और भावपूर्ण आवाज जनरेट करने में सक्षम है। खास बात यह है कि यह सिर्फ एक सेकंड में पूरे एक मिनट की ऑडियो तैयार कर सकता है और वह भी सिर्फ एक GPU पर, इस मॉडल को ट्रेन करने के लिए Microsoft ने लगभग 15,000 Nvidia GPUs का इस्तेमाल किया है। कंपनी का कहना है कि भविष्य में इस फीचर को Copilot के मोबाइल और डेस्कटॉप ऐप्स पर भी उपलब्ध कराया जाएगा।