Written By Ashutosh Ojha
Published By: Ashutosh Ojha | Published: Sep 12, 2025, 05:16 PM (IST)
Microsoft Copilot 3D
और पढें: Microsoft ने लॉन्च किया Copilot 3D, सिर्फ एक क्लिक में 2D फोटो को बनाएं 3D
Microsoft ने अपने AI टूल Copilot में एक नया और दिलचस्प फीचर पेश किया है। अब यह सिर्फ लिखे हुए टेक्स्ट को समझने और जवाब देने तक सीमित नहीं रहेगा, बल्कि स्क्रिप्ट को पढ़कर आवाज में बदल भी सकेगा। कंपनी ने बताया कि यह सुविधा किसी सामान्य टेक्स्ट-टू–स्पीच टेक्नोलॉजी जैसी नहीं होगी, बल्कि यह नैचुरल और एक्सप्रेसिव आवाज तैयार करेगी। इस क्षमता को Microsoft के खुद के बनाए MAI-Voice-1 AI मॉडल के जरिए संभव किया गया है। खास बात यह है कि यूजर्स अलग-अलग स्टाइल में अपनी स्क्रिप्ट को आवाज में बदल सकते हैं और यह आवाज बिल्कुल ह्यूमन टोन जैसी लगेगी। और पढें: Microsoft Copilot चैटबॉट हुआ अपग्रेड, AI इमेज को कर पाएंगे एडिट
कंपनी के Microsoft AI प्रमुख मुस्तफा सुलेमान ने ‘X’ पर इस नए फीचर की जानकारी दी। उन्होंने बताया कि यह अभी Copilot Labs में उपलब्ध है और फिलहाल पर्सनल अकाउंट से लॉगिन करने वाले यूजर्स इसका एक्सपीरियंस कर सकते हैं। इस समय इसमें तीन मोड्स दिए गए हैं। पहला है Scripted Mode, जिसमें AI लिखे हुए टेक्स्ट को उसी तरह पढ़ता है जैसे लिखा गया है। इसमें कोई खास उतार-चढ़ाव या एक्सप्रेशन नहीं जोड़ा जाता। यह मोड औपचारिक घोषणाओं, डॉक्यूमेंट पढ़ने और जानकारी प्रस्तुत करने के लिए परफेक्ट है। और पढें: Microsoft Surface Event 2023: AI असिस्टेंट Copilot हुआ लॉन्च, यूजर्स के आएगा बहुत काम
दूसरा मोड है Emotive Mode, इसमें आवाज के साथ-साथ भावनाओं को भी जोड़ा जाता है। इसमें टोन, पिच और आवाज की गहराई को बदलकर टेक्स्ट को नाटकीय और आकर्षक बनाया जाता है। यह मोड विज्ञापन, मार्केटिंग और अनौपचारिक नैरेशन के लिए काफी यूजफुल है। वहीं तीसरा और सबसे खास है Story Mode, इसमें एक ही टेक्स्ट को कई आवाजों और किरदारों के रूप में पढ़ा जा सकता है। इसे खासतौर पर कहानियां सुनाने, पॉडकास्ट जैसे प्रेजेंटेशन और विश्लेषण संबंधी कार्यों के लिए डिजाइन किया गया है। इस फीचर की सबसे बड़ी खासियत यह है कि इसे अभी मुफ्त में यूज किया जा सकता है, हालांकि भविष्य में कोई सीमा या प्राइसिंग मॉडल आएगा या नहीं, यह साफ नहीं है।
Microsoft ने अपने बयान में कहा कि MAI-Voice-1 मॉडल को बेहद शक्तिशाली तरीके से ट्रेन किया गया है। यह मॉडल प्राकृतिक और भावपूर्ण आवाज जनरेट करने में सक्षम है। खास बात यह है कि यह सिर्फ एक सेकंड में पूरे एक मिनट की ऑडियो तैयार कर सकता है और वह भी सिर्फ एक GPU पर, इस मॉडल को ट्रेन करने के लिए Microsoft ने लगभग 15,000 Nvidia GPUs का इस्तेमाल किया है। कंपनी का कहना है कि भविष्य में इस फीचर को Copilot के मोबाइल और डेस्कटॉप ऐप्स पर भी उपलब्ध कराया जाएगा।