Written By Ashutosh Ojha
Published By: Ashutosh Ojha | Published: Sep 12, 2025, 05:16 PM (IST)
Microsoft Copilot 3D
और पढें: AI Impact Summit 2026: भारत में आज से होगा शुरू, PM मोदी करेंगे उद्घाटन
Microsoft ने अपने AI टूल Copilot में एक नया और दिलचस्प फीचर पेश किया है। अब यह सिर्फ लिखे हुए टेक्स्ट को समझने और जवाब देने तक सीमित नहीं रहेगा, बल्कि स्क्रिप्ट को पढ़कर आवाज में बदल भी सकेगा। कंपनी ने बताया कि यह सुविधा किसी सामान्य टेक्स्ट-टू–स्पीच टेक्नोलॉजी जैसी नहीं होगी, बल्कि यह नैचुरल और एक्सप्रेसिव आवाज तैयार करेगी। इस क्षमता को Microsoft के खुद के बनाए MAI-Voice-1 AI मॉडल के जरिए संभव किया गया है। खास बात यह है कि यूजर्स अलग-अलग स्टाइल में अपनी स्क्रिप्ट को आवाज में बदल सकते हैं और यह आवाज बिल्कुल ह्यूमन टोन जैसी लगेगी। और पढें: AI से कमाई का नया तरीका, Microsoft ने पब्लिशर्स के लिए लॉन्च किया ये खास प्लेटफॉर्म
कंपनी के Microsoft AI प्रमुख मुस्तफा सुलेमान ने ‘X’ पर इस नए फीचर की जानकारी दी। उन्होंने बताया कि यह अभी Copilot Labs में उपलब्ध है और फिलहाल पर्सनल अकाउंट से लॉगिन करने वाले यूजर्स इसका एक्सपीरियंस कर सकते हैं। इस समय इसमें तीन मोड्स दिए गए हैं। पहला है Scripted Mode, जिसमें AI लिखे हुए टेक्स्ट को उसी तरह पढ़ता है जैसे लिखा गया है। इसमें कोई खास उतार-चढ़ाव या एक्सप्रेशन नहीं जोड़ा जाता। यह मोड औपचारिक घोषणाओं, डॉक्यूमेंट पढ़ने और जानकारी प्रस्तुत करने के लिए परफेक्ट है। और पढें: Microsoft ने पेश की नई AI Chip, Nvidia को सीधे टक्कर देने की है तैयारी
दूसरा मोड है Emotive Mode, इसमें आवाज के साथ-साथ भावनाओं को भी जोड़ा जाता है। इसमें टोन, पिच और आवाज की गहराई को बदलकर टेक्स्ट को नाटकीय और आकर्षक बनाया जाता है। यह मोड विज्ञापन, मार्केटिंग और अनौपचारिक नैरेशन के लिए काफी यूजफुल है। वहीं तीसरा और सबसे खास है Story Mode, इसमें एक ही टेक्स्ट को कई आवाजों और किरदारों के रूप में पढ़ा जा सकता है। इसे खासतौर पर कहानियां सुनाने, पॉडकास्ट जैसे प्रेजेंटेशन और विश्लेषण संबंधी कार्यों के लिए डिजाइन किया गया है। इस फीचर की सबसे बड़ी खासियत यह है कि इसे अभी मुफ्त में यूज किया जा सकता है, हालांकि भविष्य में कोई सीमा या प्राइसिंग मॉडल आएगा या नहीं, यह साफ नहीं है।
Microsoft ने अपने बयान में कहा कि MAI-Voice-1 मॉडल को बेहद शक्तिशाली तरीके से ट्रेन किया गया है। यह मॉडल प्राकृतिक और भावपूर्ण आवाज जनरेट करने में सक्षम है। खास बात यह है कि यह सिर्फ एक सेकंड में पूरे एक मिनट की ऑडियो तैयार कर सकता है और वह भी सिर्फ एक GPU पर, इस मॉडल को ट्रेन करने के लिए Microsoft ने लगभग 15,000 Nvidia GPUs का इस्तेमाल किया है। कंपनी का कहना है कि भविष्य में इस फीचर को Copilot के मोबाइल और डेस्कटॉप ऐप्स पर भी उपलब्ध कराया जाएगा।