3 نماذج ذكاء اصطناعي جديدة من «مايكروسوفت» للصوت والصورة والنص
أطلقت «مايكروسوفت» 3 نماذج جديدة من الذكاء الاصطناعي ضمن منصة «فاوندري (Foundry)» في خطوة تعكس توجهاً واضحاً نحو بناء منظومة متكاملة تدعم التطبيقات متعددة الوسائط، بدلاً من الاعتماد على نماذج منفصلة لكل استخدام. وبحسب ما ورد في مدونة رسمية للشركة، تشمل النماذج الجديدة «MAI-Transcribe-1» لتحويل الصوت إلى نص، و«MAI-Voice-1» لتوليد الصوت، و«MAI-Image-2» لإنشاء الصور، وهي متاحة حالياً للمطورين عبر «Foundry» وبيئة «MAI Playground».
من نماذج منفصلة إلى منظومة متكاملة
تعكس هذه الخطوة تحولاً في طريقة بناء تطبيقات الذكاء الاصطناعي. فبدلاً من الاعتماد على نموذج واحد شامل، تتجه «مايكروسوفت» نحو تطوير مجموعة من النماذج المتخصصة، كل منها يعالج نوعاً مختلفاً من بيانات الصوت والصورة والنص.
هذا النهج ينسجم مع الاتجاه الأوسع في الصناعة نحو ما يُعَرف بـ«الذكاء الاصطناعي متعدد الوسائط»، حيث يمكن للأنظمة التعامل مع أنواع مختلفة من المدخلات والمخرجات ضمن تجربة واحدة متكاملة.
أحد أبرز النماذج الجديدة هو «MAI-Transcribe-1»، المصمم لتحويل الكلام إلى نَصٍّ بدقة عالية، حتى في البيئات غير المثالية مثل الضوضاء أو تسجيلات الاجتماعات.
تشير «مايكروسوفت» إلى أنَّ النموذج يدعم 25 لغة من أكثر اللغات استخداماً، ويحقِّق أداءً متقدماً وفق معايير قياس معتمدة، مع سرعة معالجة أعلى مقارنة بأنظمة سابقة. كما تمَّ تصميمه للعمل في ظروف واقعية، مثل مراكز الاتصال أو الاجتماعات، حيث تتداخل الأصوات وتختلف جودة التسجيل. هذا التركيز على «البيئة الواقعية» يعكس تحولاً في تصميم النماذج، من الأداء في المختبرات إلى الأداء في الاستخدام الفعلي.
الصوت الاصطناعي
يركز نموذج «MAI-Voice-1» على توليد الصوت، مع محاولة جعل النتائج أكثر واقعية من حيث النبرة والتعبير. ووفقاً للمدونة، يمكن للنموذج إنتاج صوت طبيعي يحافظ على هوية المتحدث حتى في المحتوى الطويل. كما يتيح إنشاء أصوات مخصصة باستخدام عينة قصيرة من التسجيل الصوتي. ويتميَّز كذلك بسرعة عالية، حيث يمكنه توليد دقيقة من الصوت خلال ثانية واحدة تقريباً، ما يفتح المجال أمام استخدامه في تطبيقات مثل المساعدات الصوتية، أو المحتوى الصوتي التفاعلي.
توليد الصور
أما النموذج الثالث الذي يدعى «MAI-Image-2» فيركز على إنشاء الصور مع تحسينات في السرعة والأداء. تشير «مايكروسوفت» إلى أنَّ النموذج يوفِّر سرعة توليد أعلى تصل إلى ضعفين مقارنة بالإصدارات السابقة، مع الحفاظ على جودة مناسبة للاستخدامات الإبداعية مثل التصميم والإعلانات. كما تمَّ تصميمه ليلبي احتياجات المُصمِّمين وصناع المحتوى، من خلال تحسين عناصر مثل الإضاءM، ودقة التفاصيل، والنصوص داخل الصور.
السرعة والتكلفة... عاملان حاسمان
إلى جانب الأداء، تركز «مايكروسوفت» على جانب التكلفة الذي لا يقل أهمية. تشير الشركة إلى أنَّ النماذج الجديدة تقدِّم ما تصفه بـ«أفضل توازن بين السعر والأداء»، مع كفاءة أعلى في استخدام الموارد، بما في ذلك تقليل استهلاك وحدات المعالجة الرسومية (GPU). هذا الجانب يعكس واقعاً متزايد الأهمية في سوق الذكاء الاصطناعي، حيث لم يعد التحدي في بناء النماذج فقط، بل في تشغيلها على نطاق واسع بتكلفة مقبولة.
لا يمكن فصل هذا الإعلان عن استراتيجية «مايكروسوفت» الأوسع في مجال الذكاء الاصطناعي. فإطلاق نماذج داخلية يُعزِّز استقلالية الشركة، ويقلل اعتمادها على شركاء خارجيِّين، في ظلِّ منافسة متزايدة مع شركات مثل «غوغل»، و«أمازون». كما أنَّ دمج هذه النماذج داخل منتجات مثل «كوبايلوت (Copilot)»، و«تيمز (Teams)»، و«بينغ (Bing)» يشير إلى توجه نحو تحويل الذكاء الاصطناعي من ميزة إضافية إلى بنية أساسية داخل المنتجات الرقمية.
من النماذج إلى التطبيقات
رغم أنَّ الإعلان يركز على النماذج نفسها، فإنَّ القيمة الحقيقية تظهر في كيفية استخدامها. تَوفُّر هذه الأدوات للمطورين يعني إمكانية بناء تطبيقات تجمع بين الصوت والنص والصورة ضمن تجربة واحدة.
هذا قد يفتح المجال أمام تطبيقات جديدة، مثل أنظمة تحويل الاجتماعات إلى نصوص قابلة للبحث، ومساعدات صوتية أكثر واقعية، وأدوات تصميم مدعومة بالذكاء الاصطناعي.
في المجمل، يشير إطلاق هذه النماذج إلى مرحلة جديدة في تطور الذكاء الاصطناعي، حيث لم يعد التركيز على نموذج واحد قوي، بل على منظومة متكاملة من النماذج المتخصصة. وبينما لا تزال المنافسة في هذا المجال في مراحل متسارعة، فإنَّ ما يتضح هو أن الاتجاه العام يتجه نحو بناء بنى تحتية للذكاء الاصطناعي، وليس مجرد أدوات منفصلة.