menu
close

ثورة Google Gemini Diffusion في توليد النصوص بالذكاء الاصطناعي

كشفت Google عن Gemini Diffusion، نموذج ثوري لتوليد النصوص يحول الضوضاء العشوائية إلى نص متماسك بسرعة تصل إلى خمسة أضعاف النماذج السابقة. يستخدم النموذج التجريبي تقنية الانتشار—المستخدمة سابقًا في توليد الصور—لإنتاج ما يصل إلى 2000 رمز في الثانية مع الحفاظ على أداء البرمجة المماثل للنماذج الحالية. كما حسّنت Google مجموعة Gemini 2.5 بإضافة ميزانيات التفكير التي تمنح المطورين تحكمًا دقيقًا في قدرات الاستدلال والتكلفة.
ثورة Google Gemini Diffusion في توليد النصوص بالذكاء الاصطناعي

قدّمت Google DeepMind تقنية Gemini Diffusion، وهي نهج ثوري في توليد النصوص بالذكاء الاصطناعي يمثل تحولًا كبيرًا عن نماذج اللغة التقليدية القائمة على التوليد التتابعي.

على عكس النماذج التقليدية التي تولد النص رمزًا تلو الآخر بشكل متسلسل، تعتمد Gemini Diffusion على تقنية الانتشار—التي استُخدمت سابقًا بشكل أساسي في توليد الصور والفيديو—لتنقية الضوضاء العشوائية وتحويلها إلى نص متماسك عبر عملية تكرارية. هذا النهج الجديد يمكّن النموذج من إنتاج محتوى بسرعات مذهلة تصل إلى 2000 رمز في الثانية، بحسب باحثي DeepMind.

وأوضحت Google في إعلانها: "بدلاً من التنبؤ بالنص مباشرةً، يتعلم النموذج توليد المخرجات من خلال تنقية الضوضاء خطوة بخطوة. هذا يعني أنه يمكنه تكرار الحل بسرعة كبيرة وتصحيح الأخطاء أثناء عملية التوليد".

العرض التجريبي للنموذج، المتوفر حاليًا عبر قائمة الانتظار، يُظهر كيف يمكن لهذه التقنية أن تضاهي أداء النماذج الحالية من Google في البرمجة مع تقليل كبير في وقت التوليد. وفي اختبارات الأداء، أظهر Gemini Diffusion نتائج مماثلة تقريبًا لنموذج Gemini 2.0 Flash-Lite في مهام برمجية مثل HumanEval وMBPP.

وصف أوريول فينيالس، نائب رئيس الأبحاث وقائد التعلم العميق في Google DeepMind وأحد رؤساء مشروع Gemini، هذا الإصدار بأنه إنجاز شخصي، مشيرًا إلى أن العرض التجريبي كان سريعًا جدًا لدرجة أنهم اضطروا إلى إبطاء الفيديو ليكون قابلاً للمشاهدة.

بالتوازي مع ذلك، حسّنت Google مجموعة Gemini 2.5 بإضافة ميزات جديدة. فقد أطلقت الشركة Gemini 2.5 Flash مع ميزانيات التفكير، مما يمنح المطورين تحكمًا غير مسبوق في مقدار الاستدلال الذي ينفذه الذكاء الاصطناعي. تتيح هذه الميزة للمستخدمين تحقيق توازن بين الجودة والسرعة والتكلفة من خلال تحديد حد أقصى لعدد الرموز (حتى 24,576 رمزًا) لعملية الاستدلال الخاصة بالنموذج.

كما تعمل Google على توسيع ميزانيات التفكير لتشمل Gemini 2.5 Pro، مع توفرها العام خلال الأسابيع القليلة المقبلة. بالإضافة إلى ذلك، أضافت الشركة دعمًا أصليًا لتعريفات بروتوكول سياق النموذج (MCP) في واجهة Gemini البرمجية، مما يسهل التكامل مع الأدوات مفتوحة المصدر وبناء تطبيقات ذكية تعتمد على الوكلاء.

تمثل هذه التطورات مجتمعةً دفع Google لجعل الذكاء الاصطناعي أكثر كفاءة وقابلية للتحكم ومتاحة للمطورين مع الحفاظ على معايير أداء عالية.

Source:

Latest News