كشف فريق من الباحثين في معهد ماساتشوستس للتكنولوجيا (MIT) أن مكونات الشبكات العصبية التي كان يُعتقد سابقاً أنها تعمل فقط كمشفّرات، يمكنها في الواقع تنفيذ مهام متقدمة في توليد الصور وتحريرها بشكل مستقل.
وقد تم عرض هذا البحث في المؤتمر الدولي لتعلم الآلة (ICML 2025) في فانكوفر، حيث أوضح أن وحدات تقسيم الرموز أحادية البُعد (1D Tokenizers) — وهي شبكات عصبية تقوم بضغط المعلومات البصرية إلى تسلسلات من الرموز المنفصلة — تمتلك قدرات توليدية غير مستغلة تلغي الحاجة إلى المولدات التقليدية للصور.
قاد الفريق الطالب الباحث لوكاس لاو باير من مختبر نظم المعلومات واتخاذ القرار (LIDS) في MIT، حيث اكتشفوا أن التلاعب بالرموز الفردية ضمن هذه التمثيلات المضغوطة ينتج تغييرات محددة وقابلة للتنبؤ في الصور الناتجة. وقال لاو باير: "هذه نتيجة لم يسبق رؤيتها من قبل، إذ لم يلاحظ أحد تغييرات مرئية واضحة نتيجة التلاعب بالرموز".
ووجد الباحثون أن استبدال رمز واحد فقط يمكن أن يحول جودة الصورة من دقة منخفضة إلى عالية، أو يضبط درجة ضبابية الخلفية، أو يغير مستويات السطوع، أو حتى يبدل وضعية الأجسام داخل الصورة. ويفتح هذا الاكتشاف آفاقاً جديدة لتحرير الصور بكفاءة من خلال التلاعب المباشر بالرموز.
والأهم من ذلك، عرض فريق MIT نهجاً مبتكراً لتوليد الصور يتطلب فقط وحدة تقسيم رموز أحادية البُعد ومُفكك (أو ما يسمى detokenizer)، موجه بواسطة شبكة عصبية جاهزة تُعرف باسم CLIP. ويمكن لهذا النظام تحويل نوع صورة إلى آخر — مثل تحويل باندا حمراء إلى نمر — أو توليد صور جديدة بالكامل من قيم رموز عشوائية يتم تحسينها تدريجياً.
ويستند هذا النهج إلى إنجاز حققه باحثون من جامعة ميونيخ التقنية وشركة ByteDance في عام 2024، حيث طوروا طريقة لضغط الصور بدقة 256×256 بكسل إلى 32 رمزاً فقط، مقارنة بـ256 رمزاً كانت تستخدمها وحدات التقسيم السابقة. وتُظهر ابتكارات MIT أن هذه التمثيلات المضغوطة للغاية تحتوي على معلومات دلالية غنية يمكن استغلالها في تطبيقات إبداعية.
ويضم فريق البحث تيانهونغ لي من مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) في MIT، وشنلي تشين من Facebook AI Research، والبروفيسور سيرتاك كارامان من MIT، والأستاذ المشارك كايمينغ هي من MIT. وتشير نتائجهم إلى مستقبل أكثر كفاءة من الناحية الحسابية لتوليد الصور بالذكاء الاصطناعي، وهو مجال يُتوقع أن يصبح صناعة بمليارات الدولارات بحلول نهاية هذا العقد.