menu
close

معهد MIT يكشف عن قوة خفية في وحدات تقسيم الرموز بالشبكات العصبية

اكتشف باحثون من معهد MIT أن وحدات تقسيم الرموز في الشبكات العصبية يمكنها توليد وتحرير الصور دون الحاجة إلى المولدات التقليدية، وذلك كما أُعلن في 22 يوليو 2025. وأظهرت الأبحاث الرائدة، التي قُدمت في مؤتمر ICML 2025، أن التلاعب بالرموز الفردية في وحدات التقسيم أحادية البعد يؤدي إلى تغييرات مرئية واضحة في الصور، مما يمكّن من تعديل الصور بكفاءة وبتكاليف حسابية منخفضة للغاية. وتعتمد هذه الطريقة على نظام تقسيم الرموز وفكها، موجّه بواسطة نموذج CLIP، لتحقيق التحرير والتوليد الموجه بالنصوص.
معهد MIT يكشف عن قوة خفية في وحدات تقسيم الرموز بالشبكات العصبية

كشف فريق من الباحثين في معهد ماساتشوستس للتقنية (MIT) أن مكونات الشبكات العصبية التي كان يُعتقد سابقًا أنها تعمل فقط كمشفّرات، يمكنها فعليًا تنفيذ مهام متقدمة في توليد وتحرير الصور بشكل مستقل.

وقد تم عرض هذا البحث في المؤتمر الدولي لتعلم الآلة (ICML 2025) في فانكوفر، حيث أظهر أن وحدات تقسيم الرموز أحادية البعد (1D Tokenizers) — وهي شبكات عصبية تضغط المعلومات البصرية إلى تسلسلات من الرموز المنفصلة — تمتلك قدرات توليدية غير مستغلة تلغي الحاجة إلى مولدات الصور التقليدية.

قاد الفريق الطالب الباحث لوكاس لاو باير من مختبر نظم المعلومات واتخاذ القرار (LIDS) في MIT، حيث اكتشفوا أن التلاعب بالرموز الفردية داخل هذه التمثيلات المضغوطة ينتج تغييرات محددة ومتوقعة في الصور الناتجة. وقال لاو باير: "هذه نتيجة لم يسبق رؤيتها من قبل، إذ لم يلاحظ أحد تغييرات مرئية واضحة نتيجة التلاعب بالرموز".

ووجد الباحثون أن استبدال رمز واحد فقط يمكن أن يحول جودة الصورة من دقة منخفضة إلى عالية، أو يضبط ضبابية الخلفية، أو يغير مستويات السطوع، أو حتى يعدل وضعية الأجسام داخل الصورة. ويفتح هذا الاكتشاف آفاقًا جديدة لتحرير الصور بكفاءة من خلال التلاعب المباشر بالرموز.

والأهم من ذلك، أظهر فريق MIT نهجًا جديدًا لتوليد الصور يتطلب فقط وحدة تقسيم رموز أحادية البعد ومحوّل رموز (أو ما يسمى بفك الرموز)، موجّه بواسطة شبكة عصبية جاهزة تُعرف باسم CLIP. ويمكن لهذا النظام تحويل نوع صورة إلى آخر — مثل تحويل باندا حمراء إلى نمر — أو توليد صور جديدة كليًا من قيم رموز عشوائية يتم تحسينها تدريجيًا.

ويستند هذا النهج إلى إنجاز حققه باحثون من جامعة ميونخ التقنية وشركة ByteDance في عام 2024، حيث طوروا طريقة لضغط الصور بدقة 256×256 بكسل إلى 32 رمزًا فقط، مقارنة بـ 256 رمزًا كانت تستخدمها وحدات التقسيم السابقة. وتُظهر ابتكارات MIT أن هذه التمثيلات المضغوطة للغاية تحتوي على معلومات دلالية غنية يمكن الاستفادة منها في تطبيقات إبداعية.

ويضم فريق البحث تيانهونغ لي من مختبر علوم الحاسب والذكاء الاصطناعي (CSAIL) في MIT، وشنلي تشين من Facebook AI Research، والبروفيسور سيرتاك كارامان من MIT، والأستاذ المشارك كايمينغ هي من MIT. وتشير نتائجهم إلى مستقبل أكثر كفاءة من الناحية الحسابية لتوليد الصور بالذكاء الاصطناعي، وهو مجال من المتوقع أن يصبح صناعة بمليارات الدولارات بحلول نهاية هذا العقد.

Source: Techxplore

Latest News