menu
close

اختراق H-Net في الذكاء الاصطناعي يلغي قواعد التجزئة الصارمة للنصوص

كشف باحثون من جامعة كارنيجي ميلون في 23 يوليو 2025 عن نظام H-Net الثوري للذكاء الاصطناعي، الذي يتعلم تلقائيًا أفضل طرق تقسيم النصوص أثناء التدريب بدلاً من الاعتماد على قواعد تجزئة مبرمجة مسبقًا. ويُظهر النظام أداءً أفضل بنحو أربعة أضعاف في معالجة تسلسلات الحمض النووي وتحسنًا ملحوظًا عبر لغات متعددة مقارنة بالطرق التقليدية. يمثل هذا النهج التكيفي في معالجة النصوص تقدمًا جوهريًا في كيفية فهم أنظمة الذكاء الاصطناعي لأنواع البيانات المختلفة ومعالجتها.
اختراق H-Net في الذكاء الاصطناعي يلغي قواعد التجزئة الصارمة للنصوص

طور فريق بقيادة طالب الدكتوراه سوكجون هوانغ والأساتذة براندون وانغ وألبرت غو في جامعة كارنيجي ميلون بنية ذكاء اصطناعي مبتكرة تُدعى H-Net، من شأنها أن تغيّر طريقة معالجة النماذج اللغوية للنصوص والبيانات المتسلسلة الأخرى.

تعتمد النماذج اللغوية التقليدية على التجزئة (Tokenization)، وهي خطوة معالجة مسبقة تقسم النص إلى وحدات أصغر بناءً على قواعد صارمة. يفرض هذا النهج قيودًا أساسية، خاصةً في اللغات التي لا تحتوي على حدود واضحة للكلمات أو في المجالات المتخصصة مثل علم الجينوم. يلغي H-Net هذا القيد من خلال آلية تقسيم ديناميكية تتعلم تلقائيًا الطريقة الأكثر فعالية لتقسيم النص أثناء التدريب.

تُظهر الورقة البحثية التي نُشرت على arXiv في 10 يوليو وتم تحديثها في 15 يوليو 2025 أن H-Net يحقق كفاءة بيانات أفضل بنحو أربعة أضعاف عند معالجة تسلسلات الحمض النووي مقارنة بالطرق التقليدية. كما يُظهر النظام أداءً متفوقًا عبر لغات متعددة، مع نتائج قوية بشكل خاص في اللغة الصينية وأكواد البرمجة.

ما يجعل H-Net ثوريًا هو قدرته على تعلم استراتيجيات تقسيم تعتمد على المحتوى والسياق دون إشراف مباشر. يعمل النموذج على مستوى البايت ويعتمد على بنية شبكية هرمية يمكن تكرارها عبر مراحل متعددة، مما يسمح له بنمذجة مستويات مختلفة من التجريد. يتيح هذا النهج لـ H-Net تحقيق أداء مماثل لموديلات Transformers التقليدية التي تبلغ ضعف حجمه.

وبالإضافة إلى معالجة اللغة، يفتح H-Net آفاقًا جديدة لمعالجة التسلسلات ذات القيم المستمرة مثل الصوت والفيديو، مما قد يمكّن من تطوير أنظمة ذكاء اصطناعي متعددة الوسائط بشكل أفضل. وقد أتاح الباحثون الشيفرة المصدرية للنظام على GitHub، ما يسمح للباحثين والمطورين الآخرين بالبناء على عملهم.

كتب ألبرت غو في منشور مدونة يشرح المشروع: "تجاوز التجزئة لا يتعلق بأدوات التجزئة نفسها، بل بتعلم التجريدات. اكتشاف أداة قادرة على ذلك سيفتح إمكانيات جديدة". ومع استمرار تطور أنظمة الذكاء الاصطناعي، يمثل H-Net خطوة مهمة نحو نماذج أكثر مرونة وكفاءة وقدرة على فهم تعقيدات اللغة البشرية والبيانات المتسلسلة الأخرى.

Source: Theneuron

Latest News