menu
close

اختراق H-Net في الذكاء الاصطناعي يلغي قواعد التجزئة الصارمة للنصوص

كشف باحثون من جامعة كارنيجي ميلون في 23 يوليو 2025 عن نظام H-Net الثوري في الذكاء الاصطناعي، والذي يتعلم تلقائياً كيفية تقسيم النصوص بشكل أمثل أثناء التدريب بدلاً من الاعتماد على قواعد التجزئة المبرمجة مسبقاً. أظهر النظام أداءً أفضل بنحو أربعة أضعاف في معالجة تسلسلات الحمض النووي وتحسينات ملحوظة عبر لغات متعددة مقارنة بالطرق التقليدية. يمثل هذا النهج التكيفي في معالجة النصوص تقدماً أساسياً في كيفية فهم الأنظمة الذكية للبيانات المختلفة ومعالجتها.
اختراق H-Net في الذكاء الاصطناعي يلغي قواعد التجزئة الصارمة للنصوص

طوّر فريق بقيادة طالب الدكتوراه سوكجون هوانغ والأساتذة براندون وانغ وألبرت جو في جامعة كارنيجي ميلون بنية ذكاء اصطناعي مبتكرة تُدعى H-Net، من شأنها إحداث تحول في طريقة معالجة النماذج اللغوية للنصوص والبيانات التسلسلية الأخرى.

تعتمد النماذج اللغوية التقليدية على التجزئة (Tokenization)، وهي خطوة معالجة مسبقة تقوم بتقسيم النص إلى وحدات أصغر وفق قواعد صارمة. هذا النهج يفرض قيوداً جوهرية، خاصة في اللغات التي لا تحتوي على حدود واضحة للكلمات أو في مجالات متخصصة مثل علم الجينوم. يلغي H-Net هذا القيد من خلال آلية تقسيم ديناميكية تتعلم تلقائياً أفضل طرق تجزئة النص أثناء التدريب.

توضح الورقة البحثية المنشورة على موقع arXiv في 10 يوليو والمحدّثة في 15 يوليو 2025 أن H-Net يحقق كفاءة في معالجة بيانات تسلسل الحمض النووي تفوق الطرق التقليدية بنحو أربعة أضعاف. كما أظهر النظام أداءً متفوقاً عبر لغات متعددة، مع نتائج قوية بشكل خاص في اللغة الصينية وبرمجة الأكواد.

ما يجعل H-Net ثورياً هو قدرته على تعلم استراتيجيات تقسيم تعتمد على المحتوى والسياق دون إشراف مباشر. يعمل النموذج على مستوى البايت ويعتمد بنية شبكية هرمية يمكن تكرارها على مراحل متعددة، مما يمكّنه من تمثيل مستويات مختلفة من التجريد. يتيح هذا النهج لـ H-Net تحقيق أداء مماثل لنماذج Transformers المعتمدة على الرموز (Tokens) والتي تفوقه في الحجم بمرتين.

وبعيداً عن معالجة اللغة، يفتح H-Net آفاقاً لمعالجة تسلسلات البيانات المستمرة مثل الصوت والفيديو، مما قد يمكّن من تطوير أنظمة ذكاء اصطناعي متعددة الوسائط أكثر كفاءة. وقد أتاح الباحثون الشيفرة المصدرية للنظام عبر GitHub، مما يتيح للباحثين والمطورين الآخرين البناء على هذا العمل.

كتب ألبرت جو في تدوينة شرح فيها المشروع: "تجاوز التجزئة لا يتعلق بأدوات التجزئة، بل بتعلم التجريدات. اكتشاف أداة قادرة على ذلك سيفتح إمكانيات جديدة." ومع استمرار تطور أنظمة الذكاء الاصطناعي، يمثل H-Net خطوة مهمة نحو نماذج أكثر مرونة وكفاءة وقدرة على فهم تعقيدات اللغة البشرية والبيانات التسلسلية الأخرى.

Source: Theneuron

Latest News