طور فريق بقيادة طالب الدكتوراه سوكجون هوانغ والأساتذة براندون وانغ وألبرت غو في جامعة كارنيجي ميلون بنية ذكاء اصطناعي مبتكرة تُدعى H-Net، من شأنها أن تغيّر طريقة معالجة النماذج اللغوية للنصوص والبيانات المتسلسلة الأخرى.
تعتمد النماذج اللغوية التقليدية على التجزئة (Tokenization)، وهي خطوة معالجة مسبقة تقسم النص إلى وحدات أصغر بناءً على قواعد صارمة. يفرض هذا النهج قيودًا أساسية، خاصةً في اللغات التي لا تحتوي على حدود واضحة للكلمات أو في المجالات المتخصصة مثل علم الجينوم. يلغي H-Net هذا القيد من خلال آلية تقسيم ديناميكية تتعلم تلقائيًا الطريقة الأكثر فعالية لتقسيم النص أثناء التدريب.
تُظهر الورقة البحثية التي نُشرت على arXiv في 10 يوليو وتم تحديثها في 15 يوليو 2025 أن H-Net يحقق كفاءة بيانات أفضل بنحو أربعة أضعاف عند معالجة تسلسلات الحمض النووي مقارنة بالطرق التقليدية. كما يُظهر النظام أداءً متفوقًا عبر لغات متعددة، مع نتائج قوية بشكل خاص في اللغة الصينية وأكواد البرمجة.
ما يجعل H-Net ثوريًا هو قدرته على تعلم استراتيجيات تقسيم تعتمد على المحتوى والسياق دون إشراف مباشر. يعمل النموذج على مستوى البايت ويعتمد على بنية شبكية هرمية يمكن تكرارها عبر مراحل متعددة، مما يسمح له بنمذجة مستويات مختلفة من التجريد. يتيح هذا النهج لـ H-Net تحقيق أداء مماثل لموديلات Transformers التقليدية التي تبلغ ضعف حجمه.
وبالإضافة إلى معالجة اللغة، يفتح H-Net آفاقًا جديدة لمعالجة التسلسلات ذات القيم المستمرة مثل الصوت والفيديو، مما قد يمكّن من تطوير أنظمة ذكاء اصطناعي متعددة الوسائط بشكل أفضل. وقد أتاح الباحثون الشيفرة المصدرية للنظام على GitHub، ما يسمح للباحثين والمطورين الآخرين بالبناء على عملهم.
كتب ألبرت غو في منشور مدونة يشرح المشروع: "تجاوز التجزئة لا يتعلق بأدوات التجزئة نفسها، بل بتعلم التجريدات. اكتشاف أداة قادرة على ذلك سيفتح إمكانيات جديدة". ومع استمرار تطور أنظمة الذكاء الاصطناعي، يمثل H-Net خطوة مهمة نحو نماذج أكثر مرونة وكفاءة وقدرة على فهم تعقيدات اللغة البشرية والبيانات المتسلسلة الأخرى.