Ландшафт вбудованого штучного інтелекту зазнає фундаментальних змін, оскільки розробники переходять від простих моделей машинного навчання до впровадження складних глибоких нейронних мереж на апаратному забезпеченні з суворими обмеженнями ресурсів.
Традиційний TinyML був зосереджений на базових завданнях інференсу для мікроконтролерів, тоді як новий підхід Tiny Deep Learning (TinyDL) означає суттєвий стрибок у можливостях обробки на периферії. Зростання кількості пристроїв з підключенням до Інтернету — від носимих сенсорів до промислових моніторів — вимагає дедалі складнішого штучного інтелекту безпосередньо на пристроях. Розгортання складних алгоритмів на таких обмежених платформах створює значні виклики, що стимулює інновації у сферах стиснення моделей та спеціалізованого апаратного забезпечення. Дослідники вже виходять за межі простих моделей машинного навчання, відомих як 'TinyML', і впроваджують більш потужні, але все ще компактні архітектури 'Tiny Deep Learning' (TinyDL).
Цей зсув стає можливим завдяки кільком ключовим технологічним досягненням. Основний принцип TinyDL полягає в оптимізації моделей. Глибокі нейронні мережі, які зазвичай мають великий розмір і потребують значних обчислювальних ресурсів, вимагають суттєвої адаптації для ефективного розгортання на периферійних пристроях. Ключовими є такі техніки, як квантизація, що зменшує точність числових представлень у моделі. Наприклад, перетворення 32-бітних чисел з плаваючою комою на 8-бітні цілі значно скорочує розмір моделі та обчислювальні витрати, хоча й може призвести до певної втрати точності. Обрізання (pruning), тобто систематичне видалення надлишкових зв’язків у нейромережі, також сприяє стисненню та прискоренню моделей.
Вирішальну роль у цьому переході відіграє спеціалізоване апаратне забезпечення — нейронні акселератори. STMicroelectronics представила STM32N6, який, за словами компанії, став першим мікроконтролером із вбудованим апаратним прискорювачем для AI. Це знаменує собою важливий етап в еволюції апаратного забезпечення для штучного інтелекту. Якщо згадати історію, було два ключові моменти: чіп Apple A11 Bionic у 2017 році — перший процесор із вбудованим AI-акселератором, та архітектура Pascal від Nvidia у 2016 році, яка довела ефективність GPU для AI-завдань.
Neural-ART акселератор у сучасному STM32N6 має майже 300 конфігурованих блоків множення-накопичення та дві 64-бітні шини пам’яті AXI, забезпечуючи пропускну здатність у 600 GOPS. Це у 600 разів більше, ніж у найшвидшого STM32H7, який не має NPU. Серія STM32N6 — це найпотужніші мікроконтролери STMicroelectronics на сьогодні, розроблені для складних AI-завдань на периферії. Вони оснащені ядром Arm Cortex-M55 з частотою 800 МГц і акселератором Neural-ART на 1 ГГц, що забезпечує до 600 GOPS для інференсу AI у реальному часі. Завдяки 4,2 МБ оперативної пам’яті та окремому ISP, ці мікроконтролери ідеально підходять для задач комп’ютерного зору, аудіо та промислового IoT.
Паралельно з апаратним забезпеченням розвиваються й програмні фреймворки. Фреймворки TinyML надають надійну та ефективну інфраструктуру, яка дозволяє організаціям і розробникам використовувати свої дані та впроваджувати передові алгоритми на периферійних пристроях. Вони пропонують широкий набір інструментів і ресурсів, спеціально створених для реалізації стратегічних ініціатив у сфері Tiny Machine Learning. До найпопулярніших фреймворків TinyML належать TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor, а також платформи STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ та Microsoft Embedded Learning Library.
У міру розвитку цієї технології ми побачимо дедалі складніші AI-застосунки, що працюють безпосередньо на малих периферійних пристроях, відкриваючи нові сценарії використання, зберігаючи приватність, зменшуючи затримки та споживання енергії. Перехід до Tiny Deep Learning — це важливий крок на шляху до доступності передового AI у середовищах з обмеженими ресурсами.