Пейзажът на вградените AI системи претърпява фундаментална трансформация, тъй като разработчиците преминават отвъд простите машинно-обучителни модели към внедряване на сложни дълбоки неурални мрежи върху силно ограничен хардуер.
Докато традиционното TinyML беше фокусирано върху базови задачи по инференция за микроконтролери, нововъзникващият парадигма Tiny Deep Learning (TinyDL) представлява значителен скок напред в способностите на edge изчисленията. Разпространението на интернет-свързани устройства – от носими сензори до индустриални монитори – изисква все по-усъвършенстван изкуствен интелект на самото устройство. Внедряването на сложни алгоритми върху тези платформи с ограничени ресурси представлява сериозно предизвикателство, което стимулира иновациите в области като компресия на модели и специализиран хардуер. Изследователите вече надграждат отвъд простите машинно-обучителни модели, наречени 'TinyML', към внедряване на по-мощни, но все така компактни архитектури за 'Tiny Deep Learning' (TinyDL).
Този преход се осъществява благодарение на няколко ключови технологични развития. Основният принцип, залегнал в TinyDL, е оптимизацията на моделите. Дълбоките обучителни модели, които обикновено са огромни по размер и изискват значителни изчислителни ресурси, трябва да бъдат сериозно адаптирани за ефективно внедряване на edge устройства. Техники като квантизацията, която намалява точността на числовите представяния в модела, са от първостепенно значение. Например, преобразуването на 32-битови числа с плаваща запетая в 8-битови цели числа драстично намалява както размера на модела, така и изчислителните изисквания, макар и понякога за сметка на точността. Преустановяването (pruning), системното премахване на излишни връзки в неуралната мрежа, допълнително допринася за компресията и ускорението на модела.
Специализираният хардуер за неурално ускорение се оказва ключов за този преход. STMicroelectronics представи STM32N6, отбелязвайки значителна стъпка в технологията на микроконтролерите, тъй като според ST това е първият MCU с вграден хардуер за AI ускорение. Това бележи важен повратен момент в еволюцията на AI хардуера. Поглеждайки назад, има два основни момента в развитието на AI хардуера: чипът A11 Bionic на Apple от 2017 г., първият процесор за приложения с AI ускорение, и архитектурата Pascal на Nvidia от 2016 г., която доказа потенциала на GPU за AI задачи.
Neural-ART ускорителят в днешния STM32N6 разполага с почти 300 конфигурируеми блока за умножение-натрупване и два 64-битови AXI memory bus-а за пропускателна способност от 600 GOPS. Това е 600 пъти повече от възможното при най-бързия STM32H7, който няма NPU. Серията STM32N6 е най-мощният микроконтролер на STMicroelectronics досега, създаден да се справя с взискателни edge AI приложения. Той разполага с 800 MHz Arm Cortex-M55 ядро и Neural-ART ускорител, работещ на 1 GHz, осигуряващ до 600 GOPS за AI инференция в реално време. С 4.2 MB RAM и специализиран ISP, той е пригоден за задачи във визия, аудио и индустриален IoT.
Софтуерните рамки също се развиват паралелно с хардуера, за да подкрепят този преход. TinyML рамките предоставят стабилна и ефективна инфраструктура, която позволява на организации и разработчици да използват своите данни и да внедряват напреднали алгоритми на edge устройства. Тези рамки предлагат широк набор от инструменти и ресурси, специално създадени за стратегически инициативи в Tiny Machine Learning. Най-популярните рамки за TinyML включват TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor, както и платформи като STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ и Microsoft Embedded Learning Library.
С напредъка на тази технология можем да очакваме все по-усъвършенствани AI приложения, работещи директно върху малки edge устройства, което ще позволи нови сценарии на употреба, като същевременно се запазва поверителността, намалява латентността и се минимизира енергопотреблението. Преходът към Tiny Deep Learning е значителен етап в правенето на напредналия AI достъпен в среди с ограничени ресурси.