Krajobraz AI wbudowanej przechodzi fundamentalną transformację, gdy deweloperzy wykraczają poza proste modele uczenia maszynowego, wdrażając zaawansowane sieci neuronowe na sprzęcie o bardzo ograniczonych zasobach.
Podczas gdy tradycyjny TinyML skupiał się na podstawowych zadaniach inferencji dla mikrokontrolerów, pojawiający się paradygmat Tiny Deep Learning (TinyDL) stanowi znaczący krok naprzód w możliwościach obliczeniowych urządzeń brzegowych. Rozwój urządzeń podłączonych do internetu – od czujników ubieralnych po monitory przemysłowe – wymaga coraz bardziej zaawansowanej sztucznej inteligencji na urządzeniu. Wdrażanie złożonych algorytmów na platformach o ograniczonych zasobach stanowi poważne wyzwanie, napędzając innowacje w takich obszarach jak kompresja modeli czy dedykowany sprzęt. Badacze odchodzą od prostych modeli uczenia maszynowego, określanych jako 'TinyML', na rzecz wdrażania potężniejszych, lecz wciąż kompaktowych architektur 'Tiny Deep Learning' (TinyDL).
Ta zmiana jest możliwa dzięki kilku kluczowym osiągnięciom technologicznym. Podstawową zasadą TinyDL jest optymalizacja modeli. Modele deep learningu, zazwyczaj bardzo duże i wymagające obliczeniowo, muszą być znacząco dostosowane do efektywnego wdrożenia na urządzeniach brzegowych. Kluczowe są tu techniki takie jak kwantyzacja, która obniża precyzję reprezentacji numerycznych w modelu. Na przykład zamiana 32-bitowych liczb zmiennoprzecinkowych na 8-bitowe liczby całkowite znacząco zmniejsza zarówno rozmiar modelu, jak i zapotrzebowanie na moc obliczeniową, choć czasem kosztem dokładności. Przycinanie (pruning), czyli systematyczne usuwanie zbędnych połączeń w sieci neuronowej, dodatkowo wspomaga kompresję i przyspiesza działanie modeli.
Dedykowany sprzęt akceleratorów neuronowych okazuje się kluczowy dla tej transformacji. STMicroelectronics wprowadził STM32N6, co stanowi znaczący krok w technologii mikrokontrolerów – według ST jest to pierwszy MCU z dedykowanym sprzętem do akceleracji AI. To ważny punkt zwrotny w ewolucji sprzętu AI. Patrząc wstecz, dwa przełomowe wydarzenia w tej dziedzinie to: układ Apple A11 Bionic z 2017 roku, pierwszy procesor aplikacyjny z akceleracją AI, oraz architektura Pascal firmy Nvidia z 2016 roku, która udowodniła potencjał GPU w zastosowaniach AI.
Akcelerator Neural-ART w STM32N6 oferuje niemal 300 konfigurowalnych jednostek mnożenia i sumowania oraz dwa 64-bitowe magistrale pamięci AXI, zapewniając przepustowość 600 GOPS. To 600 razy więcej niż w najszybszym STM32H7, który nie posiada NPU. Seria STM32N6 to najpotężniejsze mikrokontrolery STMicroelectronics, stworzone z myślą o wymagających aplikacjach edge AI. Wyposażone są w rdzeń Arm Cortex-M55 o taktowaniu 800 MHz oraz akcelerator Neural-ART pracujący z częstotliwością 1 GHz, oferując do 600 GOPS dla inferencji AI w czasie rzeczywistym. Z 4,2 MB RAM i dedykowanym ISP, są przeznaczone do zadań z zakresu wizji komputerowej, audio oraz przemysłowego IoT.
Równolegle do rozwoju sprzętu ewoluują także frameworki programistyczne. Frameworki TinyML zapewniają solidną i wydajną infrastrukturę, umożliwiającą organizacjom i deweloperom efektywne wykorzystanie danych oraz wdrażanie zaawansowanych algorytmów na urządzeniach brzegowych. Oferują szeroki wachlarz narzędzi i zasobów, wspierających strategiczne inicjatywy w zakresie Tiny Machine Learning. Do najważniejszych frameworków TinyML należą TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor oraz platformy takie jak STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ i Microsoft Embedded Learning Library.
Wraz z dojrzewaniem tej technologii możemy spodziewać się coraz bardziej zaawansowanych aplikacji AI działających bezpośrednio na miniaturowych urządzeniach brzegowych, co umożliwi nowe zastosowania przy jednoczesnym zachowaniu prywatności, redukcji opóźnień i minimalizacji zużycia energii. Przejście do Tiny Deep Learning to istotny kamień milowy na drodze do udostępnienia zaawansowanej AI w środowiskach o ograniczonych zasobach.