Det indlejrede AI-landskab gennemgår en grundlæggende transformation, efterhånden som udviklere bevæger sig ud over simple maskinlæringsmodeller og begynder at implementere avancerede dybe neurale netværk på hardware med stærkt begrænsede ressourcer.
Mens traditionel TinyML fokuserede på basale inferensopgaver for mikrocontrollere, repræsenterer det fremvoksende Tiny Deep Learning (TinyDL)-paradigme et markant spring fremad for edge computing. Udbredelsen af internetforbundne enheder, fra bærbare sensorer til industrielle overvågningssystemer, kræver stadig mere sofistikeret kunstig intelligens direkte på enheden. Implementeringen af komplekse algoritmer på disse ressourcebegrænsede platforme medfører betydelige udfordringer, hvilket driver innovation inden for blandt andet modelkomprimering og specialiseret hardware. Forskere bevæger sig nu ud over simple maskinlæringsmodeller, kaldet 'TinyML', og arbejder på at implementere mere kraftfulde, men stadig kompakte, 'Tiny Deep Learning' (TinyDL)-arkitekturer.
Dette skifte muliggøres af flere centrale teknologiske fremskridt. Kernen i TinyDL er modeloptimering. Dybe læringsmodeller, der typisk er store og kræver betydelig regnekraft, skal tilpasses væsentligt for at kunne implementeres effektivt på edge-enheder. Teknikker som kvantisering, hvor man reducerer præcisionen af de numeriske repræsentationer i modellen, er altafgørende. For eksempel reducerer konvertering af 32-bit floating-point tal til 8-bit heltal både modelstørrelse og beregningskrav markant, dog eventuelt på bekostning af lidt nøjagtighed. Pruning, altså systematisk fjernelse af overflødige forbindelser i et neuralt netværk, bidrager yderligere til modelkomprimering og -acceleration.
Dedikeret hardware til neurale acceleratorer viser sig at være afgørende for denne overgang. STMicroelectronics har introduceret STM32N6, som markerer et væsentligt skridt i MCU-teknologien, idet den ifølge ST er den første, der har dedikeret hardware til AI-acceleration. Dette markerer et vigtigt vendepunkt i udviklingen af AI-hardware. Ser man tilbage i historien, har der været to store begivenheder i AI-hardware: Apples A11 Bionic-chip i 2017, den første applikationsprocessor med AI-acceleration, og Nvidias Pascal-arkitektur i 2016, der beviste GPU'ers potentiale til AI-opgaver.
Neural-ART-acceleratoren i den nye STM32N6 har næsten 300 konfigurerbare multiply-accumulate-enheder og to 64-bit AXI-hukommelsesbusser, hvilket giver en gennemstrømning på 600 GOPS. Det er 600 gange mere end det, der er muligt på den hurtigste STM32H7, som ikke har en NPU. STM32N6-serien er STMicroelectronics' mest kraftfulde mikrocontroller til dato, designet til at håndtere krævende edge AI-applikationer. Den har en 800 MHz Arm Cortex-M55-kerne og en Neural-ART Accelerator, der kører ved 1 GHz og leverer op til 600 GOPS til realtids-AI-inferens. Med 4,2 MB RAM og en dedikeret ISP er den skræddersyet til vision-, lyd- og industrielle IoT-opgaver.
Softwareframeworks udvikler sig parallelt med hardwaren for at understøtte denne overgang. TinyML-frameworks tilbyder en robust og effektiv infrastruktur, der gør det muligt for organisationer og udviklere at udnytte deres data og implementere avancerede algoritmer effektivt på edge-enheder. Disse frameworks tilbyder en bred vifte af værktøjer og ressourcer, der er specifikt designet til at understøtte strategiske initiativer inden for Tiny Machine Learning. De førende frameworks til TinyML-implementering inkluderer TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor samt platforme som STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ og Microsofts Embedded Learning Library.
Efterhånden som teknologien modnes, kan vi forvente at se stadig mere avancerede AI-applikationer køre direkte på små edge-enheder, hvilket muliggør nye anvendelser, samtidig med at privatliv beskyttes, latenstid reduceres og strømforbruget minimeres. Overgangen til Tiny Deep Learning markerer en væsentlig milepæl i at gøre avanceret AI tilgængelig i ressourcebegrænsede miljøer.