Det inbyggda AI-landskapet genomgår en grundläggande förändring när utvecklare nu går bortom enkla maskininlärningsmodeller och istället implementerar sofistikerade djupa neurala nätverk på hårdvara med kraftigt begränsade resurser.
Medan traditionell TinyML fokuserade på grundläggande inferensuppgifter för mikrokontrollers, innebär det framväxande Tiny Deep Learning (TinyDL)-paradigmet ett betydande steg framåt för edge computing. Den snabba ökningen av internetanslutna enheter, från bärbara sensorer till industriella övervakningssystem, kräver alltmer sofistikerad artificiell intelligens direkt på enheten. Att implementera komplexa algoritmer på dessa resursbegränsade plattformar innebär stora utmaningar, vilket driver innovation inom områden som modellkomprimering och specialiserad hårdvara. Forskare går nu bortom enkla maskininlärningsmodeller, kallade 'TinyML', mot att implementera kraftfullare men fortfarande kompakta 'Tiny Deep Learning' (TinyDL)-arkitekturer.
Detta skifte möjliggörs av flera viktiga teknologiska framsteg. Kärnan i TinyDL är modelloptimering. Djupa inlärningsmodeller är normalt mycket stora och beräkningsintensiva, och kräver omfattande anpassning för att kunna användas effektivt på edge-enheter. Tekniker som kvantisering, där man minskar precisionen på de numeriska representationerna i modellen, är avgörande. Exempelvis kan konvertering av 32-bitars flyttal till 8-bitars heltal dramatiskt minska både modellens storlek och dess beräkningsbehov, dock ibland på bekostnad av viss noggrannhet. Pruning, det vill säga systematisk borttagning av överflödiga kopplingar i ett neuralt nätverk, bidrar ytterligare till modellkomprimering och snabbare inferens.
Dedikerad hårdvara för neurala acceleratorer visar sig vara avgörande för denna övergång. STMicroelectronics har lanserat STM32N6, vilket markerar ett betydande steg inom MCU-teknik då den, enligt ST, är den första som har dedikerad hårdvara för AI-acceleration. Detta utgör en viktig vändpunkt i utvecklingen av AI-hårdvara. Historiskt har två stora händelser format AI-hårdvarans utveckling: Apples A11 Bionic-chip 2017, den första applikationsprocessorn med AI-acceleration, och Nvidias Pascal-arkitektur 2016, som visade GPU:ers potential för AI-uppgifter.
Neural-ART-acceleratorn i dagens STM32N6 har nästan 300 konfigurerbara multiply-accumulate-enheter och två 64-bitars AXI-minnesbussar för en genomströmning på 600 GOPS. Det är 600 gånger mer än vad som är möjligt på den snabbaste STM32H7, som saknar NPU. STM32N6-serien är STMicroelectronics mest kraftfulla mikrokontroller hittills, utformad för att hantera krävande edge-AI-applikationer. Den har en 800 MHz Arm Cortex-M55-kärna och en Neural-ART Accelerator på 1 GHz, vilket ger upp till 600 GOPS för realtids-AI-inferens. Med 4,2 MB RAM och en dedikerad ISP är den anpassad för vision-, ljud- och industriella IoT-uppgifter.
Mjukvaruramverk utvecklas parallellt med hårdvaran för att stödja denna övergång. TinyML-ramverk erbjuder en robust och effektiv infrastruktur som gör det möjligt för organisationer och utvecklare att utnyttja sina data och implementera avancerade algoritmer på edge-enheter. Dessa ramverk tillhandahåller ett brett utbud av verktyg och resurser särskilt utformade för att driva strategiska initiativ inom Tiny Machine Learning. De främsta ramverken för TinyML-implementering inkluderar TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor samt plattformar som STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ och Microsofts Embedded Learning Library.
I takt med att denna teknik mognar kan vi förvänta oss alltmer avancerade AI-applikationer som körs direkt på små edge-enheter, vilket möjliggör nya användningsområden samtidigt som integritet bevaras, latens minskas och energiförbrukningen hålls nere. Övergången till Tiny Deep Learning markerar en viktig milstolpe för att göra avancerad AI tillgänglig även i miljöer med begränsade resurser.