Ландшафт встроенного искусственного интеллекта претерпевает фундаментальные изменения: разработчики переходят от простых моделей машинного обучения к внедрению сложных глубоких нейронных сетей на крайне ограниченном по ресурсам оборудовании.
Если традиционный TinyML был ориентирован на базовые задачи инференса для микроконтроллеров, то новая парадигма Tiny Deep Learning (TinyDL) знаменует собой значительный скачок в возможностях периферийных вычислений. Рост числа устройств с подключением к интернету — от носимых сенсоров до промышленных мониторов — требует всё более совершенного искусственного интеллекта на устройстве. Развёртывание сложных алгоритмов на платформах с ограниченными ресурсами сопряжено с серьёзными вызовами, что стимулирует инновации в таких областях, как компрессия моделей и специализированное оборудование. Исследователи переходят от простых моделей машинного обучения, известных как TinyML, к более мощным, но по-прежнему компактным архитектурам Tiny Deep Learning (TinyDL).
Этот сдвиг стал возможен благодаря ряду ключевых технологических достижений. В основе TinyDL лежит оптимизация моделей. Глубокие нейронные сети, обычно отличающиеся большим объёмом и высокой вычислительной сложностью, требуют серьёзной адаптации для эффективного внедрения на периферийных устройствах. Ключевыми являются такие техники, как квантизация, снижающая точность числовых представлений внутри модели. Например, перевод 32-битных чисел с плавающей точкой в 8-битные целые существенно уменьшает размер модели и вычислительные затраты, хотя и может привести к некоторой потере точности. Обрезка (pruning) — систематическое удаление избыточных связей в нейросети — также способствует компрессии и ускорению моделей.
Специализированное оборудование для нейроускорения становится критически важным для этого перехода. Компания STMicroelectronics представила STM32N6 — значимый шаг в технологии микроконтроллеров, поскольку, по заявлению ST, это первый MCU с выделенным оборудованием для ускорения AI. Это знаменует собой важный поворотный момент в эволюции AI-аппаратуры. Вспоминая историю, можно выделить два крупных события в развитии AI-оборудования: чип Apple A11 Bionic в 2017 году — первый процессор приложений с поддержкой AI-ускорения, и архитектуру Nvidia Pascal в 2016 году, доказавшую потенциал GPU для AI-задач.
Нейроускоритель Neural-ART в STM32N6 сегодня содержит почти 300 настраиваемых блоков умножения-накопления и две 64-битные шины памяти AXI, обеспечивающие пропускную способность 600 GOPS. Это в 600 раз больше, чем у самого быстрого STM32H7, не оснащённого NPU. Серия STM32N6 — самые мощные микроконтроллеры STMicroelectronics на сегодняшний день, предназначенные для сложных AI-задач на периферии. Они оснащены ядром Arm Cortex-M55 с частотой 800 МГц и нейроускорителем Neural-ART на 1 ГГц, обеспечивая до 600 GOPS для инференса AI в реальном времени. Объём ОЗУ составляет 4,2 МБ, а выделенный ISP делает их оптимальными для задач компьютерного зрения, аудио и промышленного IoT.
Программные фреймворки развиваются параллельно с аппаратным обеспечением, поддерживая этот переход. Фреймворки TinyML предоставляют надёжную и эффективную инфраструктуру, позволяющую организациям и разработчикам использовать свои данные и внедрять продвинутые алгоритмы на периферийных устройствах. Эти фреймворки предлагают широкий спектр инструментов и ресурсов, специально созданных для реализации стратегических инициатив в области Tiny Machine Learning. К ведущим фреймворкам TinyML относятся TensorFlow Lite (TF Lite), Edge Impulse, PyTorch Mobile, uTensor, а также платформы STM32Cube.AI, NanoEdgeAIStudio, NXP eIQ и Embedded Learning Library от Microsoft.
По мере совершенствования этой технологии можно ожидать появления всё более сложных AI-приложений, работающих непосредственно на миниатюрных периферийных устройствах. Это откроет новые сценарии использования, обеспечит приватность, снизит задержки и энергопотребление. Переход к Tiny Deep Learning — важная веха на пути к доступности продвинутого искусственного интеллекта в условиях ограниченных ресурсов.