menu
close

神经加速器推动微型深度学习变革

AI 行业正经历从基础的微型机器学习(TinyML)向更为复杂的微型深度学习(TinyDL)在资源受限的边缘设备上实现的重大演进。这一转变由神经处理单元、模型优化技术和专用开发工具的创新驱动。这些进步正使得医疗、工业监测和消费电子等领域的微控制器能够运行日益复杂的 AI 应用。
神经加速器推动微型深度学习变革

嵌入式 AI 领域正在经历根本性变革,开发者正从部署简单的机器学习模型,迈向在极度资源受限的硬件上运行复杂的深度神经网络。

传统的 TinyML 主要聚焦于微控制器上的基础推理任务,而新兴的微型深度学习(TinyDL)范式则代表了边缘计算能力的重大飞跃。随着联网设备的激增,从可穿戴传感器到工业监测仪,对设备端智能的需求日益增长。要在这些资源有限的平台上部署复杂算法,面临着巨大挑战,这推动了模型压缩和专用硬件等领域的创新。研究人员正从被称为“TinyML”的简单机器学习模型,迈向更强大且紧凑的“微型深度学习”(TinyDL)架构。

这一转变得益于多项关键技术的发展。TinyDL 的核心在于模型优化。深度学习模型通常体积庞大、计算密集,需经过大量适配才能高效部署到边缘设备。量化等技术至关重要,它通过降低模型内部数值表示的精度(如将 32 位浮点数转为 8 位整数),大幅减少模型体积和计算需求,尽管可能会牺牲部分精度。剪枝则通过系统性地移除神经网络中的冗余连接,进一步实现模型压缩和加速。

专用神经加速器硬件在这一转型中起到了关键作用。意法半导体(STMicroelectronics)推出的 STM32N6,成为首款配备专用 AI 加速硬件的微控制器单元(MCU),据 ST 称,这标志着 MCU 技术的重大进步,也是 AI 硬件发展史上的重要转折点。回顾历史,AI 硬件领域曾有两次重大事件:2017 年苹果 A11 Bionic 芯片首次在应用处理器中集成 AI 加速,2016 年英伟达 Pascal 架构则验证了 GPU 在 AI 领域的巨大潜力。

如今 STM32N6 内置的 Neural-ART 加速器,拥有近 300 个可配置乘加单元和两条 64 位 AXI 内存总线,吞吐量高达 600 GOPS。这一性能是未配备 NPU 的最快 STM32H7 的 600 倍。 STM32N6 系列是意法半导体迄今最强大的微控制器,专为高要求的边缘 AI 应用设计。其搭载 800 MHz Arm Cortex-M55 核心和 1 GHz Neural-ART 加速器,实时 AI 推理能力高达 600 GOPS,并配备 4.2 MB RAM 和专用 ISP,适用于视觉、音频及工业物联网等任务。

软件框架也正与硬件同步演进,以支持这一转型。TinyML 框架为企业和开发者提供了强大高效的基础设施,使其能够充分利用数据,在边缘设备上高效部署先进算法。这些框架提供了丰富的工具和资源,专为推动微型机器学习战略而设计。主流 TinyML 实现框架包括 TensorFlow Lite(TF Lite)、Edge Impulse、PyTorch Mobile、uTensor,以及 STM32Cube.AI、NanoEdgeAIStudio、NXP eIQ 和微软的 Embedded Learning Library 等平台。

随着相关技术日益成熟,未来将在微型边缘设备上看到越来越复杂的 AI 应用,既能开拓新场景,又能保障隐私、降低延迟和功耗。微型深度学习的转型,是让先进 AI 能力走进资源受限环境的重要里程碑。

Source:

Latest News