计算机技术论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 1182|回复: 0

MIT韩松团队开发全新微型深度学习技术MCUNet

[复制链接]
发表于 2021-4-6 16:25:17 | 显示全部楼层 |阅读模式
#111723#“MCUNet可能把深度进修在单片机上做到 ImageNet 70% 以上的正确率,咱们的研讨标明,在物联网装备上在线停止小资本呆板进修的时期正在到来。”
克日,MIT 电子工程和盘算机迷信系助理教学韩松告知 DeepTech,他所率领的团队处理了此前因为单片机硬件资本的限度没法在物联网装备上的停止微型呆板进修的困难。
往年 7 月,韩松团队宣布的论文 “MCUNet: Tiny Deep Learning on IoT Devices” 中提出了 MCUNet 计划,能够通太高效的收集架构搜寻(TinyNAS)和轻量推理引擎(TinyEngine)的结合计划,实当初 MCU(Microcontroller Unit 微把持单位,又称单片机)上运转 ImageNet 级其余推理。该论文第一作者林己在接收 DeepTech 采访时表现,“咱们发明,用咱们的 MCUNet 计划,基础上绝对轻量级的利用,在手机上跑得比拟快的利用,都能够安排到单片机上。”
该论文表现,比拟谷歌的 TF-Lite Micro 与 ARM 的 CMSIS-NN 的传统计划,应用 MCUNet 停止进修推理所须要的内存能够增加为本来的 29%,同时推理速率可能晋升 1.7-3.3 倍。
据懂得,上述论文已当选往年的 AI 顶会 NeurIPS Spotlight,将在 12 月初停止线上分享探究运动。
更让人高兴的是,NeurIPS 举办前夜,林己告知 DeepTech,论文宣布后,团队对 MCUNet 计划停止了再度优化,实现了运转应用内存缩减的同时推理速率的再晋升。
DeepTech 懂得到,现在,MCUNet 技巧已与三家公司告竣配合,同时更多公司表白了配合动向。
现在该技巧大多用于语音或许视觉的要害词检测。语音检测如各人熟习的 Siri 以及 OK Google 之类;在视觉要害词检测方面,林己举例说,比方人物辨认利用中,能够先应用基于 MCUNet 计划低功耗、低本钱的硬件检测摄像头前能否有人,检测成果表现有人以后,再去开启强盛的、能耗高的下一级 AI 体系。如斯一来,能够实现全部装备在能耗较低的待机状况下随时筹备激活的后果,下降本钱的同时,坚持体系的高效任务。
MCUNet 实现 IoT 装备上的微型呆板进修

始终以来,深度进修在 IoT 微型装备上的运转难点在于,单片机的硬件资本限度。由于单片机的内存资本仅为手机、GPU 的几千分之一,这致使本来在手机和 GPU 上可能完善运转的 AI 计划,基本没法放入单片机中(模子巨细过大),运转就更是别想(activation过大)。先前的模子紧缩、收集计划相干任务,重要是优化减小神经收集的盘算量或许模子巨细,没有斟酌到运转时神经收集的 activation 巨细,这致使优化过的神经收集也难以满意单片机的资本限度。
对此,韩松团队开辟的 MCUNet 计划,采取 TinyNAS 和 TinyEngine 联合的方法,可能公道计划单片机上唯一的内存,并停止高效的推理运算。
此中,TinyNAS 须要通过两个步调实现对单片机无限的空间停止公道计划,以到达晋升终究模子准确度的目标。
第一步,主动搜寻神经收集空间来适配差别硬件的资本限度,找到能够满意硬件资本限度的最高精度的搜寻空间;第二步,依据差别搜寻空间中神经收集盘算量的散布,抉择特订单片机的自在搜寻空间停止收集架构的搜寻。
搜寻空间时,须要输入辨别率和收集宽度停止搜寻。大略有 108 个可能的搜寻空间设置,每个搜寻空间设置包括 3.3×1025个子收集。
韩松团队以为,在内存束缚下更有可能天生高 FLOPS 模子的计划空间能够供给更高的模子容量,因而有可能实现高精度。对照白色和玄色,应用白色空间停止神经系统构造搜寻可到达 78.7% 的终究精度,而玄色空间则为 74.2%(在 ImageNet 100 上)。

图 | TinyNAS 通过火析差别搜寻空间的 FLOP CDF 来抉择最好搜寻空间
经由 TinyNAS 的优化,确保单片机在硬件资本最好调配的状况下应用 TinyEngine 开展推理运算。
在推理运算方面,传统的呆板进修计划 TF-Lite Micro 与 CMSIS-NN 采取的是基于说明器的运转框架。在推理运转的同时停止收集构造的说明,以是须要将神经收集操纵中全部可能用到的算子以及支撑全部下级的代码全体贮存,这必需要有充足大的内存才干够承载。别的,说明型框架是在运转时期对神经收集的构造停止说明,这一举措也将增添运转的累赘。
这类 “甜美的累赘” 对于 “身强力壮的伟人” 手机和 GPU 等外存充足大的装备并无大碍,但对于单片机这类本身前提无限的 “小家伙” 来讲,几乎寸步难行,乃至有将其压垮的架式。
由此,韩松团队为 “小家伙” 量身定制了新的计划 ——MCUNet,林己向 DeepTech 先容称,MCUNet 应用 TinyEngine 框架,将神经收集的编译和履行步调离开停止。编译阶段明白决议好内存的调理、履行进程中的必备举措以及所需算子,在履行进程中,微型处置器上只要要对以后神经收集所履行的义务须要的算子停止贮存,内存调理上也无需停止静态处置。做到节俭说明时光的同时,也让内存资本本就缓和的单片性能够 “松一口吻”,让更大模子神经收集的运转看到一丝盼望。
试验成果表现,应用 TinyEngine 运转之下的推理,与传统框架 TF-Lite Micro 对照,推理速率晋升了 3 倍,内存占用缩减为1/4,在 ImageNet 上的正确率则进步了 17%。

图 | TinyEngine 与传统框架推理效力、内存占用峰值、准确度对照
值得留神的是,在该论文宣布以后,韩松团队又参加了 in-place depthwise convolution 技巧,联合 TinyNAS 能够进一步缩小神经收集运转时的最大内存,同时下降神经收集运转的硬件需要,实现 MCUNet 计划推理运算下效力和正确率的进一步晋升。别的,林己还提到,“当初咱们还参加了目的检测相干的利用,比方能够用来检测人、车以及人有没有戴口罩等,而此前重要存眷分类方面的利用”。
MCUNet 出生于新冠疫情时期

“团体研发特别前期,是在疫情下停止的,同窗们都是在断绝的前提下自力实现研发,团队通过近程停止交换,实在做得很辛劳。”
谈及 MCUNet 的研发进程,韩松表现他印象最深入的是疫情时期团队成员在没法面临面交换的情形下停止研发,挑衅很大。
前文提到,提出 MCUNet 计划的论文已当选往年的 NeurIPS spotlight。实在,除此以外,韩松团队往年当选 NeurIPS 的另有别的两篇,分辨为《TinyTL:下降内存占用而非参数目用于高效的装备上进修》和《可微分数据加强:练习数据高效的天生抗衡收集》。在此错误别的两篇论文停止开展,简略懂得下该团队中 MCUNet 研发的重要成员。
带队教师韩松,为麻省理工电子工程和盘算机迷信系助理教学,在斯坦福大学取得博士学位,研讨重点为高效的深度进修盘算。他曾提出的深度紧缩技巧能够在不丧失神经收集精度的条件下大幅缩小收集的模子参数,而且在硬件实现的高效推理引擎中初次摸索了模子剪枝和参数稀少化在深度进修减速器中的利用。曾获 ICLR' 16 和 FPGA' 17 最好论文奖等奖项,也因其在 “深度紧缩” 技巧上的奉献,于 2019 年被《麻省理工科技批评》评为寰球 “35 岁以下的 35 名出色翻新者”。
MCUNet 论文第一作者林己,现为 MIT HAN Lab 在读博士生,研讨偏向是高效力的深度进修算法和体系,除 MCUNet,他还曾开辟全主动的深度模子紧缩和减速方式(AMC)。
参加 MCUNet 研讨的另有陈威铭,为台湾大学博士、MIT HAN Lab 准博后,研讨偏向重要包含微型化呆板进修,MCUNet 计划中,陈威铭计划了合适微型把持器(Microcontroller)上运转的深度进修模子引擎(TinyEngine)。
原文题目:MIT韩松团队开辟全新微型深度进修技巧MCUNet,实现ImageNet超70%正确率,可在物联网装备高效运转
文章出处:【微信大众号:DeepTech深科技】欢送增加存眷!文章转载请注明出处。

更多内容阅读推荐:空调不能开机怎么办
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

无图版|手机版|计算机技术论坛 JSJBBS.CN @ 2008-2024 ( 鲁ICP备17021708号 )

技术支持 : 北京康盛新创科技有限责任公司

快速回复 返回顶部 返回列表