Skip to content

Latest commit

 

History

History
72 lines (56 loc) · 14.7 KB

2019-03-31.md

File metadata and controls

72 lines (56 loc) · 14.7 KB
layout
default

嵌入式AI简报 (2019-03-31)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开

业界新闻

  • 视频:波士顿动力发布仓储搬运机器人Handle搬箱子,子不高,动作迅捷 | 新智元
    摘要:Handle 是一款专为物流设计的移动操作机器人。在抓取箱子前利用视觉系统定位,在将箱子放到托盘上时,它的 “力度控制” 能力可以将每个箱子码放整齐。
  • 华为芯片大动作:英国投资3亿圈地剑桥,紧邻ARM自建工厂 | 新智元
    摘要:近日,华为宣布将“圈地造芯”:投资3.3亿元人民币买下剑桥大学500英亩地,其中100英亩计划设立研发部门和园区。我们常说的ARM 微处理器,就是采用ARM技术知识产权(IP核)的微处理器。全世界超过95%的智能手机和平板电脑都采用ARM。基于ARM 技术的微处理器应用约占据了32 位微处理器75 %以上的市场份额。
  • 阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持 | 机器之心
    摘要:自研的第一款阿里 NPU 2019年下半年将正式发布,且在同等芯片里性能领先十倍以上。早在2018年阿里宣布达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。之后全资收购中天微,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。
  • 华为P30 Pro发布,50倍变焦,黑夜拍成白天,7k起售,手机中的天文望远镜 | 量子位
    摘要:华为P30搭载了麒麟980处理器,该处理器是全球首次采用7nm制程工艺的移动手机SoC芯片,拥有69亿个晶体管,集成了Mali-G76 GPU,再结合华为独家的GPU Turbo,带来了畅快的游戏体验。在拍人像时,AI HDR+机器学习技术让逆光的照片也能十分清晰。在拍视频的情境下,也能充分发挥暗光拍摄和光学防抖+AI防抖,让画面更清晰,电源键化身智能助理按键,可以一键召唤谷歌智能语音助理。

论文

开源项目

博文

  • Android Neural Networks API —— 一种神经网络软件系统中间层的设计与实现 | 黎明灰烬博客
    摘要:随着深度学习的进一步发展,用于减轻框架层和硬件厂商开发代价的「中间层表示」以各种形式涌现:包括采用编译技术做图优化的、制定模型文件格式的、操作系统中间层的。本文重点介绍了操作系统中间层的代表 Android Neural Networks API 的软件架构、内部模块交互方式,并讨论了其设计。总体而言,Android Neural Networks API 简洁有效,符合软件系统的设计方法学。
  • 杜克大学终身教授陈怡然专访:让非主流成为主流,AI芯片的起源、现状与前路 | 新智元
    摘要:陈怡然教授说道,通用芯片仍然会长期存在也是主干,但随着业务多样性通用芯片可能会作为通用芯片的辅助,专用芯片的设计要经历很长时间,行业特定设计(Domain specific design)。针对特定场景的重要步骤进行抽象和实现。专用芯片可能跟不上未来人工智能发展,要么技术上重构关键器件,要么增加协处理器,要么等待下一个生命周期。
    后摩尔时代对于AI芯片设计来说,晶体管目前做到更小的成本在增大,重点也在于如何在相同逻辑数量下提高计算效率,一是基于紧密结合业务的新器件和材料如特性像神经突触的忆阻器,二是用新制造工艺如3D堆叠在单位面积堆更多层的存储和计算逻辑,提高计算时的数据传输效率。未来的AI芯片发展会朝着软硬件结合,业务结合为导向,虽然AI有泡沫但也是头部公司和应用,还有很多问题待解决,AI没有运算的支撑是不可能大量更好更有效的部署的。我们要更多的去重视它的计算平台,更多的注重它在具体场景的实现。
  • 如何在CUDA中为Transformer编写一个PyTorch自定义层 | 机器之心
    摘要:根据写Transformer,学到许多关于 CUDA 如何工作的知识,以及诸如 block、线程、核函数、内存、同步、缓存这样的概念,希望本文能够对那些想要入门 CUDA 性能优化的人有所帮助。此外,作者提到 python 的逐行性能分析器line_profiler,在要分析的函数顶部添加「@profiler」装饰器后,在命令行中用「kernprof」替换「python」来运行分析器。
  • 再见,Yarn!滴滴机器学习平台架构演进 | AI前线
    摘要:不同公司都有自己的机器学习平台,但就平台所要解决的问题和技术选型基本还是大同小异。所谓大同是指大家所要处理的问题都相似,技术架构和选型也差不太多,比如都会使用 GPU 集群、采用 Spark 或 K8s 平台等。所谓小异是指各家规模不同,各家都在结合自己的情况、所处的阶段并根据自己的特点解决平台化的问题。
    滴滴机器学习平台的治理思路主要是:减少重复、提高效率。本文将对滴滴的机器学习平台进行全面解读,重点分享机器学习平台不同阶段所要解决的问题,以及解决问题的思路和技术方案。针对框架层自主研发了深度学习框架 IFX,并适配于 GPU 服务器和移动端平台。
    由于GPU服务器上 CUDA 存在 context 管理的问题,所以实现了一种 GPU 上的并发机制,有效地绕开了这些问题所带来的额外开销,另外对大量的 OP 做了优化,使得 IFX 的性能远高于 Tensoflow 乃至 TensorRT ;IFX 针对移动端的不同硬件配置,比如:流水线长度、顺序乱序、超标量等特点进行指令重排、访存优化,结合业务的计算特点,使得 IFX 的性能取得不俗的表现:
    在 IFX 的优化过程中,大量的重复工作基本在 Tuning Blas 计算,由于硬件架构不同,不同模型的计算量、计算访存比、计算访存模式都不同,在极高性能要求下都需要综合这些具体的情况做针对性的优化。为解决这类问题,平台开发了 Autotuning 工具链,包括 Kepler、Pascal、Volta 架构的原生汇编器。对于用户来讲,只需要把 GPU 上的二进制代码发给平台,平台就可产生在该 GPU 平台上几乎是最优,也就是当前最高性能优化后的二进制代码。
  • 四种调试深度学习模型的方式 | 机器之心
    摘要:作者总结了四种调试深度神经网络的方法,分别是预测合成输出、可视化激活值(通过在热图中绘制单元激活值,分析发现如无法传导梯度的死神经元)、梯度分析(衡量模型能否追踪长期依赖的一种简单方法是去检查输入数据的每个时间步长对输出预测的影响。如果后面的时间步长具有特别大的影响,则说明模型没有有效地利用早期数据)、分析模型预测。此外,查看最好和最坏的样本也是很有启发性的。

Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai


知识共享许可协议
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。