layout |
---|
default |
关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开
- 视频:波士顿动力发布仓储搬运机器人Handle搬箱子,子不高,动作迅捷 | 新智元
摘要:Handle 是一款专为物流设计的移动操作机器人。在抓取箱子前利用视觉系统定位,在将箱子放到托盘上时,它的 “力度控制” 能力可以将每个箱子码放整齐。 - 华为芯片大动作:英国投资3亿圈地剑桥,紧邻ARM自建工厂 | 新智元
摘要:近日,华为宣布将“圈地造芯”:投资3.3亿元人民币买下剑桥大学500英亩地,其中100英亩计划设立研发部门和园区。我们常说的ARM 微处理器,就是采用ARM技术知识产权(IP核)的微处理器。全世界超过95%的智能手机和平板电脑都采用ARM。基于ARM 技术的微处理器应用约占据了32 位微处理器75 %以上的市场份额。 - 阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持 | 机器之心
摘要:自研的第一款阿里 NPU 2019年下半年将正式发布,且在同等芯片里性能领先十倍以上。早在2018年阿里宣布达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。之后全资收购中天微,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。 - 华为P30 Pro发布,50倍变焦,黑夜拍成白天,7k起售,手机中的天文望远镜 | 量子位
摘要:华为P30搭载了麒麟980处理器,该处理器是全球首次采用7nm制程工艺的移动手机SoC芯片,拥有69亿个晶体管,集成了Mali-G76 GPU,再结合华为独家的GPU Turbo,带来了畅快的游戏体验。在拍人像时,AI HDR+机器学习技术让逆光的照片也能十分清晰。在拍视频的情境下,也能充分发挥暗光拍摄和光学防抖+AI防抖,让画面更清晰,电源键化身智能助理按键,可以一键召唤谷歌智能语音助理。
- [1812.00332] PROXYLESSNAS: DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE [报道原文] [新智元解读]
摘要:MIT韩松等人团队开发了一种高效的神经结构搜索算法,可以为在特定硬件上自动设计快速运行的神经网络提供一个“按钮型”解决方案,算法设计和优化的机器学习模型比传统方法快200倍。 - [SysML 2019] DISCRETE ADVERSARIAL ATTACKS AND SUBMODULAR OPTIMIZATION WITH APPLICATIONS TO TEXT CLASSIFICATION 机器之心解读
摘要:以往对抗攻击大多用于图像识别网络,这篇文章用了一个更广泛的对抗攻击的定义,指出一个用于文本处理的网络也可以进行对抗攻击。此方法较为新颖,它把矩阵输入泛化到离散集输入,因而衍生出许多相关应用,并不局限于语言处理。 - [SysML 2019] To Compress or Not to Compress: Understanding the Interactions between Adversarial Attacks and Neural Network Compression 机器之心解读
摘要:本文对神经网络压缩和对抗攻击的关系进行了研究。pruning 减少了网络的参数密度,对于用原网络作出的攻击有较小防御性,对参数和激活函数的大幅度量化也能使攻击的转移性变小。但是总地来说,黑客如果对大多数现有应用中的高 bit-width 压缩过的网络进行攻击,可以成功的攻击原网络或者是别的压缩过的网络。 - 百度增强现实自动驾驶仿真系统登上 Science 子刊 | 机器之心 [science子刊]
摘要:传统的自动驾驶仿真环境都是根据游戏引擎或高保真计算机图形创建的,这种环境缺乏现实世界图像的丰富性和真实性,训练效果有限,扩展性差、成本高。为弥补这一短板,百度开发了一个增强现实的全新自动驾驶系统,利用激光雷达和相机扫描得到的街景图像合成仿真环境。这一研究论文刊登在 3 月 27 日的《Science》子刊「Science Robotics」上。
- YuvalNirkin/face_swap: End-to-end, automatic face swapping pipeline
- Oldpan/Pytorch-Memory-Utils: pytorch memory track code
摘要:Pytorch内存跟踪插件。 - 6个JavaScriptd框架构建计算机视觉程序 | 机器之心 [原文]
摘要:除了TensorFlow.js,还有基于云的Amazon Rekognition,JS版本的OpenCV.js,tracking.js,获取用户正在看什么的WebGazer.js,此外还有来自Google的three.ar.js,可扩展ARCore到前端,检测和目标检测整合进浏览器,是 AR 游戏的完美工具。 - idealo/cnn-exposed: Interpreting Convolutional Neural Network (CNN) Results [slide]
摘要:理解CNN,可视化中间层feature map,绘制热力图,并有相关slide。 - jphall663/awesome-machine-learning-interpretability: A curated list of awesome machine learning interpretability resources
摘要:专注模型可解释性的awesome-list项目。 - linnanwang/AlphaX-NASBench101: Neural Architecture Search with Deep Neural Network and Monte Carlo Tree Search
摘要:AlphaX是一个新的神经结构(NAS)搜索器,使用特定的搜索模型架构与Meta-DNN搜索预测模型来估计采样结构的准确性。与随机搜索相比,AlphaX构建一个在线模型来指导未来的搜索,且可用较少迭代次数便能逃出局部最优。实现细节见:AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search。
- Android Neural Networks API —— 一种神经网络软件系统中间层的设计与实现 | 黎明灰烬博客
摘要:随着深度学习的进一步发展,用于减轻框架层和硬件厂商开发代价的「中间层表示」以各种形式涌现:包括采用编译技术做图优化的、制定模型文件格式的、操作系统中间层的。本文重点介绍了操作系统中间层的代表 Android Neural Networks API 的软件架构、内部模块交互方式,并讨论了其设计。总体而言,Android Neural Networks API 简洁有效,符合软件系统的设计方法学。 - 杜克大学终身教授陈怡然专访:让非主流成为主流,AI芯片的起源、现状与前路 | 新智元
摘要:陈怡然教授说道,通用芯片仍然会长期存在也是主干,但随着业务多样性通用芯片可能会作为通用芯片的辅助,专用芯片的设计要经历很长时间,行业特定设计(Domain specific design)。针对特定场景的重要步骤进行抽象和实现。专用芯片可能跟不上未来人工智能发展,要么技术上重构关键器件,要么增加协处理器,要么等待下一个生命周期。
后摩尔时代对于AI芯片设计来说,晶体管目前做到更小的成本在增大,重点也在于如何在相同逻辑数量下提高计算效率,一是基于紧密结合业务的新器件和材料如特性像神经突触的忆阻器,二是用新制造工艺如3D堆叠在单位面积堆更多层的存储和计算逻辑,提高计算时的数据传输效率。未来的AI芯片发展会朝着软硬件结合,业务结合为导向,虽然AI有泡沫但也是头部公司和应用,还有很多问题待解决,AI没有运算的支撑是不可能大量更好更有效的部署的。我们要更多的去重视它的计算平台,更多的注重它在具体场景的实现。 - 如何在CUDA中为Transformer编写一个PyTorch自定义层 | 机器之心
摘要:根据写Transformer,学到许多关于 CUDA 如何工作的知识,以及诸如 block、线程、核函数、内存、同步、缓存这样的概念,希望本文能够对那些想要入门 CUDA 性能优化的人有所帮助。此外,作者提到 python 的逐行性能分析器line_profiler,在要分析的函数顶部添加「@profiler」装饰器后,在命令行中用「kernprof」替换「python」来运行分析器。 - 再见,Yarn!滴滴机器学习平台架构演进 | AI前线
摘要:不同公司都有自己的机器学习平台,但就平台所要解决的问题和技术选型基本还是大同小异。所谓大同是指大家所要处理的问题都相似,技术架构和选型也差不太多,比如都会使用 GPU 集群、采用 Spark 或 K8s 平台等。所谓小异是指各家规模不同,各家都在结合自己的情况、所处的阶段并根据自己的特点解决平台化的问题。
滴滴机器学习平台的治理思路主要是:减少重复、提高效率。本文将对滴滴的机器学习平台进行全面解读,重点分享机器学习平台不同阶段所要解决的问题,以及解决问题的思路和技术方案。针对框架层自主研发了深度学习框架 IFX,并适配于 GPU 服务器和移动端平台。
由于GPU服务器上 CUDA 存在 context 管理的问题,所以实现了一种 GPU 上的并发机制,有效地绕开了这些问题所带来的额外开销,另外对大量的 OP 做了优化,使得 IFX 的性能远高于 Tensoflow 乃至 TensorRT ;IFX 针对移动端的不同硬件配置,比如:流水线长度、顺序乱序、超标量等特点进行指令重排、访存优化,结合业务的计算特点,使得 IFX 的性能取得不俗的表现:
在 IFX 的优化过程中,大量的重复工作基本在 Tuning Blas 计算,由于硬件架构不同,不同模型的计算量、计算访存比、计算访存模式都不同,在极高性能要求下都需要综合这些具体的情况做针对性的优化。为解决这类问题,平台开发了 Autotuning 工具链,包括 Kepler、Pascal、Volta 架构的原生汇编器。对于用户来讲,只需要把 GPU 上的二进制代码发给平台,平台就可产生在该 GPU 平台上几乎是最优,也就是当前最高性能优化后的二进制代码。 - 四种调试深度学习模型的方式 | 机器之心
摘要:作者总结了四种调试深度神经网络的方法,分别是预测合成输出、可视化激活值(通过在热图中绘制单元激活值,分析发现如无法传导梯度的死神经元)、梯度分析(衡量模型能否追踪长期依赖的一种简单方法是去检查输入数据的每个时间步长对输出预测的影响。如果后面的时间步长具有特别大的影响,则说明模型没有有效地利用早期数据)、分析模型预测。此外,查看最好和最坏的样本也是很有启发性的。
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。