“英特尔至强CPU系统上突破性的DL训练算法优于Volta GPU 3.5倍”
太平洋时间上午11点更新:修改了此副本以反映在单个v100 gpu上进行的测试。
赖斯大学的计算机科学家与英特尔实验室合作,宣布了划时代的新深度学习算法slide用cpu训练ai模型的速度比以前流传的gpu算法要快。 在一些类型的计算中,这可以将比较有效训练过的芯片的性能特性转移到cpu。
特别是,研究人员对配备44个至强级核心的系统和配备8个张量核心的nvida volta v100 gpu的100,000美元系统进行了基准测试。 但是,测试只使用了一个v100。 在xeon系统上,使用slide可以在一个小时内完成任务,但使用tensorflow实现的单个volta v100需要3.5个小时。 研究人员还指出,随着成熟(软件和硬件)平台的竞争,算法可能会进一步优化。 例如,尚未采用英特尔的dlboost加速技术。
由于深度学习应用在这几年发展迅速,该nvidia gpu被视为培训模式的黄金标准。 但是,训练后的模型本身在部署时一般由cpu执行,这称为推理。 尽管如此,来自许多团体和初创企业的专用硬件已经投入生产。 nvidia在volta体系结构中添加了专用的张量核。
由于tensorflow等框架中多采用矩阵乘法,因此该gpu比cpu更受gpu欢迎,特别是被称为反向传输的深度神经网络训练技术。 由于并行执行多个计算的大量核心,因此这非常适合gpu。 nvidia的数据中心业务上个季度增长了41%,收入接近10亿美元。
赖斯( rice )的新算法出现在这里,被称为亚线性深度学习引擎或滑动。 赖斯工程学院的助理教授anshumali shrivastava说,它可以运行在没有加速硬件的标准解决方案上,同时在具有大规模全连接架构的领域范围内的推荐数据集上优于gpu 他发明了研究生beidi chen,tharun和SlideMini。
使用一种叫做散列的技术代替逆向传递的另一种方法。 该技术将神经互联网训练转换为搜索问题,并在散列表中处理。
通常,哈希将特定输入直接映射到特定输出。 此映射通常使用相对简单的模块功能进行。 这样可以有效地创建称为散列表的输入索引。 该表通过散列函数(模数运算、模块编号为散列表中的条目数等)对输入的表条目进行编码,因此可以快速查找。
赖斯参考实际训练过的神经元,说明采用散列法的理由。 简单地说,神经互联网的输出神经元对例如在图像识别中在图像中识别出的拷贝进行编码。 在自动驾驶车上,这可能是行驶中的功能。 因为完美的神经互联网包含多个(分层的)神经元,所以计算如此密集。 这为优化创造了机会,因为并非所有神经元在所有情况下都在输出中起重要作用。
medini先生说。 “在任何情况下都不需要训练所有的神经元。 如果只想选择相关的神经元,那就是搜索问题。 为什么这么说呢,因为从算法上来说,这种想法是使用局部敏感的散列来摆脱矩阵乘法的。
他指出,为了摆脱矩阵乘法实现散列,研究者们使用c ++而不是tensorflow这样的一般框架从头开始制作算法。 这个功能可能不适合gpu。
研究人员表示,slide的一个重要特征是数据并行。 这意味着slide可以并且可以训练所有输出元素(例如所有道路元素)。 一位研究者表示,这可以更好地利用cpu的并行性。
免责声明:雪球目录网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的工作人员将予以删除。