英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒

作者: 来源: 2021-07-21 12:56:13 阅读 我要评论 直达商品

  英伟达昨日发布了其 TensorRT 的 8.0 版本。TensorRT 可以看作是在英伟达各种 GPU 硬件平台下运行的一个深度学习推理框架,其核心是一个 C++ 库。

  

 

  开发者可以将其他框架训练好的模型转化为 TensorRT 格式,并通过 TensorRT 推理引擎提升该模型的运行速度。芯东西等媒体和英伟达 AI 软件部的xpj娱乐app手机版管理总监 Kari Briski,xpj娱乐app手机版营销主管 Siddharth Sharma 就 TensorRT 8 的技术细节,应用落地等进行了深入地探讨。

  此外,Kari Briski 和 Siddharth Sharma 也分享了英伟达团队在推荐系统竞赛中所取得的成绩。

  一,运行速度和精准度提升 1 倍,推理延迟仅有 1 毫秒

  Kari Briski 首先回顾了英伟达 TensorRT 的推出背景和成绩。她说,AI 模型正在以指数级的速度增长,很多公司不得不缩减模型大小以追求响应速度。而英伟达 2016 年推出的 TensorRT 可以帮助这些企业扩大其模型规模,提升精度。5 年来,已经有超过 35 万名开发者下载了 250 万次 TensorRT。TensorRT 7 也帮助英伟达创造了多项基准测试记录。

  而相比 7.0 版本,TensorRT 8 的运行速度和精准度都提升了 1 倍。此外,TensorRT 8 还有 2 项较为关键的特性,提升了其 AI 推理性能。

  第一个是稀疏性(Sparsity)技术,该技术能够提升英伟达 Ampere 架构 GPU 性能,可以在保持推理精度的同时,降低模型中的部分权重。这意味着模型所需的带宽和内存也会更小。

  第二个是量化感知训练(Quantization Aware Training)。这使开发者能够利用训练好的模型,以 INT8 精度进行推理,既保证精度,也减少了计算和存储成本。

  

 

  ▲ 英伟达 TensorRT 8 提升的性能

  当前,开源 AI 公司 Hugging Face 和医疗方案解决商 GE 医疗正在应用 TensorRT。

  Hugging Face xpj娱乐app手机版总监 Jeff Boudier 称,通过采用 TensorRT 8,Hugging Face 在 BERT(预训练的语言表征模型)上的推理延迟仅有 1.2 毫秒。

  GE 医疗心血管超声首席工程师 Erik Steen 也谈道,当前临床医生需要花费宝贵的时间来选择和评估超声图像。TensorRT 则凭借其实时推理能力,提高了 GE 医疗的视图检测算法性能,能够加快临床医生的工作效率。

  

 

  ▲ 英伟达 TensorRT 的应用

  二,连获 3 项冠军,7 分钟即可完成 CPU 近 24 小时工作

  除了 TensorRT 8 的具体细节,Kari Briski 和 Siddharth Sharma 也分享了英伟达推荐系统团队在 RecSys 推荐系统数据科学竞赛中所获得的成绩。推荐系统作为计算机科学较新的分支,能够帮助互联网用户找到自己想看,想玩,想买的内容。

  在本次 ACM RecSys 挑战赛中,Twitter 会在 28 天内向参与者提供数百万个数据点,要求他们预测用户会点赞或转发哪些推文。规则要求选手的模型上限为 20 千兆字节,必须基于云端 CPU 的单一内核运行,且时间不能超过 24 小时。

  英伟达的 7 人团队则第二次获得了这一比赛的冠军。

  英伟达参赛成员之一的 Gilberto Titericz 认为,其推理模型需要去适应 CPU 核心是本次比赛的难点之一,对英伟达的团队来说“就好像回到了远古时代”。事实上,在比赛后,该团队在单个 NVIDIA A100 Tensor Core GPU 上运行了比赛模型,CPU 花费将近 24 小时的工作,英伟达 A100 GPU 仅用了 7 分钟就完成运行。

  此前 5 个月中,英伟达还参与了 Booking.com 挑战赛和 SIGIR 电子商务数据挑战赛。前者要求选手使用匿名数据点预测欧洲度假者最终选择前往的城市,后者则提供了 3700 万个数据点要求选手预测消费者会购买哪些xpj娱乐app手机版。

  这 2 项比赛吸引了阿里巴巴,沃尔玛等企业参与,而英伟达最终获得了 2 项比赛的冠军。

  

 

  ▲ 英伟达推荐系统团队

  结语:TensorRT 可有效提升英伟达 GPU 推理表现

  TensorRT 作为英伟达 GPU 的推理库,5 年中更新了 7 个版本。本次,英伟达推出的 TensorRT 8 相比上一版本再次有较大幅度的性能提升,侧面体现出了英伟达对推理领域的重视。

  另外,TensorRT 也支持 Python 调用,可在数据中心,嵌入式和汽车等平台中应用。TensorRT 可以提升视频流传输,语音识别,推荐和自然语言处理等工作的推理延迟,满足了许多实时服务,自动和嵌入式应用的要求。


  推荐阅读

  英伟达显卡驱动 471.41 发布,正式支持微软 Win11

  7 月 20 日消息 上周,英特尔推出了新的图形驱动程序,正式支持 Win11 操作系统。  今天,英伟达发布了支持 Win11 的 GeForce 驱动程序版本 471.41,带来了全新的显卡>>>详细阅读


本文标题:英伟达 TensorRT 8 上线,BERT 推理延迟仅有 1.2 毫秒

地址:http://www.fisheraward.com/a/zhibo/311222.html

xpj娱乐app手机版部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正,删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与xpj娱乐app手机版进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
Baidu