,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3,Llama Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
IT之家在此附上报告原文,感兴趣的用户可以深入阅读。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
感谢IT之家网友华南吴彦祖的线索投递! ,ROG游侠2代键盘现已上架,98键无线版1099元起,104键有线版699元。 IT之家附RO
进入2023年,国内商业地产基本摆脱了疫情影响,处于全面复苏的阶段。市场层面,国家相关部门陆续出台了多种商业复苏刺激性举措,助推国内消费市场
每个水电企业的发电量、营收、成本、利润差别都很大,哪个企业的经营效率更高,效益更好,有没有一个相对简单的指标可以衡量,最近一直思考这个问题,
为提高员工的防范意识和应急处置能力,3月3日上午,农发行靖西市支行开展了防抢、防火两防演练活动。 本次活动,请到了专业的安全人员对演练场地
感谢IT之家网友OC_Formula的线索投递! ,日前,华硕推出一款ProArtPA24US显示器,配备23.6英寸4KIPS屏幕,适用
中国网middot;美丽江苏讯为进一步激发榜样的力量,聚焦先进典型身上的发光点,营造比学赶帮超的良好氛围,凝聚起全行争先创优的磅礴之力,近日
中国网middot;美丽江苏讯为进一步深化政银合作力度,助力乡村振兴战略深入实施,2月17日下午,邮储银行常州武进区支行与武进区雪堰镇人民政
3月2日,中国十七冶集团交通分公司承建的山东济微高速三标项目青年志愿者在项目党支部书记的带领下,前往肥城市安驾庄镇敬老院开展学雷锋、敬老人志
国家统计局今天上午发布的数据显示,8月份,全国居民消费价格同比上涨0.1%,环比上涨0.3%。其中,城市同比上涨0.2%,农村下降0.2%;
近日,农发行桂阳县支行成功获批农村土地流转和土地规模经营中长期贷款2.73亿元,并投放首笔贷款2亿元,有效支持湖南桂阳县10万亩高标准农田与
先驱网--综合性的生活资讯平台
邮箱:hchchc0324@163.com