加入收藏 | 设为首页 | 交流中心 | 我要投稿 | RSS
您当前的位置:首页 > 技术中心 > 高谈阔论

PS2就曾经有类似HBM架构,那HBM是什么呢?

时间:2023-12-11 22:51:00  来源:www.fcharger.com  作者:john miller

PS2的显卡内嵌位宽2560bit(你没看错,是两千五百六十)的eDRAM,虽然只有4MB,但是结合前面的隔行渲染模式,可以事实上做到用一张图的内存用量实现Double Buffer。而且内部传输速率极高,帧缓冲分别有1024bit写和读总线(单向19.2GB/s*2全双工),所以可以做到GPU在渲染的途中同时可以对渲染好的图像进行各种加工,也不耽误显示。而纹理单元有单独的512bit读写总线(9.6GB/s半双工),渲染途中对纹理的写需求并不高(记住,渲染输出走的是单独的帧缓冲总线,所以实现Render to texture并不需要挤占512bit的纹理总线),这个读取速度可以满足所有渲染的纹理存取需求。hVE快充网络

hVE快充网络

1:什么是HBM:hVE快充网络

HBM==High Bandwidth Memory 是一款新型的CPU/GPU 内存芯片(即 “RAM”),其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。先看个平面图:hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

中间的die是GPU/CPU,左右2边4个小die就是DDR颗粒的堆叠。在堆叠上,现在一般只有2/4/8三种数量的堆叠,立体上最多堆叠4层.hVE快充网络

  • 再看一个HBM DRAM 3D图形:

 hVE快充网络

hVE快充网络

 hVE快充网络

  • DRAM通过堆叠的方式,叠在一起,Die之间用TVS方式连接
  • DRAM下面是DRAM逻辑控制单元, 对DRAM进行控制
  • GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连通
  • Interposer再通过Bump和 Substrate(封装基板)连通到BALL
  • 最后BGA BALL 连接到PCB上。

2:HBM技术特色:到现在为止生产的只有1-2代,第3代的SPEC刚刚被定义。hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

老铁们,1024位宽, 256Gbps带宽,靠!有没有搞错,没有,这个真没有。hVE快充网络

另据悉,AMD及NVIDIA下代显卡都会搭配4组HBM显存,等效位宽4096bit,总带宽可达1024GB/s,也就是NVIDIA之前宣传的TB/s级别带宽。hVE快充网络

这是要逆天呀!hVE快充网络

3:为什么要HBM:hVE快充网络

  • 更高速,更高带宽

HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快速地连接,HBM 具备的特性几乎和芯片集成的 RAM一样。hVE快充网络

  • 更高位宽

HBM 堆栈方式可以实现更多的IO数量,1024位。hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

  • 更低功耗

随着显卡芯片的快速发展,人们对快速传输信息(“带宽”)的要求也在不断提高。GDDR5 已经渐渐不能满足人们对带宽的需要,技术发展也已进入了瓶颈期。每秒增加 1 GB 的带宽将会带来更多的功耗,这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此,GDDR5 将会渐渐阻碍显卡芯片性能的持续增长。HBM 重新调整了内存的功耗效率,使每瓦带宽比 GDDR5 高出 3 倍还多。也即是功耗降低3倍多!hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

  • 更小外形

除了性能和功耗外,HBM 在节省产品空间方面也独具匠心。随着游戏玩家对更轻便高效的电脑追求,HBM 应运而生,它小巧的外形令人惊叹,使游戏玩家可以摆脱笨重的 GDDR5 芯片,尽享高效。此外,HBM 比 GDDR5 节省了 94% 的表面积!hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

如上图所示,将原本在PCB上的GDDR5颗粒,全部集成到封装里和GPU一起。老铁们说来个实际的尺寸图看看:好的,如下图:hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

那GPU+HBM的整个芯片到底有多大尺寸呢?如下: 和掌心类似。hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

那用手上的HBM,做成一个显卡需要多大的PCB呢?接着上图hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

4:HOW? HBM推动AI成功hVE快充网络

人工智能,云计算,深度学习出现3个算力阶段hVE快充网络

第一,早期,AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低。hVE快充网络

第二,模型逐渐加深,对算力需求相应增加,导致了带宽瓶颈,即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决hVE快充网络

第三,云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联)hVE快充网络

此时,片上HBM(High Bandwidth Memory,高带宽存储器)的出现使AI/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈。hVE快充网络

 hVE快充网络

hVE快充网络

 hVE快充网络

上图为寒武纪公司的DiaoNao AI ASIC设计,缓存占面积的66.7%(NBin+NBout+SB)hVE快充网络

尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升。hVE快充网络

而以HBM为代表的存储器堆叠技术,将原本一维的存储器布局扩展到三维,大幅度提高了片上存储器的密度,使AI进入新的发展阶段,hVE快充网络

HBM需要克服的2大主要问题:hVE快充网络

1:HBM需要较高的工艺而大幅度提升了成本。hVE快充网络

2:大量DRAM堆叠,和GPU封装在一起,产生大量的热,如何散热是极大的挑战。hVE快充网络

总结一句话:HBM就是将很多DRAM通过3D技术集成在一个封装内,满足各种计算对高带宽的需求。hVE快充网络

来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门