NetDAM-CXL?

夏老师的文章一直很好玩, 居然渣这种还能被翻牌… 

https://zhuanlan.zhihu.com/p/466870704

NetDAM一开始就考虑用CXL的,还有P4 Switch做MMU,只不过一个悲惨的故事是樱桃不给NDA,SPR的CPU也不给,Xilinx挺好的给CXL,但是苏妈家的CPU还是要等呀…

樱桃为啥就盯着Barefoot的生意忘了CPU和GPU的大业了呢?和Cisco和BRCM一起把NetDAM搞起来,然后再一起去看看卖螺丝在400G上是否支持RDMA而带来骑虎难下不是很好玩么?

探索400Gbps主机网络

哎,我一直在把一个主板的图放了很多遍了,就是很多人不懂…还是夏老师看到明白讲的清楚….感觉以后要听妈妈的话,不跟差生玩了…

NetDAM-CXL?

另外说一句话,Intel的这次红利可以使得大家很容易做成一个IBM z15那样的大型机,这也是我前几天发的某个文想说的

金融的计算

从大机的视角看DPU发展

对于CC有啥用?十几年前思科设计QFP的时候连L2-DCache都不要了。然后仔细看前几天引用的SplitKernel的操作系统论文,网络连接,无缓存一致性:

NetDAM-CXL?

但是问题又来了,DMA本身不得不考虑一致性,以致于RDMA不得不考虑一致性,所以导致延迟,导致jitter,导致incast,还要HPCC、Swift去测延迟搞另一个CC(Congestion Control).NetDAM解耦两端固定延迟,jitter ns级不香么?

延迟也600ns左右,比RoCEv2 800ns快多少自己数~而且基于SRAM的NetDAM还可以进一步将延迟降到430ns,抖动降到几乎为0(Fixed pipeline不需要CC),有这样的网络还搞什么Swift,随便把队列深度带到回复的ACK里,直接当OQ用了…有了这个东西,注意下图的三和四:

至于夏老师提到的transactional memory在其它ACC上,NetDAM本身是指令集和数据混合放在数据包中的本质上就是想让NetDAM做一个subsystem集成在他们上面,例如上图的第三个和第四个Case, 

而可能画图有个关于memif的误解,其实针对Transactional memory的场景或者所谓的I/O密集的场景走的下图的RQ和CQ,而它们本质上就是CXL承载的,而下面的memif只是处理普通以太网报文,毕竟在云和超算的场景中网卡还是要处理一些以太网通信的,特别那些乱七八糟的legacy协议,比如TCP…..hahaha。。。总归要考虑上层生态的问题嘛,例如那些Java和golang的程序员搞云原生的….

另外而netDAM上面的ALU还可以干很多好玩的事情,数据裁剪这些,矩阵转置这些,甚至直接把三星的PIM封装上去,香么?所以本质上是借助CXL在主机侧和以太网底层之间构建一个内存Shim layer,

记得去年还有人提CXL over Ethernet,我还专门发了一文,把自己陷入CC的坑里了吧.

>RDMA、CXL和以太网<

但是仔细想就是多了一个内存的封装层,这样操作系统就不需要几千外行代码的driver了呀:)所以最后就变成了这样一个好玩的东西,

提到Driver,夏老师讲得对就差一个操作系统了,这也是NetDAM-Seq实现了分布式的锁的原因,你仔细想想,无论是SpinLock还是Semaphore或者RWLock都可以通过上面的ALU+SRAM很容易的实现,可以做到600Mpps,延迟嘛只比跨NUMA高一些,但是请注意一个文章FFWD(libffwd)

主机内CXL,主机间Ethernet,锁在NetDAM上做delegation不香么?至于一个真正的分布式操作系统, 内存子系统有了,同步的锁有了,调度器也容易,文件存储也好办,memif把网络协议栈也清理干净了。完工~

而相对于RDMA,除了400Gps NIC的问题外,还有一个问题是Segment Routing,解决拥塞最简单的办法是选路。另外超算中对于不同的计算业务拓扑需求是不同的, 大数据一类的数据库业务树状就可以了,深度学习这些矩阵类的Torus是标配,例如Google TPU、还有日本的 Fukagu 6D-Torus,而针对一些流体力学计算 FFT这类的, Butterfly的拓扑更优,所以Ruta+netDAM一起食用才更舒服~

对,这样道出了渣最近在继续研究的一件事情,如何通过公有云实现Exascale的超算。最近在看一篇关于美国Exascale HPC的论文[1], Slingshot基本上是正在建设的三大Eflops超算的根基,第一页讲的很精彩

但是点到为止了~~ 喵喵~~

至于NetDAM,我觉得如陈老所说,运气罢了。只是恰当的时间,恰当的需求赶上了,DMA本身有问题,CXL的放开,云上Exascale超算,以及数据库讲存算分离而计算又说存算一体。赶上了一个七十年一遇的好运气罢了。

Reference

[1]

An In-Depth Analysis of the Slingshot Interconnect: https://arxiv.org/pdf/2008.08886.pdf

NetDAM-CXL?》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:http://www.bookhoes.com/767.html