> а вон то звучит как 100% дыра в безопасности, если такие команды и на вход можно только через спец софт. + у IB свои достаточно навороченые средства защиты - ибо там по любому network DMA.
> Они это как фичу рассматривают: cpu и gpu могут шарить буфер между собой напрямую, zero-copy. Это просто, дешево, сердито и лучше чем было.
только для десктопов это zero-copy. А если у тебя PCIe и так забито другим трафиком?.. какое тут zero-copy когда ты трафик 2 раза по PCIe гоняешь ? Что будет если тебе надо прогнать 256G туда<>назад? не считая того что эти 256G надо найти еще в вычислительной ноде, а потом они просто простаивать будут, что плохо скажется на цене и надежности решения. Вообщем стоит задуматься.
>Никогда бы не подумал. Хотя в принципе оно так изначально заточено блоки туда-сюда гонять с подпором DMA с обоих сторон двери и если это не сильно портить а сеть быстрая...
100-200 Gbit/s - быстрая сеть или нет?.. PCIe gen3 x16 накрывает, gen4 x16 тоже можно напрячь не слабо.
> p2p транзакция сетевка <-> GPU, в обход cpu? А в этом что-то есть.
Наконец-то.
>Ну я думаю что уловил общую идею. Однако на сайт нвидии все же не пойду, сорь.
Предлагаю сходить на сайт Mellanox - правда он собственность Nvidia - но вот так уж.. Или на GitHub в раздел Mellanox и посмотреть код.
> И если вас троллит K-H - это очень плохой признак :)
Это совсем ничего не означает. Если чувак не смог понять - что ради его хотелок никто не будет ложить кластера из TOP500 что бы код выглядел как он хочет быстро, то это проблемы K-H. Остальной мир HPC обойдется (как обходился с 2000 года) без lustre в staging. Это лишь означает меньше фрагментацию платформы ибо протестить 5-8 конфигураций - это вам не тестить постоянно меняющийся upstream.
Товарищи из Mellanox пошли так делать в OFED - качество на выхлопе упало сильно.
Делаем выводы.