Discoverfukabori.fm124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_
124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_

124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_

Update: 2024-12-27
Share

Description

LINEヤフーのKobayashiさん、Michishitaをゲストに、GPUネットワークやGPUクラスタの仮想化の複雑さなどについて語っていただいたエピソードです。

話したネタ

  • EthernetベースのGPUクラスタ導入による学びと展望
  • GPUクラスタとその必要性
  • GPUクラスタの運用上の課題
  • 自社でGPUを運用するメリットとデメリット
  • GPUを自前で運用する際の課題と対策
  • GPUネットワークと従来のネットワークとの違い
  • CLOS
  • RDMA(Remote Direct Memory Access)とその特性
  • TCP/IPとの比較、およびRDMAの利点
  • GPU間通信のための専用物理GPUネットワーク
  • GPUネットワークにおける輻輳制御とその課題
  • ロスレスイーサネット
  • RoCEv2
  • 仮想化による複雑性とネットワーク構成への影響
  • 仮想化環境でのGPUとNICの扱い
  • JANOG55
  • LINEヤフー Tech Blog


See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_

124. AI時代のGPUクラスタ、DCネットワーク w/ markunet, aztecher_