課程簡介

介紹

  • 深度學習擴展挑戰概述
  • DeepSpeed 及其功能概述
  • DeepSpeed 與其他分散式深度學習庫的比較

開始

  • 設置開發環境
  • 安裝 PyTorch 和 DeepSpeed
  • 配置 DeepSpeed 進行分散式訓練

DeepSpeed 優化功能

  • DeepSpeed 訓練管道
  • ZeRO (記憶體優化)
  • 激活檢查點
  • 梯度檢查點
  • 管道並行

使用 DeepSpeed 擴展模型

  • 使用 DeepSpeed 進行基本擴展
  • 高級縮放技術
  • 性能注意事項和最佳實踐
  • 調試和故障排除技術

高級 DeepSpeed 主題

  • 高級優化技術
  • 將 DeepSpeed 與混合精度訓練結合使用
  • 不同硬體上的 DeepSpeed(例如 GPU、TPU)
  • 具有多個訓練節點的 DeepSpeed

將 DeepSpeed 與 Py 集成Torch

  • 將 DeepSpeed 與 PyTorch 工作流集成
  • 將 DeepSpeed 與 PyTorch Lightning 結合使用

故障排除

  • 調試常見的 DeepSpeed 問題
  • 監控和日誌記錄

總結和後續步驟

  • 關鍵概念和功能回顧
  • 在生產中使用 DeepSpeed 的最佳實踐
  • 了解有關 DeepSpeed 的更多資訊的更多資源

最低要求

  • 深度學習原理的中級知識
  • 使用 PyTorch 或類似深度學習框架的經驗
  • 熟悉 Python 程式設計

觀眾

  • 數據科學家
  • 機器學習工程師
  • 開發人員
 21 時間:

人數


每位參與者的報價

Upcoming Courses

課程分類