課程簡介

1:HDFS (17%)

  • 描述 HDFS 守護進程的功能
  • 描述 Apache Hadoop 集群在數據存儲和數據處理方面的正常操作。
  • 確定激勵 Apache 等系統的計算系統的當前功能Hadoop。
  • 對 HDFS 設計的主要目標進行分類
  • 給定一個場景,確定 HDFS 聯合的適當使用案例
  • 確定 HDFS HA-Quorum 集群的元件和守護程式
  • 分析 HDFS 安全性 (Kerberos) 的作用
  • 確定給定方案的最佳數據序列化選項
  • 描述檔讀取和寫入路徑
  • 確定用於操作 Hadoop 檔案系統 Shell 中的檔案的命令

2:YARN 和 MapReduce 版本 2 (MRv2) (17%)

  • 瞭解將集群從 Hadoop 1 升級到 Hadoop 2 如何影響集群設置
  • 瞭解如何部署 MapReduce v2 (MRv2 / YARN),包括所有 YARN 守護進程
  • 瞭解 MapReduce v2 (MRv2) 的基本設計策略
  • 確定 YARN 如何處理資源分配
  • 確定在 YARN 上運行的 MapReduce 作業的工作流
  • 確定必須更改哪些檔以及如何將集群從 MapReduce 版本 1 (MRv1) 遷移到在 YARN 上運行的 MapReduce 版本 2 (MRv2)。

3: Hadoop 集群規劃 (16%)

  • 選擇託管 Apache Hadoop 集群的硬體和作業系統時要考慮的主要要點。
  • 分析選擇OS的選擇
  • 瞭解內核優化和磁碟交換
  • 給定場景和工作負載模式,確定適合該場景的硬體配置
  • 在給定場景下,確定您的集群需要運行的生態系統元件才能滿足 SLA 要求
  • 集群大小調整:給定場景和執行頻率,確定工作負載的具體情況,包括 CPU、記憶體、存儲、磁碟 I/O
  • 磁碟大小調整和配置,包括 JBOD 與 RAID、SAN、虛擬化和群集中的磁碟大小調整要求
  • 網路拓撲:瞭解 Hadoop 中的網络使用方式(適用於 HDFS 和 MapReduce),併為給定場景提出或確定關鍵網路設計元件

4: Hadoop 群集安裝和管理 (25%)

  • 在給定方案中,確定群集將如何處理磁碟和計算機故障
  • 分析記錄設定和紀錄記錄設定檔格式
  • 瞭解 Hadoop 指標和集群運行狀況監控的基礎知識
  • 確定可用於集群監控的工具的功能和用途
  • 能夠安裝CDH 5中的所有生態系統元件,包括(但不限於):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
  • 確定用於管理 Apache Hadoop 檔案系統的可用工具的功能和用途

5:資源 Management (10%)

  • 瞭解 Hadoop 個調度程式的總體設計目標
  • 給定一個場景,確定 FIFO Scheduler 如何分配集群資源
  • 在給定方案中,確定 Fair Scheduler 如何在 YARN 下分配集群資源
  • 在給定方案中,確定 Capacity Scheduler 如何分配集群資源

6:監控和日誌記錄 (15%)

  • 瞭解 Hadoop 的指標收集功能的功能和特性
  • 分析 NameNode 和 JobTracker Web UI
  • 瞭解如何監控集群守護進程
  • 識別和監控主節點上的CPU使用率
  • 描述如何監控所有節點上的交換和記憶體分配
  • 確定如何查看和管理 Hadoop 的日誌檔
  • 解釋紀錄檔

最低要求

  • 基本 Linux 管理技能
  • 基本程式設計技能
 35 時間:

人數


每位參與者的報價

客戶評論 (3)

Upcoming Courses

課程分類