Jayendra’s Blog

この記事は自己学習用に「AWS Certification – Analytics Services – Cheat Sheet(Jayendra’s Blogより)」を日本語に訳した記事です。


データパイプライン

  • データドリブンワークフローを定義して、定期的なデータ移動およびデータ処理アクティビティを自動化およびスケジュールするためのオーケストレーションサービス。
  • オンプレミスおよびクラウドベースのストレージシステムと統合。
  • ワークフローのスケジューリング、再試行、および失敗のロジックを許可します。

EMR

  • EC2 と S3 の Web スケールのインフラストラクチャ上で実行されているホスト型 Hadoop フレームワークを利用する Web サービスです。
  • 同じアベイラビリティーゾーン内の特定のクラスタのすべてのノードを起動し、より高いデータアクセス速度を提供するため、パフォーマンスが向上します。
  • 予約済みのオンデマンドおよびスポットインスタンスをシームレスにサポート。
  • タスクを実行するためのデータとタスクノードを保持するコアノードで構成される、管理ノードおよびスレーブ節のマスタノードで構成されます。
  • スレーブノードの障害に対してフォールトトレラントであり、スレーブノードがダウンした場合にジョブの実行を継続。
  • 障害が発生したスレーブを引き継ぐために別のノードを自動的にプロビジョニングしない。
  • 永続的および一時的なクラスタタイプをサポート。
    • 継続的に実行される永続性
    • ジョブステップ完了後に終了するトランジェント
  • S3 が永続的な HA データストレージとして使用できるようにする EMRFS をサポート。

Kinesis

  • 大規模なストリーミングデータのリアルタイム処理が可能。
  • レコードの順序を提供するだけでなく、複数のキネシスアプリケーションに同じ順序でレコードを読み取りおよび/または再生する機能。
  • データは、リージョン内の3つのデータ・センターに複製され、デフォルトでは24時間、保存され、7日間に延長することができます。
  • ストリームは、パーティションキーに基づいて複数のシャードを使用してスケーリングすることができ、各シャードは 1MB/sec データ入力の容量を提供し、毎秒 1000 PUT リクエストで 2MB/sec のデータ出力を行います。
  • Kinesis vs SQS
    • ストリーミングビッグデータのリアルタイム処理 vs メッセージを格納するための高信頼性、スケーラビリティの高いホストキュー
    • 順序付けられたレコードだけでなく、同じ順番でレコードを読み取りおよび/または再生する機能 vs データの順序を保証されない (FIFO キュー機能がリリースされる前の標準キューで)。
    • 最大24時間のデータ保存、7日間 vs 最大4日間、1分から14日まで設定できますが、コンシューマが削除した場合は削除されます
    • 複数のコンシューマを同時にサポート vs 複数のコンシューマにメッセージを配信するために複数のキューが必要。