STAY KOBE

[SolutionArchitect Pro] Amazon Elastic Map Reduce – EMR –

Amazon EMR

NOTE: 主にSolution Architect Professional 試験のトピック

EMR アーキテクチャ

EMR セキュリティ

EMR クラスターの種類

EMR のベストプラクティス

EMR – S3 対 HDFS


AWS認定試験の練習問題

  1. Amazon Elastic Map Reduce を使用して Amazon S3 に格納されている大量のデータを分析する機能が必要です。 cc2.8xlarge インスタンス・タイプを使用しています。このタイプの CPU は処理中にほとんどアイドル状態です。 次のうち、ジョブの実行時間を短縮する最もコスト効率の高い方法はどれですか?[PROFESSIONAL]
    1. Amazon S3 で小さいファイルを作成します。
    2. タスクグループを導入して、追加の cc2.8xlarge インスタンスを追加します。
    3. 集約された I/Oパフォーマンスのより小さいインスタンスを使用します。
    4. Amazon S3 でより少ない、より大きなファイルを作成します。
  2. 顧客の夜間の EMR ジョブは、Amazon Simple Storage Service(S3) に格納された単一の 2TB データファイルを処理します。 Amazon Elastic Map Reduce(EMR) ジョブは、2つのオンデマンドコアノードと3つのオンデマンドタスクノードで実行されます。 EMRジ ョブの完了時間を短縮するのに役立つのはどれですか? 2つの回答を選択してください[PROFESSIONAL]
    1. タスクノードの3つのオンデマンドインスタンスではなく、3つのスポットインスタンスを使用します。
    2. MapReduce ジョブ構成の入力分割サイズを変更します。
    3. ブートストラップアクションを使用して、S3 バケットをローカルファイルシステムとして表示します。
    4. Amazon 仮想クラウド内のコアノードとタスクノードを起動します。
    5. 同時マッパータスクの数を調整します。
    6. ジョブフローの終了保護を有効にします。
  3. 部門では、会社のログファイルから定期的な分析レポートを作成します。 すべてのログデータは Amazon S3 で収集され、Amazon Redshift データウェアハウス用の CSV 形式の日別 PDF レポートと集計テーブルを生成する毎日の Amazon Elastic Map Reduce(EMR) ジョブによって処理されます。 お客様の CFO は、このシステムのコスト構造を最適化することを要求します。 以下の代替案のどれが、システムの平均パフォーマンスや RAW データのデータ保全性を損なうことなくコストを削減できますか? [PROFESSIONAL]
    1. Amazon S3 の PDF および CSV データには低冗長ストレージ(RRS)を使用します。 スポットインスタンスを Amazon EMR ジョブに追加します。 Amazon Redshift 用の予約済みインスタンスを使用します。(スポットインスタンスのみがパフォーマンスに影響します)
    2. S3 のすべてのデータに対して、低冗長ストレージ (RRS) を使用します。Amazon EMR ジョブのスポットインスタンスとリザーブドインスタンスの組み合わせを使用します。Amazon Redshift にリザーブドインスタンスを使用する (スポットと予約を組み合わせてパフォーマンスを保証し、コストを削減します。また、RRSはコストを削減し、データの耐久性とは異なるデータの完全性を保証します)
    3. Amazon S3 のすべてのデータに対して、低冗長ストレージ (RRS) を使用します。Amazon EMR ジョブにスポットインスタンスを追加します。Amazon Redshift にリザーブドインスタンスを使用する (スポットインスタンスのみがパフォーマンスに影響を与える)
    4. S3 の PDF および CSV データに対して、低冗長ストレージ (RRS) を使用します。EMR ジョブにスポットインスタンスを追加します。Amazon Redshift にスポットインスタンスを使用します。(スポットインスタンスはパフォーマンスに影響し、スポットインスタンスは Redshift では使用できません)
  4. 研究科学者は、Elastic MapReduce クラスターの一度目の立ち上げを計画しており、マネージャーがコストを最小限に抑えることを奨励しています。 このクラスタは 200TB のゲノミクスデータを合計100個の Amazon EC2 インスタンスで処理するように設計されており、約4時間稼働する予定です。 結果のデータセットは、Amazon RDS Oracleインスタンスにアーカイブされるまで一時的に保存する必要があります。 どのオプションが、要件を満たしながら最大の費用を節約するのに役立ちますか?[PROFESSIONAL]
    1. 取り込みと出力ファイルを Amazon S3 に保存します。マスターおよびコアノードのオンデマンドを展開し、タスクノードのスポットを配置します。
    2. マスター、コア、およびタスクの各ノードに対して、オンデマンド、RI、スポット価格モデルの組み合わせを展開することによって最適化します。アマゾンの Glacier にそれらをアーカイブするライフサイクルポリシーと Amazon S3 で取り込みと出力ファイルを格納します。(マスターとコアは RI またはオンデマンドでなければなりません。スポットにはできません)
    3. 取り込みファイルを Amazon s3 RRS に保存し、出力ファイルを S3 に保存します。マスターおよびコアノードのリザーブドインスタンスと、タスクノードのオンデマンドを展開します。(取り込みファイルの耐久性が必要です。スポットインスタンスは、コスト削減のためにタスクノードに使用できます。RI は、この場合にはコスト削減を提供しません)
    4. オンデマンドマスター、コアおよびタスクノードを展開し、Amazon s3 RRS での取り込みと出力ファイルの格納 (入力は S3 標準で行う必要があり、入力データを再取り込みすると、標準の S3 で限られた時間のデータを保持してしまう可能性が高くなります)
  5. あなたの会社はコンシューマデバイスを販売し、販売されたすべてのデバイスの最初のアクティベーションを記録する必要があります。 情報が永続データベースに書き込まれるまで、デバイスはアクティブ化されません。 アクティベーションデータは貴社にとって非常に重要であり、毎日 MapReduce ジョブで分析する必要があります。 データ分析プロセスの実行時間は、1日当たり3時間未満でなければなりません。 デバイスは通常年間で均等に販売されていますが、新しいデバイスモデルがリリースされている場合は、数日間、平均日数の 10 倍または 100 倍のアクティブ化が予測されます。 このワークロードのコストとパフォーマンスをより適切に最適化するために実装するデータベースと分析フレームワークはどれですか?[PROFESSIONAL]
    1. Amazon RDS および Amazon の Elastic MapReduce にスポットインスタンスを使用します。
    2. Amazon DynamoDB および Amazon Elastic MapReduce にスポットインスタンスを使用します。
    3. Amazon RDS および Amazon Elastic MapReduce にリザーブドインスタンスがあります。
    4. リザーブドインスタンスを持つ Amazon DynamoDB および Amazon Elastic MapReduce

リファレンス


Jayendra’s Blog

この記事は自己学習用に「AWS Elastic Map Reduce – EMR – Certification(Jayendra’s Blogより)」を日本語に訳した記事です。