Dataproc クラスタの作成方法
要件:
名前: クラスタ名は小文字で始まり、最大 51 の小文字、数字、ハイフンで構成します。末尾にハイフンは置けません。
クラスタ リージョン: クラスタの Compute Engine リージョン(
us-east1
やeurope-west1
など)を指定して、リージョン内の Cloud Storage に保存されている VM インスタンスやクラスタなどのクラスタ リソースを分離する必要があります。- リージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。
- リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。
gcloud compute regions list
コマンドを実行して、利用可能なリージョンのリストを表示することもできます。
接続: Dataproc クラスタ内の Compute Engine 仮想マシン インスタンス(VM)は、マスター VM とワーカー VM で構成され、完全な内部 IP ネットワーク相互接続が必要です。この接続は、
default
VPC ネットワークによって提供されます(Dataproc クラスタのネットワーク構成をご覧ください)。
gcloud
コマンドラインで Dataproc クラスタを作成するには、ターミナル ウィンドウ��たは Cloud Shell で、gcloud dataproc clusters create コマンドをローカルで実行します。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
コマンドを実行すると、デフォルトの Dataproc サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワーク タイプ、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、gcloud dataproc clusters create コマンドをご覧ください。
YAML ファイルを使用してクラスタを作成する
- 次の
gcloud
コマンドを実行して、既存の Dataproc クラスタの構成をcluster.yaml
ファイルにエクスポートします。gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- YAML ファイル構成をインポートして新しいクラスタを作成します。
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。
REST
このセクションでは、必須の値とデフォルト構成(1 つのマスター、2 つのワーカー)でクラスタを作成する方法を説明します。
データをリクエストする前に、次のように置き換えます。
- CLUSTER_NAME: クラスタ名
- PROJECT: Google Cloud プロジェクト ID
- REGION: クラスタを作成する Compute Engine のリージョン。
- ZONE: クラスタが作成される、選択したリージョン内のゾーン。
HTTP メ��ッドと URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
リクエストの本文(JSON):
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
ブラウザの Google Cloud コ��ソールで Dataproc の [クラスタの作成] ページを開き、[Compute Engine で Dataproc クラスタを作成する] ページの [Compute Engine] 行のクラスタで [作成] をクリックします。デフォルト値がフィールドに入力されている [クラスタの設定] パネルが選択されています。各パネルを選択し、デフォルト値を確認するか、変更してクラスタをカスタマイズします。
[作成] をクリックして、クラスタを作成します。クラスタ名が [クラスタ] ページに表示され、クラスタがプロビジョニングされると、そのステータスは [実行中] に更新されます。クラスタ名をクリックするとクラスタ詳細ページが開き、クラスタのジョブ、インスタンス、構成設定を確認して、クラスタで実行されているウェブ インターフェースに接続できます。
Go
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Java
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Node.js
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Python
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。