KerasのチュートリアルジョブをCloneしてRescale操作の概要をつかむ

クローンの機能を使いこなすことで、ゼロからの設定なしにジョブを実行できることを学ぶ (ワークフローの保存)

ログイン

RescaleのJP環境へ ログイン します。

image

ジョブの作成

ジョブのインポート

ログイン後、こちらをクリックしてモデルをインポートしてください(jp環境のみ)

ジョブの Clone

  1. クローン をクリックします。インポートしたジョブをテンプレートに新しいジョブを作成することができます。

image

入力ファイルの設定

  1. 任意のジョブ名に変更します
  2. 必要に応じて、入力ファイル指定 を操作しファイルを入れ替えます (今回は変更する必要はありません)

image

アプリケーションの設定

  1. ソフトウェアのアイコン Keras をクリックします

  2. バージョン を確認します(今回は変更する必要はありません)

  3. コマンド を編集します。今回は以下のようにtime コマンドと、最後にechoコマンドを追記します)

    time python train-unet-iou.py
    rm -rf object-dataset object-detection-crowdai
    echo "my job is finish"

image

HWの設定

  1. ハードウェア選択 のアイコンをクリックします
  2. 選択されているコアを確認します。(i) のマークが緑であれば、低優先度 を選択します
  3. コア数 を確認します
  4. コア数に応じて、ハードウェアの概要 に表示されているスペックと 毎時料金 が動的に変化することを確認します
  5. 最長ジョブ実行時間 を入力します。この学習は半日程度かかるので今回は "2" と入力して、強制終了させます

image

ジョブの実行 (学習の開始)

ジョブの実行

  1. 実行 をクリックします

image

クラスタの起動確認

実行ボタンクリック後、下図に自動的に遷移します

  1. 検証中 にチェックがついて、クラスタ起動中 になっていることを確認します
  2. ジョブログStarting Server(s) になっていることを確認します

image

実行中のジョブ確認

標準出力の確認

  1. ファイル の検索窓に process_output.log と入力します
  2. テール 内の黒い枠に tensorFlow が標準出力に出すログが表示されていることを確認します
  3. 公開鍵を設定していれば、ここに ssh ログインするためのコマンドが表示されます

image

In Browser SSH

  1. SSH 内の サーバーIP をクリックします
  2. ブラウザー内に、計算ノード(学習しているマシン)の ターミナルが表示されたことを確認し、また適当なコマンドを実行できることを確認します。

image

image