RescaleのRahul Vergheseが、2017年1月19日に記載したBlog記事の翻訳です。

元記事はIntroducing Persistent Clusters: a New Feature to Save Time & Money with Multiple Jobsをご覧ください。

Rescaleは、最新のデプロイメントで新機能のPersistent Clusters (以下、「永続クラスター」:マニュアルで起動/削除可能なクラスター)をリリースしました。この機能を有効にすることで、複数のインスタンスを起動してクラスタを構築し、シャットダウン(訳注:Rescaleシステムではシャットダウン後インスタンスは削除されます)することなく、Rescaleワークフロー(Web UI)を使用して複数のジョブを順番に同じクラスターへ投入できます。以前は、各ジョブ毎にクラスターが稼働し、ジョブの完了後は自動的にシャットダウンされるため、複数の小さなジョブを実行すると遅延が発生する可能性がありました。この新しい機能により、繰り返し処理の高速化が可能になります。これは、テストや同じハードウェア構成を必要とする複数のジョブに特に便利です。

時間とお金を節約

一般に、各クラスターがスピンアップしてシャットダウンするまでには数分かかります。永続的クラスターを有効にしておくと、クラスターに追加する各ジョブの時間とコストを節約できます。

なぜ?
標準のクラスターは、ジョブが完了すると自動的にシャットダウンし、後続のジョブも同じように起動してシャットダウンするため、別々のクラスターとしてそれぞれ課金されます。(訳注:通常、たとえ10分の計算であっても1時間分の課金となるため、10分で完了する連続する2つのジョブを実行した場合、2時間分が課金されます)一方で、永続クラスターを使用すると、クラスターはすぐに次のジョブの実行に使用できるようになるため、ジョブ間で別のクラスターをシャットダウンして起動させる時間を無駄にしません。それによって、同様のジョブを多数立ち上げるユーザーにとって、時間とコストを大幅に節約することになります。(訳注:上記の例だとちょうど10分の計算を待ち時間なく2つ連続的に実施できることになり、1時間分の課金で収まることになります。)

永続的クラスターは、設定した新しいスクリプトをテストしたり、シミュレーションの問題点をデバッグするなどのテスト環境でも役に立ちます。通常、ソフトウェアを終了させるエラーによってジョブが完了したとマークされ、クラスターの早期のシャットダウンが発生します。ただし、永続的クラスターでは、引き続き同じクラスターにジョブを投入して、コードを変更して繰り返し処理することができます。

永続的クラスターの有益な副産物は、ジョブをキューに入れる機能です。同じクラスターに複数のジョブをサブミットすることで、ユーザーはそれらを「キュー」することができます。Rescaleバックエンドは、クラスターが解放されるとサブミットされた順序でジョブを実行します。これは、当社の一部のお客様にとって有用なワークフローになる可能性があります。

いくつかのヒント

  1. 最初にすべてのソフトウェアをアタッチしておく:付随のソフトウェアはクラスターが初期化されたときにVMにインストールされるため、起動後は永続的クラスターのソフトウェア構成を変更することはできません。他にもソフトウェアを実行する必要がある場合は、最初にクラスターを起動するときに必要な各ソフトウェアをすべてインストールしておくことをお勧めします。ソフトウェアはプログラムの実行時にのみライセンスをチェックアウトするため、クラスターがアイドル状態のときではなく、ソフトウェア実行時に課金されます。
  2. 必要な最大コア数でクラスターを起動する:必要な最大コア数で永続的クラスターを起動することをお勧めします。ジョブごとにコア数を変えたい場合は、特定のジョブに使用されるコア数を制限するコマンドラインフラグ(「RESOUCES (https://support.rescale.com/)」の「Software Example / FAQ」セクションを参照)を使用できます。ただし、コアが使用されているかどうかにかかわらず、クラスター全体に対してユーザーへ課金されることに注意してください。今後、クラスターのリアルタイム拡張と縮小機能を追加する予定があります。Rescaleプラットフォームで今後のアップデートをご参照ください!
  3. クラスターをシャットダウンすることを忘れないように:最後に、処理が完了したら永続的クラスターを手動で終了することを忘れないでください。クラスターがアイドル状態であっても、クラスターがシャットダウンするまで料金が請求されます。

This article was written by Rescale Japan.

At Rescale, we meet with many IT and engineering management teams to discuss their HPC needs and how Rescale can help deliver on those requirements. Customers are excited about the flexibility and scalability Rescale offers, but they also share concerns about management and oversight of these new cloud services.  One specific concern shared with Rescale relates to controlling platform use to stay within budgetary constraints. IT and engineering management require both visibility and control of the overall use of the HPC cloud resource for their large and geographically diverse teams.

Rescale has responded to customer requests by providing ScaleX Enterprise, which provides a powerful, customizable IT dashboard to monitor and manage the use of your HPC cloud infrastructure.

Administrative Management, Controls, & Visibility
The Rescale ScaleX Enterprise administrative portal provides detailed control over all users, groups, and projects. IT and engineering managers can set user permissions, control budgets, provision hardware and software, manage license server connections, identify project codes and IDs, and track overall and individual usage. Permissions can be set at both on global and regional levels for projects or individual users.

The administrative portal allows organizations to manage simulation users. Administrative functionality related to cost controls can be customized to the specific needs of each customer.

The following illustrates a list of administrative cost control functions utilized by enterprise customers on Rescale platform. (Note: this is a partial list of ScaleX Enterprise features. This list is specific to cost and usage management.)

  • Usage Reporting – Detailed usage reports are readily available in secure user accounts to allow companies or users to track their usage and spending, and to provision budgets and allocate funds accordingly. Rescale works with each company and user to implement the billing cycle and repayment method that best suits their needs.
  • Budget Control – Rescale allows company administrators to set budgets at several levels and then monitor in real time the activity and balances of the budgets. Budgets can be set for Company, Groups, Users and Projects.

A common question from IT and engineering management is “What if our engineers run too many jobs or use too many HPC resources and we exceed our budget?”

Rescale has addressed this issue by continuously checking against the available budget as an individual or multiple jobs are running on an account.  If an individual job is submitted and the necessary funds are not available, the job will be placed in queue until the funding is replenished. If multiple jobs are submitted and the budget is exceeded, any active jobs will be terminated.

Budget Definitions

  • Company level budget – A budget that controls the total amount of money a company account can spend.  This budget is adjustable by both Rescale and the company admin.
  • User level budget – A budget that controls the total amount of money an individual user account can spend.  This budget is adjustable by Rescale, the company admin (if assigned to a company) and the individual user.
  • Project level budget – A budget that controls the total amount of money users assigned to a project can spend on that project.  This is a ScaleX Enterprise-only feature and can only be modified by the company admin.

Summary
In summary, the Rescale ScaleX Enterprise administrative portal provides a powerful, customizable IT dashboard to monitor and manage the use of your consolidated HPC cloud infrastructure. Cost controls are managed at several levels by setting budgets at company, user, and project levels to ensure that enterprise customers stay within their planned budget.

This article was written by Jeff Stemler.