ブログ

COVID-19 危機の最中にネットワーク PoP をリモートで展開した方法

ニコ・カルトロンのサムネイル
ニコ・カルトロン
2020年5月19日公開

当社の SaaS ベースのコントロール プレーンの一部として、PoP 間の複数の 100G および 400G リンクを使用して、独自のグローバル バックボーン (AS35280) を構築し、運用しています。

こうすることで、地域エッジ間のエンドツーエンドの接続を完全に制御できるだけでなく、プライベート データ センター、エッジ サイト、パブリック クラウド VPC (AWS、Azure、GCP)、SaaS プロバイダー全体で、同じ高性能な接続と低レイテンシを顧客に提供できるようになります。

ポップブログ1
Volterra グローバル インフラストラクチャ & プライベート バックボーン

要件

当社のヨーロッパでの拠点は、パリ、ロンドン、アムステルダム、フランクフルトにすでにかなり充実していましたが、既存および新規の顧客のために、ポルトガルのリスボンに新しい PoP を設置する必要がありました。

これはすべて 2020 年の初めに合意されており、展開は 2020 年第 3 四半期に計画されていました。 もちろん、これはCOVID-19以前の話です:)

この危機により、当社のバックボーンではトラフィックが大幅に増加しました (DDoS 攻撃も発生しましたが、これについては今後のブログ投稿で詳しく説明します)。お客様も同様に増加しました。

彼らはこの PoP をできるだけ早く、より正確には 5 月末までに必要だったため、第 3 四半期までに展開するよう依頼しました。 Volterra の私たちは良い人たちであり、また挑戦が好きなので、顧客の需要を満たすために必要な時間を慎重に検討しました。

  • 導入とテストには少なくとも2週間かかりました。
  • そして検証に1週間

4 月初旬だったので、これは問題ないように見え、次の理由から、実際には最悪の時期であったにもかかわらず、プロジェクトを続行して開始することにしました。

  • 渡航禁止、
  • データセンターへのアクセスなし、
  • 世界的な部品不足、
  • 健康へのリスクは言うまでもありません。

何が必要ですか?

新しい PoP を展開するには、ルーター、スイッチ、ケーブルだけが必要なわけではありません。 また、次のことも必要です:

  • ネットワークエンジニアリングを実行して、電波に最適な場所とプロバイダーを選択します。
  • 選択したデータセンター(この場合はEquinix LS1)と契約/交渉する。
  • ピアリングポートのセキュリティを確保するためにIXPと取引する
  • そしてもちろん、関連するハードウェア/資材(ルーター、スイッチ、ケーブル、ファイアウォールなど)を注文します。

どうやってそれを実現したか

危機が続いているため、必要なハードウェアを時間内に入手することは不可能でした。 そこで、私たちは、主に私たちの研究室から入手した利用可能なものの一部を再利用することにしました。 これは許容できるトレードオフでした (たとえば、使用されるルーターは、計画されていた MX10K ではなく Juniper QFX10K になります)。

ステージングは通常はデータセンターで行いますが (電力とラック スペースが必要なため、また... 騒音の問題もあります)、ロックダウンのため自宅で行う必要があります。 インフラストラクチャの CTO である Raphaël は、十分な広さのオフィス ルーム (最大 16 アンペアの機器を起動/電源供給するときに便利な 60 アンペアの契約を含む) を持っていたので、ステージング全体を彼自身で行い、他のスタッフが関与したり外出したりする必要も回避しました。

ポップブログ2
準備とステージング

すべてが設定され、複数回テストされた後、リスボンに発送しました。

ポップブログ3
発送準備完了!

エクイニクスのリモートハンズによるリスボンでのラック設置

自分たちが行ったセットアップには自信がありましたが(いずれにせよ、OOB またはバックボーン経由でリモート アクセスも可能でした)、それでも、新しい PoP が直接ではなく、他の誰かによって展開されるのは今回が初めてでした 😅

ポップブログ4
ラックの1つはすでに導入済み

私たちは世界中で同じラック設計を使用しており、この新しいリスボン PoP でも一貫性を保ち、同じセットアップを実現することが目標でした。

そのため、Equinix のリモート ハンドに与える指示は極めて正確でなければならず、彼らはそれを真似して「ガイドに従う」だけで済みました。

以下は、Equinix に送信した手順の一部です。これにより、Equinix はすべてを簡単にラックに収納して接続できるようになります。

対処すべきコンポーネントは多数あります。ハードウェア デバイス (ルーター、スイッチ、ファイアウォール、サーバー) だけでなく、ケーブル配線、さらに重要なのはケーブルを接続するスイッチ ポートとサーバー ポートです。

ポップブログ5

以下に示すように、Equinix の技術者が行うインストール作業が多数あることを念頭に置き、手順は可能な限り詳細に説明しています。したがって、正確であればあるほど良いのです。

ポップブログ6

それはうまくいきましたか?

はい! インストールは 5 月 5 日に開始され、すべてのデバイスがラックに設置され、電源が投入され、ハードウェア障害はありませんでした。幸運だったのかもしれませんし、経験のおかげで出荷と梱包が適切に行われたのかもしれませんし、あるいはその両方だったのかもしれません。いずれにせよ、すべて正常に動作しました。

翌日、Equinix の技術者がケーブル配線 (銅線/光ファイバー) を行い、午後 11 時 30 分にはパリからリスボンの PoP に ping を送信できるようになりました。

インストールは 5 月 7 日に完了し、PDU の構成、OOB ポートのクロスコネクト、エンドツーエンドの IXP ポート チェックなどの最終タスクが残りました。 スイッチ/ファイアウォールの構成が完全に機能していたため、Equinix に構成の変更を依頼する必要はありませんでした。

最終的なインストールは次のようになります。

ポップブログ7

私たちは要求が非常に厳しいので、100%満足しているわけではありません。たとえば、ラックの背面パネルは私たちが望むほどきれいではありません。しかし、危機が落ち着いてポルトガルに再び旅行できるようになったら、それを修正します。

「事後分析」 — 何がうまくいったか、なぜうまくいったか、何を改善できるか

私たちは、この課題をなんとか達成できたことに非常に満足し、誇りに思っていますが、一歩下がって何がうまくいったのか、特に何を改善できるのかを振り返ってみたいと思っています。

うまくいったこと:

  • Equinix: 状況がうまくいっていないときにプロバイダーに知らせることは重要ですが、状況がうまくいっているときやそれ以上のときに知らせることがさらに重要であり、今回のケースもまさにその通りです。 営業担当者、上級管理職、データセンター技術者など、私たちが受けたサポートと対応力は、特に困難な時期には信じられないほど素晴らしかったので、Equinix には本当に感謝しています。

なぜそれがうまくいったのでしょうか?

  • Volterra はすでに主に分散型でリモートファーストの企業でした。特に、NetOps を担当するフランスのチームはフランス全土に分散しており、コラボレーション ツールを使用してリモートで作業することに慣れています。
  • 予備のハードウェアやラボのハードウェアが十分にあったので、時間通りに作業することができました。
  • 上記で簡単に説明した手順は、何年にもわたる導入と経験、そして反復的な改善の結果であり、成果を上げています。
  • ベンダーとの良好な関係は当社にとって非常に重要です。何か問題が起こった場合には、すぐに連絡を取り、遠慮なく伝えますが、その一方で、これによりベンダーは当社だけでなく、すべての顧客のために改善することができます。
  • スピード/価格/品質のニーズ: 高い期待を持たなければなりません。これには、必要になる前にリソースに投資することも含まれます。

何を改善できるでしょうか?

  • 社内の少数(3~4人)の人員でしかこのような展開に対応できないことに気付きました。規模を拡大する方法を見つける必要があります。
  • また、最初に完全なステージングを行わなくても済むように、ステージングの方法を改善したいと考えています。
  • 最後に、このような展開は技術的な問題だけではありません。 セールス/プリセールスは、プロジェクト全体と個々のステップにどれだけの時間が必要かを認識している必要があります。NetOps で何でも解決できると思い込んで、適切なタイミングの判断をせずにプロジェクトを放棄してはなりません。

この展開については、最初のリモート RIPE ミーティング (RIPE 80) で発表しました。録画はここでご覧いただけます。

https://ripe80.ripe.net/archive/video/raphael-maunier 3-the-challenge-of-operations-under-covid-19-restrictions main-20200513-132226.mp4