A CCIE Gets Fired - Part 2 - "It's Hard to Fire a CCIE" (CCIEを解雇するのは難しい

執筆者 | 4月 11, 2023 | Blog

CCIEを解雇するのは、実は難しいんです。 そして、これは上司に対するベールに包まれた脅しではありません。 ちょっとだけ経営者の立場になって考えてみましょう。 ネットワークは恐ろしいブラックボックスで、VGAモニターをつないで画面に何が映っているのか見ることはできない。  

様々なツールや監視システムがありますが、どれも100%の確率で機能しません。 ネットワークが本当に何か異常な動きをしているとき、あるいは何らかの誤動作をしているとき、その答えは決して明確ではありません。 問題は、おかしなログファイルを見るか、もっと悪い方法でしか特定できません。 もし、あなたがログファイルより悪いものがあるのか?"と思うかもしれませんが、パケットトレースを読んだことがないのは明らかです。

での後編です。 本シリーズ. この記事では、ネットワークの専門家をすべて CCIE と呼ぶことにします。 もしあなたがCCIE、JNCIE、その他のIE、あるいは単なるネットワーク・アーキテクト/エンジニアであれば、私がCCIEについて話すとき、あなたのことを話しているのです! 大きなテントです、どうぞお入りください。

では、前回の私の発言に戻りましょう。 CCIEは基本的にこの4つのことをします:

  • ブレイク・ザ・ネットワーク -」。 私の最後の投稿
  • ネットワークを修正する - この記事
  • 移動・追加・変更
  • プロジェクトマネジメント

もし、私たちがマネージャーの靴の中に飛び込んだら、 CCIEの社員は、とても貴重な資産だと考えています。. たくさんの企業がせいぜい1人のCCIEを持ち、少数の企業が複数のCCIEを持ち、大多数の企業が1人も持っていない。 CCIEを見つけ、CCIEを採用し、CCIEを雇用し、CCIEを維持することは困難です。 CCIEを見つけるのも、CCIEを雇うのも、CCIEを維持するのも、難しいことです。 では、実際にCCIEを配属した経営者にとっては、どのようなメリットがあるのでしょうか。

CCIEは(実際の業務に加え)保険のようなものです。 CCIE は IT 組織のトップランナーであり、物事が本当に壊れてしまったときに相談する相手です。 アプリケーション層の問題をすべて解決することはできませんが、少なくともどのシステムが本来の機能を果たしていないのかを指摘することは可能です。 CCIEは、パケット・キャプチャを読むことで、問題がどこにあるのかを知ることができるのです。どのサーバーが応答していないのか?また、CCIE を持たず、問題が発生した場合、どのような選択肢があるのでしょうか。

  • ネットワークベンダーに連絡する(例:Cisco TAC、Juniper JTAC)
  • マネージドサービスプロバイダーに連絡する
  • コンサルタントを雇い、彼らが忙しすぎないことを祈る
  • StackOverflow、ChatGPT、Discordにアクセスする
  • 地域の神様に連絡する

これらの選択肢は、どれも特に良いものではありません。 どの方法も、多少の時間の遅れや、金銭(神様の場合は長男)の授受を必要とし、あなたの環境についてスピードアップするために他人を必要とします。 もし、あなたのビジネスがダウンハードで、コンサルタントがあなたの問題を理解し、システムにアクセスし、実際にトラブルシューティングを行うまで待たなければならないとしたら、この数分/数時間/数日は永遠のように過ぎていくことになるでしょうね。 このような遅延を許容できないような大規模かつ重要なビジネスであれば、CCIEを雇うことになります。 CCIEを雇うことで、その人があなたのオフィスの廊下にいることが、あなた自身の保険になるのです。 CCIEは後方支援者なのです。 バックストップはそこにあります。

しかし、CCIEがそれを解決できなかったらどうでしょう? まず第一に、それは CCIE を偽者症候群の心の井戸に押し込んでしまうことになります。 CCIEを含め、どんな専門家も困惑するような問題が常に存在するのです。 幸いなことに、CCIE は前述のサードパーティに連絡することができ、保留中にトラブルシューティングを続け、問題の根本を理解するために情報を収集します。 また、技術支援センター(TAC)のようなリモート・サポートを利用する場合は、専門家としてリモート・ハンドの役割を果たし、問題を特定するための情報を得るために必要なすべての物理的動作を実行します。

CCIE は皆、偽者症候群に悩まされています。 それは時に不安なものですが、他人が作った機器を操作している以上、それは現実のことです。

前回の記事で、私はいくつかのmea culpa(訳注:私は失敗した)瞬間を経験しました。 でも、偽者症候群にならなかったこともあります。 履歴書にも書いてあるように、「私は時々、本当にケツを蹴ることがある」のです。

ジョシュ・キック・アスの略歴

私は、ネットワーク全体が激しくダウンしていた午前2時に、世界的なメディア・放送会社のグローバル本社に駆けつけ、トラブルシューティングに何時間も費やし、マンハッタンのど真ん中にある地下4階の空調事務所で埃まみれの古いスイッチを見つけるまで、盗賊のようにひとりでキャンパスを忍び回ったことがあります。 そのスイッチは、設備管理者が小さなスクリーンで企業キャンパス全体の空調を監視している部屋にありました。私が午前4時に予告なしに彼の部屋に押し入り、スイッチに駆け寄り、ケーブルを1本引き抜いたときは、まるで『ロード・オブ・ザ・リング』の一場面でした。 この男(明らかに来客がなく、日当たりも悪そうだった)は、私が自分の隠れ家に入って貴重なものをいじくり回したことに、確かにビビッていました。 まあいいや。 ネットワークが復活し、私は蒸気トンネルからゆっくりと脱出することができました。 大勝利だ。  レッスンの様子です: 専門家として、どんなに離れた場所にある機器でも、時間をかけて目視で訪問し、点検を行う必要があります。

私は以前、休暇中にハングアップしたCisco 7206VXRのトラブルシューティングを、不安定な電話回線を使って、遠隔地のデータセンターで全く未熟な人間を手にして行ったことがあります。 幸い私は写真的な記憶力があるので、デバイスの正確な位置、AUXケーブルとドングルの場所、古いケーブルの巣に囲まれたコンソールポートの場所などを説明することができました。 遠隔地にいる私の友人は、クラッシュカートを作ってコンソールに接続するのを初めて体験し(私はおそらく彼に生涯の傷を負わせたでしょう)、デバイスがハングしたことがわかったところで、それをリブートしました。 ネットワークは復旧した。 会議ブリッジには、私の直属の上司、部長、そして最近買収した映画スタジオをいくつか所有する会社のトップがいました。 彼らは絶賛してくれました。 私は電話を切り、ピニャコラーダをもう一杯飲んだ。  レッスンの様子です: 余分なコンソールケーブルは、できる限りあちこちに置いておく。  レッスン2. せっかくの休み、楽しんでください。

あるとき、Nexus 7kが転送するパケットを無差別に決めてしまうというトラブルシューティングを、1週間かけて終わらせたことがあります。 私はジュニア・エンジニアを助けるために現場に行きましたが、問題を発見するのに2分かかりました。 "なぜシャーシが曲がっているんだ?"と。 数時間後、彼はシャーシを所定の位置に移動する際に「一度だけ」落としたことを認めました。観客は大喜びです。 レッスンの様子です: 落とした機材は不良品と思われます。

合併する2つの大きなメディア企業間で散発的な停電を引き起こす問題を、私は独力で解決しました。 もう一方の会社の超シニアなネットワーク・アーキテクトは、1つの6509に2つのSUP4を入れ、各社が1つをコントロールすることで管理コントロールを分離するのがかわいいと考えたのです。 悪い考えだ。  レッスンの様子です: 冗長化されたスーパーバイザーは、同一のコンフィギュレーションを持つ必要があります。

2003年の東海岸停電事件で、大手eコマースサイトがダウンするのを防いだ。ビルの電気が消えたとき、私は自分のデスクにいました。 そして、データセンターに何が起こったのかを確認するために、3階建ての階段を駆け上がり、コロケーションセンターに向かいました。 幸いにもコロケーションセンターはバッテリーでバックアップされていたため、すべてが稼働していました。しかし、私は先見の明があり、5分以内に唯一の電力源となるバックアップ電力網にコアスイッチがすべて接続されているかどうかを確認することにしました。 すると、誰かが冗長化した電源を1つのコアスイッチに誤接続したことに気づきました。 ロードランナーのように、私は交換用のケーブルを見つけ、電源がバッテリーからバックアップ発電機に切り替わる3秒前に挿入しました。 もしそうしていなかったら、ビジネス全体がダウンしていたかもしれません。 レッスンの様子です: 災害復旧のシナリオを積極的に評価し、すべてのものを頻繁にテストする。

スノーフレークを作らないでください

しかし、誰もがネットワークの専門家を24時間365日雇う余裕があるわけではありません。 そのため、ネットワーク監視、分析、トラブルシューティングツールが大量に提供されています。 また、この業界は過去10年で大きく進歩しました。 現在では、いくつかの一般的な設計でネットワークを構築し、多くの製品で設計のベストプラクティスをデフォルトで実装しています。 実際、オンラインでネットワークを設計すれば、主要なクラウドプロバイダーが使用している技術や最適化のすべてが設計に組み込まれます。 このような機能強化により、問題を事前に排除できるだけでなく、よく設計され、決定論的なネットワーク・トポロジーを継承する場合、トラブルシューティングがはるかに容易になります。

CCIEの価値は低くなったのでしょうか? ネットワークがダウンしている場合、その答えは明らかにNOです。 しかし、この 20 年で世界は大きく変わりました。 RIP、DLSW、Appletalk、IPX/SPX、DECnet、Vinesなど)また、特定のネットワークトポロジーや設計が、特定の使用ケースに最適な技術ソリューションであることが証明されています(例:データセンターのサーバー接続用リーフスパインクロスファブリック)。 つまり、アーキテクトは、トラブルシューティングが難しい奇抜なものではなく、再現性のある(信頼性の高い)ネットワークユニットを構築しているということです。 そしてこれは、CCIEを必要とする可能性が低くなることを意味します。 この話は、第3回に続けましょう。

また次回まで!

ジョシュ・ソール

ジョシュ・ソール

Josh Saulは、25年以上にわたってオープンソースのネットワークソリューションの先駆者です。アーキテクトとして、GE、Pfizer、NBC Universalのコアネットワークを構築。 Cisco のエンジニアとして、Fortune 100 の金融セクターの顧客にアドバイスを提供し、顧客に新しい技術を普及させました。最近では、VMware(Broadcomが買収)、Cumulus Networks(Nvidiaが買収)、Apstra(Juniperが買収)でマーケティングと製品チームを率いていました。ニューヨークで2人の子供と暮らしており、熱心なスキューバダイビングの愛好家でもあります。