DeNAのインフラ組織について

by torigoe | October 11, 2021
infrastructure | #infrastructure

ディー・エヌ・エー鳥越と申します。閲覧頂きありがとうございます。 今回の記事の内容自体は 2021 年 6 月実施のイベント「SRE MEETUP」で登壇した内容を元にしています。

IT 業界は非常に進歩の早い業界です。インフラで言うと、古くはメインフレームからオープン化の時代を迎え、現在はオンプレのインフラ環境が当たり前の世の中からクラウドへの変革期を迎えています。

ディー・エヌ・エーでは、2004 年頃には某 OS から Liunx、MySQL等のオープン系へ、2016 年頃から大規模にクラウドの利用を開始をしました。そして今年 2021年には全てのシステムをオンプレからクラウドへ切り替えました。

安定したサービスをユーザに提供してデライトを届けたい、インフラエンジニアも創造的な仕事にフォーカスしたい、という思いから、ディー・エヌ・エーのインフラは常にパラダイムシフトを乗り越える努力をしてきましたし、今後も引き続き努力を続けていくつもりです。


鳥越から、ディー・エヌ・エーのインフラ組織について紹介します。

まず、この図はディー・エヌ・エーの全体組織を表しています。

左の青枠は各サービスを主管する事業本部で、ビジネス職や開発エンジニアの方が在籍しています。我々IT基盤部は右の赤枠で囲ってあるシステム本部の中に入っています。

システム本部は全社共通のシステム関連の横断組織で、 IT 基盤部は、ディー・エヌ・エー 各サービスのインフラを横断で見ているのでシステム本部に所属しています。システム本部の中には IT 基盤部の他に、 IT 戦略部、データ統括部、セキュリティ部、品質統括部などがあります。

IT 基盤部が具体的にどんな業務をしているのか、という事を説明します。

我々のミッションは上記の通りで、

サービスが最も安定して最も安く動き続けるために必要なことを全て実施し、
サービス開発者と共により良いサービスの創出、事業の成功に貢献すること

としています。重要なのは、ディー・エヌ・エー は事業会社なので、事業が成功するためにインフラの立場からできることを全部やる、という点です。事業の成功が中心であり、目的です。

IT 基盤部の組織構造ですが、現在は約 40 名在籍していて、第 1 から第 4 グループとネットワークグループの計 5 グループあります。第 1 から 第 4 グループが各事業部サービスのインフラを担当しています。例えば第 1 グループがライブストリーミングやスポーツ事業を担当、第 2 グループがゲーム事業を担当、第 3 グループはヘルスケア事業に加えて社内インフラも担当しています。ネットワークグループはオフィスからクラウドまでディー・エヌ・エー全体のネットワークを見ているグループです。
各グループ 8 人程度の人が在籍しています。

IT基盤部では、各事業サービスのインフラ運用に加え、クラウドの総合的な運用、社内システムのインフラ運用、ネットワークインフラの運用も実施しています。

クラウドの総合的な運用管理は、IT 基盤部の横断組織で、各グループから人が集まってチームとして動いています。パブリッククラウドの Payer や Organization の管理、コスト管理、セキュリティ施策の推進等様々なクラウドの管理業務を遂行しています。また、アカウント/プロジェクトの作成/削除を一元管理し、管理やセキュリティ担保のために必要な初期設定/キッティングも実施しています。

社内システムインフラ運用は、いわゆる情報システム部門であるIT戦略部と連携し、ディー・エヌ・エーの全社内システム (github,confluence,JIRA, ActiveDirectory など) のインフラ運用をしています。インフラ運用を切り出して専門のインフラ部隊で運用している、というのがユニークな点かと思います。

ネットワークインフラ運用は、ディー・エヌ・エー内の全てのネットワークの運用管理をしています。オフィス全拠点、データセンター、クラウドの回線接続やACLの全てが管理対象です。クラウドに関しては AWS の TransitGateway や GCP の SharedVPC を活用しており、専門のネットワーク部隊としてその管理も行っています。

続いて、IT 基盤部の働き方について説明します。

ディー・エヌ・エー は 2020 年初の covid-19 の感染拡大以来、全社リモートワーク中心になっていて、現在全社で常時15%以下の出社率になります。covid-19 の緊急事態宣言下においてはほぼ出社しないような状況になります。

IT基盤部では、covid-19 の感染リスク予防の目的から原則出社禁止としています。ただしリモートワークの長期化に伴い、在宅の作業環境等に課題がある人向けに週 1 までの出社を許可しており、2021/09 現在 IT 基盤部の出社率は約 8 % 程度となっています。この出社禁止措置は covid-19 のリスクが一定以下になったと判断した時点で解除する予定です。

ミーティングは全て Zoom、チーム内のコミュニケーションはほぼ Slack やメール、github や JIRA のコメントなどで完結しています。

IT 基盤部では関東圏以外に居住しながら働いてる人も複数人います。(ただし会社から出社要請がある場合には通勤手当のルール外の費用は自己負担になるという事を受諾頂く必要があります)

また、ディー・エヌ・エー は新卒など一部の方を除いて裁量労働制になっており、時間配分・業務の遂行の仕方を大幅にメンバーに委ねています。

特に IT 基盤部はメンバーの勤務実態に合わせた自由度の高い勤怠ルールになっています。業務開始時間は 12:30 を目処に労働開始する、となっていますが、深夜対応等が発生した場合は柔軟に業務開始時間を変更可能です。

IT 基盤部内の勤怠の連絡方法ですが、休暇連絡は Google カレンダーで block と slack で連絡、業務開始時間を変更する場合はカレンダーで block するのみ、とかなり簡素化がされています。

インフラ運用上の障害対応ですが、各チームで PagerDuty というインシデント管理ソリューションを利用しており、夜間・休日に障害が発生した場合は当番の人に連絡する仕組みを整えています。 障害対応の担当は、対応する当番をチーム内でローテーションをしています。 実際の深夜・休日の対応頻度はチーム毎やイベント等の負荷状況によってばらつきがありますが、例えばある人が実際に夜間対応する頻度は月に 1 回程度という感覚です。

深夜・早朝に障害対応をした場合は、先程も述べた通り翌日の勤務開始時間を遅らせたりするなど、柔軟に勤務時間を変更する事が可能となっています。

サービスは 24 時間 365 日稼働し続けているので、夜間・休日でも障害が起きた場合の対応は必須です。当然の事ですが同じ原因の障害を二度と発生させないという心構えの元、常にシステム品質の向上をする事により障害を減らす努力をし続けています。

ディー・エヌ・エーのインフラはオンプレ or クラウドか?

ディー・エヌ・エーのインフラは全てパブリッククラウドにあります。弊社南場が AWS Summit の基調講演で話した通りで、2018 年から約 3 年間かけてオンプレからクラウドに移行を実施しました。

なぜディー・エヌ・エーはパブリッククラウドに移行したのか?その判断に至るまでの過程は、上記 URL に詳細な情報が載っておりますので、是非参照して頂ければと思います。

ポイントを説明すると、ディー・エヌ・エーのインフラは元々オンプレとクラウドの両方を運用する二重構造でしたが、オンプレを運用する中でサーバの故障対応、固定資産の管理、消耗品の管理、データセンターの管理等の様々な定型業務が多く発生していました。これらの業務はクラウドへ移行する事によって不要となり、よりエンジニアが創造的な仕事にフォーカスする事が可能と判断した為、クラウド移行へと舵を切りました。 オンプレとクラウドのインフラコストを試算した結果コスト差が約 3 倍あった為、そのコスト差を緻密なコスト削減施策の積み重ねを続けて約 1.1 倍まで縮められる事が実証された事によりクラウド移行を決定しました。

ディー・エヌ・エー のインフラの特徴ですが、まず多様なインフラがあるという事があげられます。グローバル展開してるインフラ、インスタンス数の多い大規模なインフラ、高いセキュリティ水準のインフラ等、多様なインフラがあります。それぞれ特質が違う為、アーキテクチャにも特色があります。エンジニアとして、様々なインフラに携われるのが特徴の一つだと思います。

インフラの規模が大きい為、当然ですが chef や terraform 等の構成管理ツールを用いてインフラの構成管理をするなど。自動化を必須のものとして推進しています。また、インフラ運用管理ツールやアセット管理ツール等のソフトウェア開発・運用も実施しています。

また、何らかサービス障害が発生した場合には、必要に応じてインフラ部分のみの切り分けだけではなく、アプリケーションやミドルウェアのコードまで踏み込んで原因の確認や SQL の改善案の提示を行ったり等、エンジニアとして垣根を越えた動きが求められているという部分は特徴的だと思います。

ディー・エヌ・エーには、キャリアの自由度を上げる制度が複数あります。

まず「クロスジョブ制度」は部門をまたいで他部署の役割・業務を担う制度で、社内の兼務を容易に可能とする制度です。例えば開発経験も積みたい、という希望がある場合は本人や事業部と相談しつつ両方の工数振り分けを可能にします。

次に「シェイクハンズ制度」は本人起点での部門異動をサポートする制度となります。社内のオープンポジションに対して制度対象内の人であれば誰でも手を挙げる事が可能です。希望する異動先部署の本部長と本人の双方が合意をすれば異動が可能となります。 「副業制度」は社外で副業を可能にする制度です。

また、IT基盤部では、将来的なマネージャーキャリアへの希望がある人には適正を見据えながらキャリア支援をします。もちろんエンジニアとしてスペシャリストになりたいという人にも適切にキャリア支援を実施しており、本人がどういうキャリアパスを選んでも活躍しやすい組織だと思います。


SRE MEET UP で登壇した内容はここまでとなります。
※ 一部資料を修正しています

IT 基盤部の組織や働き方、制度等について理解を深める助けになれば幸いです。

我々は一緒に働ける仲間を強く募集しています。
興味を持って頂いた方は、ぜひ下記 URL からエントリーして頂ければと思います。

https://dena.com/jp/recruit/career/engineer/