コンテンツに移動
データ分析

Box.Inc、Dataplex を導入してデータ プラットフォームでデータ ガバナンスとオブザーバビリティを実現

2024年9月12日
Yeshvant Kumar Bhavnasi Venkat Satya

Senior Software Engineer, Box.Inc

Asmita Kulkarni

Senior Product Manager, Box.Inc

※この投稿は米国時間 2024 年 8 月 23 ���に、Google Cloud blog に投稿されたものの抄訳です。

昨今のデータドリブンな世界において、組織は大量のデータを管理すると同時にそのセキュリティ、アクセスのしやすさ、コンプライアンスを確保するという課題に直面しています。クラウド コンテンツ管理のグローバル リーダーである Box.Inc は、データ プラットフォームのオペレーションを効率化するために、高度なデータカタログ ソリューションを導入する必要に迫られていました。そこで Box.Inc は、高度なデータ ガバナンス、検出、オブザーバビリティのためのツールとして、BigQuery の機能としても提供されている Google Cloud Dataplex を導入しました。これにより、複雑な分析のユースケースに対応できるようアプローチを切り替えることに成功し、製品のイノベーションと成長を促進しています。

Box.Inc のデータ プラットフォームは、データメッシュ アーキテクチャに根差すマルチテナント モデルを基盤としています。データメッシュは、コンテキストを最もよく理解しているチームにデータの所有権を分散し、それぞれの事業分野にセルフサービスのデータ プラットフォームを提供して連携ガバナンスを実現することにより、データサービスを独自にモデル化、開発、デプロイ、運用できるようにします。これにより、俊敏な意思決定と効率的なデータ利用が可能になります。

世界中で膨大な数のファイルを処理して多数のユーザーにサービスを提供している当社のデータ プラットフォームでは、データレイク ソリューションとして Google Cloud BigQuery を採用しています。これにより、1 秒あたり数十万ものイベントを簡単に処理し、サーバーレスのアーキテクチャでペタバイト規模のストレージ需要を満たすことができています。さらに、BigQuery の大規模な並列処理機能を利用して毎日数千ものクエリジョブに対応し、組織内の各チーム間で大規模なデータセットを処理できています。この規模と効果的なインフラストラクチャ管理のバランスをとることが、収益を上げながら当社の成長を維持するために不可欠です。そこで、当社は未来を見据え、予測分析��処方的分析の可能性を最大限に引き出すことを目指しています。データ プラットフォームの機能を強化することで、分析を取り巻く複雑な課題に対処し、社内外からの複雑なニーズを満たす革新的なサービスの開発を促すことができます。

拡大を続ける事業運営の課題

Box.Inc はグローバルな拡大を続け、数百万人のユーザーが当社のデータ プラットフォーム サービスを利用するようになりました。そうしたなかで、次のような課題に直面しました。

  1. データの検出: 製品アナリスト、データ サイエンティスト、ML エンジニアは、必要なデータセットの検出、取得、把握にまつわる時間のかかるプロセス(数日から数週間)に手を焼いていました。特定の製品またはサービスに関連するデータがどこにあるのか、誰がデータへのアクセス権を付与してくれるのか、既存のデータの構成がどうなっているのか、といった点を把握できないケースがありました。

  2. データのオブザーバビリティ: データ エンジニアも、デバッグのためのデータ パイプラインのモニタリングに手を焼いていました。その結果、データのダウンタイムと解決までの時間が長引き(最大で数週間)、生産性が大きな打撃を受けていました。

  3. データリネージ: データ エンジニアとソフトウェア デベロッパーがデータ パイプライン全体を見通すことができず、トレーサビリティが欠如していたため、データに関する問題を事前に検出して解決できませんでした。影響および根本原因の分析には、数日から数週間が必要でした。

  4. データ ガバナンスとセキュリティ: GDPR などの規制を遵守するために、機密データのアクセス制御をきめ細やかに管理する作業は困難です。特にデータのボリューム、種類、スピードが急速に増しているなかではなおさらです。適切なツールを持っていなかった Box.Inc のセキュリティ チームは、お客様の機密情報の特定、分類、保護に手を焼いていました。さらに、本番環境システムのデータアクセスを誰が承認してくれるかを確認することも簡単ではありませんでした。

こうした課題に対処するために、Box.Inc Dataplex を導入しました。この強力なデータ ガバナンス ソリューションは、メタデータ管理とデータの検出のための高度な機能を備えています。

Dataplex を活用して、デベロッパーの効率向上を実現する一方で全リージョンのセキュリティ ポリシーを強化することで、データ プラットフォームを改良するための変革を開始しました。Dataplex は一元的なデータカタログの役割を果たし、データの検出、リネージのトラッキング、ガバナンスといった各種機能を備えています。

Dataplex の活用

Dataplex を導入して、データの検出、データリネージ、データのオブザーバビリティ、データ ガバナンス、コンプライアンスのためのセキュリティなど、幅広い機能を業務で利用できるようになりました。それぞれ詳しく見ていきましょう。

1. メタデータタグを使用したデータ検出の効率化

Dataplex のメタデータタグとタグ テンプレートのおかげで、製品アナリストやビジネス アナリスト、データ サイエンティストなどの関係者が、各データセットに関連付けられた運用およびビジネスのメタデータタグを読み取って、特定のデータをより簡単に検出、利用できるようになりました。これらの標準化されたメタデータ フレームワークとタグ テンプレートにより、分析情報の生成、ダッシュボードの作成、レポートの生成が迅速になり、Box.Inc 全体で意思決定プロセスが加速しました。

以下に、Dataplex でカスタムタグの値の更新を自動化するアーキテクチャの概要図を示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_architecture.max-1100x1100.jpg

以下は、運用およびビジネスのメタデータを管理するために作成されるリソースレベルの公開タグの例で、リソース オーナーやテーブル取り込みなどのデータの検出に役立ちます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_resource_tags.max-1100x1100.png

2. データリネージとカスタム メタデータタグによる包括的なデータ オブザーバビリティの実現

Box.Inc は、Dataplex のテーブルレベルの運用メタデータタグを高性能な Data Lineage API と組み合わせて利用することで、BigQuery 取り込みパイプラインのエンドツーエンドのデータ オブザーバビリティを実現しました。メタデータタグの更新を自動化し、Data Lineage API を利用することで、取り込みのウォーターマークやパイプラインのステータスといった重要なメタデータを正確に取り込みます。そして、データ パイプライン全体を見通せるようにして、トレーサビリティを確保することで、データ エンジニアとソフトウェア デベロッパーを支援しています。データを移動元から移動先までトラッキングしてデータリネージを可視化した結果、影響分析が高速化し、問題の事前検出と迅速な解決が促され、ダウンタイムを最小限に抑えることができています。

さらに、社内のジョブ スケジューラから Data Lineage API を呼び出し、ストリーミング取り込みのジョブリネージ イベントを取り込めるようになることを目指しています。

3. 分類フレームワークときめ細やかなアクセス制御によるセキュリティ ポスチャーの強化

包括的なデータ分類フレームワークを導入したことで、ドメイン オーナーが機密データ フィールドを確実に特定、分類、保護できるようになりました。「公開」、「内部」、「制限付き」、「顧客」などのカテゴリがあらかじめ定義されたフレームワークは、きめ細かい厳格なアクセス制御の基盤となり、ゼロトラスト ポリシーを促進します。さらに、Google Cloud のデータ損失防止(DLP)との統合によって、データの損失と機密情報の��図しない開示に対する保護を強化できました。DLP は安全措置の役割を果たし、誤検出を最小限に抑えます。機密性の低いデータが機密性の高いデータであると DLP によってフラグ付けされた場合、その分類を迅速にエスカレーションし、保護を強化します。

分類フレームワークのアーキテクチャ

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_classification_architecture.max-1100x1100.jpg

データカタログのメタデータタグを列レベルで利用することで、データの検出が効率化され、機密データを効率的に管理、保護できます。当社はデータアクセスのパターンをリアルタイムで包括的にモニタリングし、不正アクセスの特定を促進するとともに、データ プラットフォーム全体でポリシー要件を確実に遵守しています。

以下は、データ分類と機密のラベル付けを示すために作成した、テーブルレベルおよび列レベルのタグのサンプルです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_labeling.max-1100x1100.png
https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_classification_template.max-1300x1300.png

まとめ

Dataplex は、当社のデータ プラットフォームを変革し、スケーラブルかつ効率的で安全なデータ エコシステムを実現するうえで不可欠でした。当社は、データ ガバナンス、検出、オブザーバビリティ、セキュリティ コンプライアンスに注力し、デジタル時代におけるデータ マネジメントの課題に対応するためのツールを手に入れました。Dataplex のおかげで、データの可能性を余すところなく引き出し、Box.Inc の成長とイノベーションを継続することができています。

-Box.Inc、シニア ソフトウェア エンジニア Yeshvant Kumar Bhavnasi Venkat Satya

-Box.Inc、シニア プロダクト マネージャー Asmita Kulkarni

 

投稿先