Google Cloud 認定資格について

自分の業務にどのような影響を与えたか

kenya-sk
16 min readAug 4, 2021
Photo by frank mckenna on Unsplash

概要

本記事では、Google Cloudの認定資格を取得したことが自分自身の業務にどのような影響を与えたかをまとめました。Google Cloudの認定資格については、公式ページに詳しくまとめられているので深く知りたい方は参照してみてください。自分の業務は広い意味ではデータサイエンティストに該当しますが、分析とエンジニアリングの比率で言うと4:6ぐらいになります。そのため、比較的クラウドサービスを利用・設計する頻度が高かったという背景があります。また、本記事ではGoogle Cloud Platform (GCP)について書いていますが、重要性や得られる知識については他のクラウドサービスでも基本的に同じだと思われます。実際に重要な機能は、どのクラウドサービスでも提供されているため、まず一つよく使うクラウドサービスを深掘って理解していくのがいいと思います。

なぜ、資格を取得しようと思ったか

まず、資格取得に関する動機について簡単に紹介します。私は約3年民間企業でデータサイエンティストとして働いています。クラウドサービスは、新卒入社した時にはじめてGCPを利用たため、約2年程度の経験です。それ以前に、オンプレミスでの開発を何度かしたことがあったため、比較的初期の段階から雰囲気で触ることはできていました。この雰囲気で触ることができていたというレベルが実務で限界を迎えたことが、認定資格を取得しようと思った一番の動機です。例えば、「どのストレージを選べばいいのか」や「データ処理のためのETLワークフローを組むためには、どのようにサービスを組み合わせればクラウド上でパフォーマンスが出せ、データの品質を保つことができるか」などのクラウドサービス特有の課題が出てきます。これらの課題を解決できるように最初は公式ドキュメントを読んでいました。そのことにより、「どのストレージを選べばいいのか」のように特定のサービスに特化した課題に対しては、解決できるようになってきました。一方で「データ処理のためのワークフローをどうするか」といった課題のように複数のサービスを組み合わせる必要があるものに関しては、なかなか全体像が掴めず個人の力で解決できなかったり、知識のある人に聞いてもなぜその選択がいいのかまで納得できないことが多くありました。

上記のような経験から一度クラウドサービスについて全体像を学ぶ必要があると思いました。その時に書籍やテックブログなどを参考にデザインパターンを学ぶという手段もありましたが、網羅的な内容というより特定のサービスの深堀りや特定の課題に対する解決策のようなものが多く、一つ先のステップのように感じました。もちろん、中には入門的な書籍・記事もあると思いますが、完全に初心者だった私には、その取捨選択をすることは難しく感じました。もう一つの懸念点としては、各サービスについてどこまで深く理解しておく必要があるかの判断が難しかったという点です。クラウドサービスを使って行うことは大きく分類すると従来のインフラエンジニア・バックエンドの方が担当していた領域が多いと思われます。そのため、データサイエンティストとして、詳しく理解する必要があることと円滑なコミュニケーションを行うために知っておく程度で十分なことのような知識の線引きが必要だと思いました。

このような課題に対して、例えばETL処理をある程度効率的に設計できるようになりたいと思った時に、データエンジニアの方が持っているような知識が必要になると考えられます。そこで、Google Cloud認定資格で該当するものを探すと、Professional Data Engineerという認定資格が見つかりました。実際に詳細ページを見ると、以下のようにどのような能力が評価され、何ができるようになるのかが記載されています。記載されている到達目標と自分の目標が一致したこと、資格試験が網羅的な内容を扱っていることから、まずはProfessional Data Engineerの受験を決めました。

Professional Data Engineer は、データを収集、変換、公開して、データに基づく意思決定ができるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングもできなければなりません。

出典:https://cloud.google.com/certification/data-engineer?hl=ja

結果的に、自分の業務に必要だと思った以下の3つの認定資格を取得しました。ここからは、各認定資格ごとに分けて紹介していきます。

Professional Data Engineer (2020/11)

Professional Machine Learning Engineer (2020/11)

Professional Cloud Architect (2021/07)

Professional Data Engineerについて

取得のための準備

こちらが初めて受けた試験となりました。この認定資格は、ストレージの選択方法やデータ処理基盤の設計、機械学習関連のサービスの選択方法などデータサイエンティストの方がデータエンジニアに近いことまでできるようになりたいと思った時に検討するといい資格だと思います。この資格を取得するにあたり、以下のような手順で準備を行いました。

  1. Google Cloud Platform エンタープライズ設計ガイド

こちらの書籍でGCPの全体像を理解することができます。入門的な書籍なので深い内容までは扱いませんが、GCPの利用歴が浅い人などは事前に読んでおくと後々の学習効率が上がると思います。

2. Data Engineering, Big Data, and Machine Learning on GCP専門講座

Google CloudがCourseraで公開しているデータエンジニアリングに関するコースです。GCPを使ったハンズオンも用意されており、実際に手を動かしながら学べるので、おすすめです。

3. Google Cloud 認定資格の取得準備:クラウドデータエンジニア プロフェッショナル認定

Professional Data Engineerの認定資格対策用のCourseraコースです。 単純な試験対策だけでなく、この試験ではどのようなスキルを身につけて欲しいのかといったことも紹介されているので、試験を受ける方はこちらも受講するといいと思います。

4. 公式の模擬試験

各種認定資格には、公式ページから模擬試験を受けることができます。こちらを受講することで、理解が曖昧なところが明らかになりました。

5. 公式ドキュメント

公式ドキュメントが充実しているので、自信がないところやBigQueryなどGCPが特に力を入れていそうなサービスに関してはしっかり読むようにしました。

試験対策については、こちらのブログがとても参考になったので、受験を考えている方は是非読んで見てください。私が受験した時には、販売されていなかったのですが、「Google Cloudではじめる実践データエンジニアリング入門」という書籍もProfessional Data Engineerの認定資格を目指す上で必要な知識がかなり深く書かれているのでおすすめです。

取得後どうだったか

取得後、大きく以下の4つのことを特に意識して業務に取り組めるようになったと思います。特に4つ目の内容は、GCPのサービス全体を理解できていないと難しいことなので、改めて網羅的に理解することの重要性を実感しました。

  1. ストレージの使い分け
    データ分析や機械学習モデルを作成していると、学習済みモデルのようにファイルサイズが大きく長期間に渡って保持しておきたいファイルが多く存在します。その時に、アクセス頻度をもとにGCSのストレージクラスを適切に選び費用を削減することができます。また、ライフサイクルなどを設定し削除のし忘れなども防ぐことができます。この例では、GCSについてですが、細かな費用削減テクニックや利用時のTipsのようなものに関する知識が増えたと感じています。
  2. BigQueryの効率的な使い方
    BigQueryがどのようにデータを処理するのかを理解することで、データをどう保存すると効率的に利用できるかなどを考えるようになりました。BigQueryが得意・不得意とすることなども、他のサービスとの比較を含めて理解することができます。
  3. 機械学習でどの程度の効果が得られるのかの見積り
    機械学習プロジェクトを始める上で重要な要素として、仮に機械学習モデルを作成した場合、どの程度の精度・ビジネスへの影響があるのかを見積もる必要があります。その時の選択肢として、BigQuery ML、AutoML、学習済みモデルのAPIなどGCPで提供されている高精度な機械学習モデルを簡単に試せるようになったことは大きいです。また、どのようなサービスが提供されているかの全体像を掴んでおくだけでも、課題の難易度・工数を見積もるときに役立っています。
  4. データ分析・処理基盤の理解
    今までは、データ処理基盤から出力されたデータを利用して何かを行うことだけに意識が向いていました。しかし、GCPの各サービスがどのようなことをやっているかが具体的になり、データの生成過程まで意識を向けることができるようになりました。その結果、欠損値をどこで補完しているのかやデータの変換がどこで行われるかなど分析する上で欠かせない情報を正確に理解できるようになりました。すると、より分析しやす環境にするにはどうすればいいのかという観点で、データ基盤を作成しているチームと話をすることもできるようになってきました。

Professional Machine Learning Engineerについて

取得のための準備

こちらの試験は、主に機械学習を実運用する上で必要な知識が幅広く問われます。私自身、機械学習に関する研究を行っていたり、業務で利用する頻度も高かったため、試験対策のために時間をとって体系的に勉強をするということは行いませんでした。しかし、普段機械学習に触れている方でもGCPのAI関連のサービスやTensorFlowに馴染みのない場合は一通り公式ドキュメントに目を通しておくといいと思います。

この試験は、機械学習を始めて1〜2年程度の方やバックエンドエンジニアだがデータサイエンティストと連携して機械学習システムを組み込むことが多い方などが必要な知識が身に付いているかを確認する目的で受験すると良さそうだと思いました。2021年8月現在、この試験は英語での受験しかできないので、その点は注意が必要そうです。

仮に未経験の人が体系的な知識を得るために、この資格を取得したいと思った時にどのような手順で勉強していくといいかについては、私の方であまりいい答えを持っていません。しかし、公式が提供している「機械学習と人工知能」のコースは、かなり網羅的な内容を扱っておりGCPでの実行にも重きを置いているので、まずはこちらに取り組むといいかもしれません。

取得後どうだったか

入門的な内容であったため、もともと機械学習に触れていた自分にとっては正直大きな影響はありませんでした。しかし、試験内容自体はかなり広範囲を対象としているため、未経験者が最初の目標として目指す場合には適していると思います。実際にこちらの試験の内容を理解できていると、データサイエンティストの方との業務でのコミュニケーションがより円滑になるだけでなく、少しコーディングの練習をすれば、自分自身で機械学習モデルを作成することができるようになると思います。

Professional Cloud Architectについて

取得のための準備

こちらの試験は、オンプレミス環境からクラウド環境へ移行する手順やGCP上でサービスをリリースする方法など幅広い内容を扱っています。一般的にインフラエンジニアやバックエンドエンジニアの方が最初に取得を目指す認定資格になると思います。データサイエンティストの方の場合は、どの領域の業務が多いかによって学んだ知識を活かしやすいかが変わってくると思います。いわゆる、MLエンジニアのような業務を行なっている方の場合は、バックエンドエンジニアの方とより円滑なコミュニケーションが取りやすくなると思います。

ストレージの選択やデータ関連のサービスに関する内容も含まれているため、Professional Data Engineerの試験内容と一部重複があります。また、GCPの基本概念なども共通しているので、比較的短時間で準備することができました。試験の準備は、Professional Cloud Architect向けのCourseraコースを視聴し、模擬試験を受け、公式ドキュメントで確認するという、これまでと同様の流れで行いました。こちらのCourseraコースでも、ハンズオンが用意されているため、一通り自分で手を動かしながら学ぶことができます。

取得後どうだったか

この認定資格では、インフラ・バックエンド寄りの内容が多かったため、直接業務に活きたというよりかは、機械学習システムを運用する際に他の専門領域の方とのコミュニケーションが技術的な面で円滑になったという点が大きかったです。加えて、データ分析を行いやすい環境に移行させていくということに関しては、認定資格を通じで幅広い知識を身につけられると思います。そのため、エンジニアリング領域にも業務を拡大させていきたいと考えているデータサイエンティストの方は取得を目指してみるといいと思います。

  1. アーキテクチャ図の理解
    機械学習システムをリリースするときや、分析のためにログの生成過程を確認したい時には、システムのアーキテクチャ図を参照することが多いと思います。その時に各サービスがどのような目的で利用されるものなのか、どのような特徴を持っているかを事前に理解していると、異常値や欠損値などがあった場合に原因究明に多くの時間を割かなくて済むと思います。また、ログを変更・追加して欲しい時や機械学習モデルの変更に伴いシステムの負荷が増大する場合などに、データサイエンティストとして開発チームに積極的に提案ができるようになると思います。
  2. クラウド移行の意思決定
    データ分析基盤として、Apache HadoopApache Airflowをオンプレミス環境で動かしている場合も多いと思います。しかし、データ分析チームでは、チーム内にインフラ・バックエンドエンジニアの方いない場合も多くあります。その場合に、分析基盤を自分達で管理・改修することは大きな労力となります。その際に、クラウドサービスで提供されているフルマネージドな環境に移行する選択肢があります。移行するときに、どこから移行すれば安全でかつ、費用対効果も高いのかなどの計画をある程度立てられるようになると思います。もちろん、組織によっては専門のチームがいて、移行計画はデータサイエンスチームの範疇ではないという可能性もありますが、実際にその基盤を利用する人が積極的に議論に参加することは長期的な分析効率を左右するので大切なことだと思います。

おわりに

本記事では、Google Cloud認定資格の取得及びそのための準備がデータサイエンティストの業務にどのような影響を与えたかについてまとめました。私自身、データサイエンティスト歴が長いわけでもなく、資格取得からそこまで日数も経っていないので断片的な情報となりますが、何かの助けになれば幸いです。

また、Vertex AIやBigQueryなどのサービスがものすごい勢いでアップデートされていることからも、データサイエンスとクラウドとの距離が今後より一層近づくと考えられます。今後も、良い分析を行っていくためにクラウドサービスのキャッチアップを行っていきたいと思います。

--

--