データサイエンティストの心構え的な話

スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform

上記書籍の備忘録になります(1章部分のみ)。1章では、データサイエンティストや機械学習エンジニア(この本ではそれらを総称してデータエンジニアと呼んでいる)として働いていく上での心構えなど大事なことが書いてあり、 自分自身データエンジニアとして就職し、業務をやり始める際に読んでいて非常に役に立ちました。

当時他のブログで書いていたものですが、今でも大事な考え方の部分ですので、1章部分の要約を移行してきてこのブログに残しておこうと思います。

他の章は具体的な実践をGCPのプロダクトを使いながらやっている例を紹介しているのですが、それらは適宜必要になった際に読めば良いと思います(積読中)。

1章 データに基づくより良い意思決定

データ分析の主目的はより良い決定を下すこと

分析結果に基づいた意思決定が必要なければ分析に時間を費やす必要はない。

当時の感想:

当たり前ですが、考えてみると自分自身学生の頃には特に意味もなくとりあえず主成分分析なり可視化なりをしてしまっていました。 趣味で遊ぶくらいならいいのですが、業務に置き換えると大規模なデータを扱うことも相まり、分析は時間・費用などのコストが大きいタスクになります。

ここで目的もなく分析をしても、出てきた結果は「別に分析しなくても分かってたよね」「やることは変わらないよね」ということになってしまいます。

一人前の機械学習エンジニアとなるために、これからは分析の先の「ビジネス上の価値」といったところまで意識しながら取り組んでいきたいと思いました。 またこういう面でもビジネス理解・ドメイン理解は機械学習エンジニアに求められるスキルだなと感じました。

データエンジニアに必要な素養

  • ビジネス理解
  • データの安全性
    • データが改竄されていないこと、プライバシーの侵害をしないこと
    • アクセス制御、ログ収集・管理
  • データ・ドメインに対する理解
  • サービスの品質
    • 信頼性、耐障害性、スケーラビリティ、監視
  • 統計学機械学習への理解
  • 機械学習モデルの構築
  • データ処理パイプラインの構築スキル
  • データベーススキーマの設計
  • SQLクエリの作成スキル

などなど。こうやって書いていくとデータエンジニアの役割がかなり広範にわたってしまうように感じるが、統計モデル構築やチャート・レポート作成が最終目標ではなく、ビジネスで成果を出すことができる人が優秀なデータエンジニアとして認められる。その観点で考えると、これら全てにおける素養が必要になる。

データエンジニア、データサイエンティスト、データアナリストなどの職種があるが、求められているのはこれらの3つの役割を全てカバーできる人材で、そのような人を以降で「データエンジニア」とする。

Googleでは、データエンジニアを「データ分析を実行してビジネスで成果を出す」ことができる人とみなしている。

https://cloudplatform.googleblog.com/2016/10/transform-your-business-become-a-Google-Certified-Professional-Data-Engineer.html

ここで、実際にこのような複数の領域に精通するエンジニアになるのは現実的でないと思われるが、実際にはかなり現実的なところまで来ているーー近年ではクラウドフレームワークの発達から、これらの仕事をこなすために必要な知識量が数年前よりずっと少なくなっているため

1章まとめ

  1. データ分析は意思決定を支援するためのものである
  2. 経験ベースでなく、データドリブンな意思決定の方が優れている可能性がある
  3. 意思決定モデルの精度は、適切な統計的手法、もしくは、機械学習によるアプローチの選択に依存する
  4. データの微妙な違いによって、モデルが全く役に立たなくなることがあるため、データの本質的な理解が大切である
  5. 意思決定を体系的に支援し、それをサービスとして提供する大きな市場機会がある
  6. そのようなサービスは、継続的なデータ収集とモデルの更新を必要とする
  7. 継続的なデータ収集には、強力なセキュリティと監査が必要
  8. 顧客は、サービス信頼性、正確性、待ち時間についての保証を必要とする

まとめると、これら全てを認識し、カバーする能力が求められる。

2章以降では、実際の課題とソリューションを構築するステップを踏みながら、その過程における「頭の使い方」を学んでいける構成になっています。 読んだら適宜更新していこうと思います。

おまけ

ちなみに、これまで業務で自分自身データエンジニアをやってきましたが、こういったことを心がけながら研究開発の戦略や論文を読んできたため、 AIに関するビジネス成果を発表しあう勉強会等で登壇もして、当時新卒ながら賞を頂いたりすることもできたことがあります。

一応スライドはこちらになります。

www.slideshare.net

やはり技術的にすごいものに飛びつくのも面白いですが、それだけではなくビジネス上の成果を上げれると非常にやりがいを感じることができるなぁと思いました。 この本が良いきっかけとなってくれましたが、これからもこういった心構えを忘れずにAI開発に取り組んでいきたいと思います。