読者です 読者をやめる 読者になる 読者になる

isseium's blog

田舎に住むWebエンジニアのブログ

「データサイエンティスト養成読本」を読んだ

データサイエンティスト養成読本を読んだので読書感想文を書きます.

次のような章立てになっている.それぞれに3〜5章くらいの小さい章がある構成です.

  • データサイエンティストの仕事術
  • データ分析実践入門
  • マーケティング分析本格入門
  • Fluentd 入門
  • データ分析のためにこれだけは覚えておきたい基礎知識

データサイエンティストの概要をつかむにはよいと思うが,複数人の内容をまとめているということもあって,内容が重複したり,粒度にばらつきがある.

Rや各種ライブラリ,統計技法を用いた実践例もあるが,この本だけでは理解は厳しい.

個人的におもしろいと思ったのは,次の3つ.

データサイエンティストの仕事術の第1章「データサイエンティストに必要なスキル」

まずは,データ分析・解析の歴史を振り返り,1960年代からマーケティングやビジネス面もまじえて紹介されている. 次に,データマイニングのプロセスである「CRISP-DM」「SEMMA」「KDD」を紹介している. データマイニングの世界のプロセスを知らなかったのでためになった. 大学の研究もこのプロセスを取り入れつつすすめていきたいと思った.

データ分析実践入門 第5章「データマイニングに必要な10のアルゴリズム」

タイトルのとおり,10のアルゴリズムが紹介されています. データマイニングで使われている技術キーワードを知るにはとてもいいと思いました. 当然ですが,この本では概要の概要しか触れられていないので,使いこなすのは無理です. 紹介されているアルゴリズムは次の通り

  • C 4.5: 集合を特徴をもとに分割して決定木を作るためのアルゴリズム
  • k-means: クラスタリングでもっとも有名なアルゴリズム
  • SVM: 画像の特徴点などの説明変数がが膨大なデータでも高速計算できるアルゴリズム
  • アプリオリアルゴリズム: アソシエーションルール分析のために使われるアルゴリズム
  • EMアルゴリズム: 複雑な対象において最適解を求めるアルゴリズム
  • ページランク: Google のやつ
  • アダブースト: アンサンブル学習のひとつ.(よくわからなかった)
  • k-近傍分類: まる暗記型の分類機
  • ナイーブベイズ: クラスを予測するための手法.軽量で性能もよいため,よく使われる.
  • CART: 2分木によってクラス,連続地,生存期間などを予測できる手法.

マーケティング分析本格入門 第1章 「Rによるマーケティング分析」

統計をマーケティングにどう活かしているかがわかるいい例でした. 対象集団を分類するために,消費行動アンケートをとり,主成分分析を用いたあとに,クラスタリングし,セグメントを洗い出し,セグメントに突き刺さるように戦略を立て,さらには分析・評価するところまで書かれていて,ひととおりの流れがわかりました. 定性的研究や実践よりの研究にも役立つと思いました.

番外: マーケティング分析本格入門 第2章 「mixiにおける大規模データマイニング事例」

データサイエンティストの養成という意味では広告領域に焦点をあてていて,内容も少し技術よりでしたが,mixiのインタレスト広告の裏側が知れて,インタレスト系広告に関わっていたエンジニアとしては非常におもしろかったです. hiveやmahoutを使ってるんですね!

前職のところもどんどんこういう記事を書いていけば,エンジニアから魅力的な現場だと思われると思うんですけどね!

まとめ

データサイエンスの概要をつかむにはいい内容だと思いました. 深い知識が必要なく,数式やソースコードもほとんどでてこないのでスラスラ読めます(理解しているかは別です)ので,グループでの勉強会の導入にはいいのではないでしょうか.