February 26, 2023

「評価指標入門 〜データサイエンスとビジネスをつなぐ架け橋」のレビューに携わりました

評価指標入門〜データサイエンスとビジネスをつなぐ架け橋 のレビューに携わりました。レビューという立場でありながら、自分自身も学びが多い書籍でしたので、非常にオススメです。

目次は、以下の通りです。

1章 評価指標とKPI
1.1 機械学習と評価指標
1.2 機械学習と最適化計算
1.3 機械学習プロジェクトの流れ
1.4 評価指標とは
1.5 評価指標とKPIと目的関数の関係
1.6 評価指標の決め方を間違えないために
1.7 KPIの特質を損失関数と評価指標に反映する
1.8 まとめ
2章 回帰の評価指標
2.1 回帰とは
2.2 データセットと回帰モデルの準備
2.3 平均絶対誤差
2.4 平均絶対パーセント誤差
2.5 二乗平均平方誤差
2.6 対数平均二乗誤差
2.7 モデルの評価
2.8 真に使うべき評価指標
2.9 その他の評価指標
2.10 まとめ
3章 二値分類における評価指標
3.1 二値分類と評価指標
3.2 データセット
3.3 混同行列
3.4 正解率
3.5 マシューズ相関係数
3.6 適合率
3.7 再現率
3.8 F1-score
3.9 G-Mean
3.10 ROC-AUC
3.11 PR-AUC
3.12 pAUC
3.13 Employee Promotion Dataデータセットの評価
3.14 ビジネスインパクトの期待値計算
3.15 コスト考慮型学習
3.16 まとめ
4章 多クラス分類の評価指標
4.1 多クラス分類とは
4.2 データセット
4.3 混同行列
4.4 正解率
4.5 適合率
4.6 再現率
4.7 F1-score
4.8 ROC-AUC
4.9 最適な評価指標の考察
4.10 まとめ
付録 ビジネス構造の数理モデリング

データ分析の業務として、予測モデルの構築は面白く重要です。データサイエンティストはモデルの予測精度を上げることに邁進しますが、その成果を他の職種の人にとっては理解しにくいものです。多くの書籍では、F1-scoreやROC-AUCのような指標を専門家の立場として紹介しています。理論を学ぶ過程ではとても良いですが、私達はその成果を専門家以外にも伝える必要があります。

ビジネスにとって、どれほどの価値があるのかは職種を跨いだ共通言語になります。モデルを導入することによって、プロダクトやサービスの売上がどれぐらい上がるかを提示できれば、データサイエンティストの存在価値を示しやすいです。営業の人であれば、いくらの売上を作ったかは重要です。データサイエンティストも同様なのではないでしょうか。

第一章では、評価指標に対する向き合い方を紹介しています。評価指標、KPI、目的変数それぞれがどのような違いがあるかが述べられています。第二章では、回帰分析をする時に一般的に利用される評価指標が解説されています。第三章が個人的に最もオススメできる箇所です。

特に3.14節の「ビジネスインパクトの期待値計算」では、予測モデルが作れるビジネスとしての成果を定量的に求める方法を紹介しています。一般的な評価指標が抱える問題点も提示しています。

第四章では多クラス分類に拡張して解説されています。

本書は、いつでも手に取れる距離に置いておき、予測モデルを構築する度に読み返したいと感じる内容でした。データサイエンスにビジネス価値があることを広く理解してもらうために、予測モデルを構築する全ての人に読んでもらいたいです。また、データサイエンティストと一緒に仕事をする人にとっては、技術を売る手段の一つとして役立つかと思います。

© gepuro 2013

Slideshare Icon from here , Home Icon from icons8