データスマート Excelではじめるデータサイエンス入門

試し読み

データスマート　Excelではじめるデータサイエンス入門

トップスタジオ　訳/W・フォアマンジョン　著

定価 4,180円
（本体 3,800円＋税10%） ※電子書籍の価格は各販売ストアにてご確認ください｡

紙の本を買う

紙の書籍を購入
- Amazon
- ヨドバシ.com

電子版を買う

電子書籍版を購入

発売日	：2017-08-25
仕様	：B5変形判／464P
ISBN	：978-4-8443-6676-8

データサイエンスは、データをただ眺めたり、単純に集計するだけでは見えてこない、価値のある共通点や傾向などをデータから探し出す技術です。勘やひらめきではなく、データに基づくマーケティング活動が重視される現代のビジネスにおいて、意思決定の基盤にもなりつつあります。本書は、このように今後ますます重要性が増してくるデータサイエンスに初めて触れる方のための入門書です。最大の特徴は、ビジネスパーソンにとって最も身近なツールであるExcelを使う点。Excelファイルの元データをダウンロードして、解説を読みながら手元のパソコンで一歩ずつ分析を進めていけるので、高度なデータサイエンスの手法とその意味を順を追って理解できます。取り上げている手法も、クラスター分析・教師なし機械学習・線形プログラミング・教師あり機械学習・アンサンブルモデル・予測モデリング・外れ値検出といった実践的なもの。本当の意味で「データを扱う技術」を身に付けたい方に、まず手にとっていただきたい一冊です。

もっと詳しく

■ページ見本

■第１章　今さら人に聞けないスプレッドシートについて必要な知識
いくつかのサンプルデータ
[Ctrl]キーですばやく移動
式とデータをすばやくコピー
セルの書式
値の形式を選択して貼り付け
グラフの挿入
検索と置換メニューへのアクセス
値の検索と取得の式
VLOOKUPを使用したデータの統合
フィルターと並べ替え
ピボットテーブルの使用
配列数式の使用
ソルバーで値を求める
OpenSolver：使わないに越したことはありませんが、ここでは必要です
Wrapping Up

■第2章　クラスター分析パートI：k平均法を使用した顧客ベースの区分
女子は女子と踊り、男子は肘に傷を作る
現実的な題材：電子メールマーケティングの購読者に対するk平均法クラスタリング
　　ジョーイ・バッグ・オードーナッツ・ホールセール・ワイン・エンポリアム
　　初期のデータセット
　　測定する項目の決定
　　ユークリッド距離：直線距離で距離を測定
　　全員に対する距離とクラスターの割り当て
　　クラスターの中心を求める
　　結果の意味の確認
　　クラスターごとの上位の売り出しの確認
　　シルエット：さまざまなk値を除外できる優れた方法
　　クラスターを5つにした場合、どうなるでしょうか。
　　5つのクラスターの解決
　　5つのすべてのクラスターの上位の売り出しを確認
　　5平均法クラスタリングのシルエットの計算
kメディアンクラスタリングと非対称の距離測定
　　kメディアンクラスタリングの使用
　　より適切な距離の測定基準の選択
　　Excelでこれらを処理する
　　5メディアンクラスターの上位の売り出し
Wrapping Up

■第3章　ナイーブベイズとその単純さゆえの驚くべき軽量性
製品にMandrillという名前を付けたら、信号とともにノイズが返されることに
世界最短の確率論の入門
　　条件付き確率の合計
　　複合確率、連鎖法則および独立性
　　依存性のある状況での確率値
　　ベイズ法
ベイズ法を使用したAIモデルの作成
　　高いクラスの確率もしばしば等しいものと仮定される
　　その他の2つの作業
Excelのパーティを始めましょう
　　無関係な句読点の削除
　　スペースで区切る
　　トークンのカウントと確率の計算
　　モデルの完成です！　活用しましょう
Wrapping Up

■第4章　最適化モデリング：「新鮮な絞りたて」のオレンジジュースがブレンドされているはずがない
データサイエンティストが最適化を必要とする理由
手始めの簡単な取捨選択問題
　　問題を多面体として表現
　　レベル集合の移動による解決
　　シンプレックス法：各角の周囲を移動
　　Excelでの作業
　　本章末のモンスター級の問題
果樹園からグラスへの新鮮さ※ブレンディングモデルのブレイクタイム
　　ブレンドモデルの使用
　　特定の仕様から始める
　　一貫性への回帰
　　Excelへのデータの入力
　　ソルバーでの問題の設定
　　基準の緩和
　　死んだリスの駆除ミニマックスの定式化
　　If-Thenおよび“ビッグM”制約
　　変数の乗算：制限を超えた使用法
リスクのモデル化
　　標準的に分布しているデータ
Wrapping Up

■第5章　クラスター分析パートII：ネットワークグラフとコミュニティー検出
ネットワークグラフとは
単純なグラフの視覚化
Gephiの簡単な紹介
　　Gephiのインストールとファイルの準備
　　グラフのレイアウト
　　ノードの次数
　　美しい印刷
　　グラフデータの操作
ワインの卸売りデータからのグラフの作成
　　コサイン類似度行列の作成
　　r-近傍グラフの作成
エッジにはどれくらいの価値があるか：グラフのモジュール性でのポイントとペナルティー
　　ポイントとペナルティーとは
　　評価値シートの設定
クラスタリングを始めましょう
　　分割その1
　　分割その2
　　そして…分割その3
　　コミュニティーの符号化と分析
Gephiへ再訪問：冒険物語
Wrapping Up

■第6章　初期の教師あり人工知能―回帰
えっ、妊娠しているのですか？
自分を軽んじるな
RetailMartで線形回帰を使用して妊娠している顧客を予言する
　　特徴セット
　　訓練データの収集
　　ダミー変数の作成
　　独自の線形回帰を作成する
　　線形回帰統計：R二乗、F検定、t検定
　　特定の新しいデータについて予測を行い、性能を測定する
RetailMartでロジスティック回帰を使用して妊娠している顧客を予言する
　　まずリンク関数が必要
　　ロジスティック関数の導入と最適化
　　実際のロジスティック回帰の作成
　　モデルの選択―線形およびロジスティック回帰の性能の比較
Wrapping Up

■第7章　アンサンブルモデル：大量のまずいピザ
第6章のデータを使用
バギング：シャッフルと訓練を繰り返す
　　決定株は愚かな予測器の呼び名としては魅力に欠ける
　　そこまでは愚かに見えない
　　もっと力が必要だ
　　訓練しよう
　　バギングを行ったモデルを評価する
ブースティング：間違えたら、とにかくもう一度ブースティングしよう
　　モデルを訓練する̶すべての特徴をターゲットに
　　ブースティングモデルを評価する
Wrapping Up

■第8章　予想：当たらなくても一息ついて落ち着こう
剣の販売で大忙し
時系列データについて知る
単純な指数平滑法からゆっくり始める
　　単純指数平滑法による予想の準備をする
傾向があるかもしれない
ホルト傾向補正指数平滑法
　　シート上でホルト傾向補正平滑法の準備をする
　　これで終わり？　自己相関を確認する
ホルト・ウィンタース乗法指数平滑法
　　基準値、傾向値、季節指数の初期値を設定する
　　予想に取り掛かる
　　そして最適化する
　　もうひとふんばり
　　予想の周囲に予測区間を描く
　　効果を得るためにファンチャートを作成する
Wrapping Up

■第9章　外れ値の検出：外れているからといって重要でないわけではない
外れ値も人間である（たとえ悪人であっても）
ハドラム夫妻間の面白い訴訟事件
　　テューキーの箱ひげ図
　　テューキーの箱ひげ図をスプレッドシートで適用する
　　このような単純な手法の限界
クビにはならない、でもすべて悪い
　　グラフ化するデータを準備する
　　グラフを作成する
　　k近傍を求める
　　グラフの外れ値検出方法1：入次数を使う
　　グラフの外れ値検出方法2：k-距離で微妙な違いを出す
　　グラフの外れ値検出方法3：局所外れ値因子の要点
Wrapping Up

■第10章　スプレッドシートからRに移行する
Rの準備と実行
　　簡単な手入力
　　Rでデータを読み込む
実際のデータサイエンスを行う
　　ワインデータを使用した球面k平均法
　　妊娠データを用いたAIモデルの作成
　　Rを使った予想
　　外れ値を検出する
Wrapping Up

データスマート　Excelではじめるデータサイエンス入門

目次

あわせてよく検索される書籍

プロフェッショナルから学ぶ！デザイン・グラフィック書

現場で役立つ！ MdNのスキルアップ書籍

絵が上手くなる！イラスト強化ブック

データスマート Excelではじめるデータサイエンス入門

目次

あわせてよく検索される書籍

プロフェッショナルから学ぶ！ デザイン・グラフィック書

現場で役立つ！ MdNのスキルアップ書籍

絵が上手くなる！ イラスト強化ブック

データスマート　Excelではじめるデータサイエンス入門

プロフェッショナルから学ぶ！デザイン・グラフィック書

絵が上手くなる！イラスト強化ブック