テキストだけの限界
昨日のテーマあたりから、流石に帰宅中のそこそこ混んでる電車で、学んだことを、テキストで書くのは無理が出てきました。
そこで、私は考えた結論は、
自分視点で使ってみよう
は、やめて
勉強メモ
にしよう!
既にそんな内容にとどまってますが、、、
まず昨日の内容の訂正
回帰分析で目的変数と説明変数という記述をしましたが、変量という言い方が正しかったようです。
今日は、昨日に続いて回帰分析ですが、
説明を避けた重回帰分析です。
説明変量が2つ以上あるやつ
です。
ここからは、全く実証してない架空の予想を話します。
ショップのwebサイトでの売上予測を立ててみようという試みです。
目的変量は売上金額ですね。
説明変量はどうしましょうか?
- サイトの訪問者数/day
- サイトのページビュー数/day
- 曜日
- 時間帯
- 月
- 日
- 追加、更新した商品数/day
簡単そうなのが、曜日と時間帯を説明変量に使うやり方です。
傾向は出そうですが、求められた回帰方程式で求まった予測値で意味があるでしょうか?
売上予測値 = a x 曜日 + b x 時間帯 + c
店主が改善できることが見つけられないので、分析する意味がありません。
回帰分析は意味ないですが、曜日・時間帯別の傾向は見えると思います。
なので、それ以外のパラメータをつかいましょう。
特に、オーナーが改善できるパラメータは含めたいですね。
商品更新・追加数がそれにあたりますね。
ついでにSNSでのプロモーション回数も入れましょう。
また、訪問者数やページビューも消費者が興味を持ったという点を重視すると、使えそうです。
とにかく、日毎の売上対応した、
- 訪問者数
- ページビュー数
- SNSでのプロモーション数
- 商品更新・追加数
後は、EXCELのソルバーで結果を出して終わりです。
いや、終わってません。
方程式が求まっただけですね。
売上予測値 = a x 訪問者数 + b x ページビュー数 + c x プロモーション数 + d x 商品更新・追加数 + e
この式のa〜eが求まっただけなんです。
このまま予測だと思って、対策打っても空回りの可能性があります。
つまり、この説明変量が目的変量に影響してるかを確認しないとダメなんです。
前回の単回帰分析の場合で思い出すと、
出てきた直線は全ての点の一番近いところを通るものでした。
つまり、求めた回帰方程式に説明変量を入れて目的変量を並べた時には、直線的になるのに、実際の点の散布図は直線に見えないという、アレです。
単回帰でも、重回帰でも同じですが
実際の分散値を分母にして、回帰方程式で求めた目的変量の分散を分子にして、分散率を求めるのです。
この値が1に近ければ、線形の傾向が正しいということになります。
一次関数みたいにグラフが書ければいいですが、説明変量が4つもあると、5次元のグラフをかけということになるため、
無理なんです。
なので、
分散率
を求めるしかないですね。
分散を求めることは、統計解析やる上では、