機械学習でボストンの住宅価格を予測する

機械学習を学び始めると、ボストンの住宅価格を使ったモデルによく出くわします。

ボストンの住宅の売買価格と、13個の不動産鑑定評価でいうところの価格形成要因（機械学習では特徴量といいます）の関係を線形回帰で表すものです。

やり方はごく簡単で、

まずモデルを作る準備で

Pandas, NumPy, scikit-learn, SciPyなど必要なライブラリーや使用するデータセットを準備します。

モデルの構築はいたって簡単。ここではランダムフォレスト回帰を使いました。

次にテストデータを使って、予測した価格と実際の価格がどれほど一致しているかを検証します。

なんとなくですが、だいたい一致しているようにも見えます。

見た目じゃよくわからないので、精度を数字で確認。

ｒ２つまり決定係数は0.92となかなか立派なもの。

誤差は平均で１０００ドル程度に収まっています。

こんなに良い結果が出るのもビックリです。念のため特徴量の影響度を調べてみます。

１３の特徴量の重要度を示したもので、合計が１になります。このなかで

INDUS（町ごとの非小売業の土地面積の割合）

MEDV（所有者が居住する住宅の価格の中央値を1000ドル単位で表したもの）

の２つで６７％も占めています。なんとなくRM（部屋数）なんかがもっと重視されてもいいような気がします。

KAWABATA APPRAISAL