scikit-learn で線形回帰 (単回帰分析・重回帰分析)

本ページでは、Python の機械学習ライブラリの scikit-learn を用いて線形回帰モデルを作成し、単回帰分析と重回帰分析を行う手順を紹介します。

線形回帰とは

線形回帰モデル (Linear Regression) とは、以下のような回帰式を用いて、説明変数の値から目的変数の値を予測するモデルです。

特に、説明変数が 1 つだけの場合「単回帰分析」と呼ばれ、説明変数が 2 変数以上で構成される場合「重回帰分析」と呼ばれます。

scikit-learn を用いた線形回帰

scikit-learn には、線形回帰による予測を行うクラスとして、sklearn.linear_model.LinearRegression が用意されています。

sklearn.linear_model.LinearRegression クラスの使い方

sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,
                                      copy_X=True, n_jobs=1)

sklearn.linear_model.LinearRegression クラスの引数
実行時に、以下のパラメータを制御できます。

fit_intercept	False に設定すると切片を求める計算を含めない。目的変数が原点を必ず通る性質のデータを扱うときに利用。 (デフォルト値: True)
normalize	True に設定すると、説明変数を事前に正規化します。 (デフォルト値: False)
copy_X	メモリ内でデータを複製してから実行するかどうか。 (デフォルト値: True)
n_jobs	計算に使うジョブの数。-1 に設定すると、すべての CPU を使って計算します。 (デフォルト値: 1)

sklearn.linear_model.LinearRegression クラスのアトリビュート
以下のパラメータを参照して分析結果の数値を確認できます。

coef_	偏回帰係数
intercept_	切片

sklearn.linear_model.LinearRegression クラスのメソッド
以下のメソッドを用いて処理を行います。

fit(X, y[, sample_weight])	線形回帰モデルのあてはめを実行
get_params([deep])	推定に用いたパラメータを取得
predict(X)	作成したモデルを利用して予測を実行
score(X, y[, sample_weight])	決定係数 R²を出力
set_params(**params)	パラメータを設定

scikit-learn を用いた線形回帰の実行例: 準備

今回使用するデータ
今回は、UC バークレー大学の UCI Machine Leaning Repository にて公開されている、「Wine Quality Data Set (ワインの品質)」の赤ワインのデータセットを利用します。

データセットの各列は以下のようになっています。各行が 1 種類のワインを指し、1,599 件の評価結果データが格納されています。

fixed acidity	酒石酸濃度
volatile acidity	酢酸酸度
citric acid	クエン酸濃度
residual sugar	残留糖濃度
chlorides	塩化物濃度
free sulfur dioxide	遊離亜硫酸濃度
total sulfur dioxide	亜硫酸濃度
density	密度
pH	pH
sulphates	硫酸塩濃度
alcohol	アルコール度数
quality	0-10 の値で示される品質のスコア

データセットは以下にて確認可能です。

データセットの読み込み

上記で説明したデータセット (winequality-red.csv) をダウンロードし、プログラムと同じフォルダに配置後、以下コードを実行し Pandas のデータフレームとして読み込みます。

import pandas as pd
import numpy as np

wine = pd.read_csv("winequality-red.csv", sep=";")
wine.head

scikit-learn を用いた線形回帰の実行例: 単回帰分析

まずは、1 つの説明変数を用いて単回帰分析を行います。

# sklearn.linear_model.LinearRegression クラスを読み込み
from sklearn import linear_model
clf = linear_model.LinearRegression()

# 説明変数に "density (濃度)" を利用
X = wine.loc[:, ['density']].as_matrix()

# 目的変数に "alcohol (アルコール度数)" を利用
Y = wine['alcohol'].as_matrix()

# 予測モデルを作成
clf.fit(X, Y)

# 回帰係数
print(clf.coef_)

# 切片 (誤差)
print(clf.intercept_)

# 決定係数
print(clf.score(X, Y))

実行結果は以下のようになりました。

結果より、以下のように回帰式が求められたことがわかります。

[alcohol] = -280.16382307 × [density] + 289.675343383

結果を 2 次元座標上にプロットすると、以下のようになります。青線が回帰直線を表します。

# matplotlib パッケージを読み込み
import matplotlib.pyplot as plt

# 散布図
plt.scatter(X, Y)

# 回帰直線
plt.plot(X, clf.predict(X))

scikit-learn を用いた線形回帰の実行例: 重回帰分析

続いて、「quality」を目的変数に、「quality」以外を説明変数として、重回帰分析を行います。

from sklearn import linear_model
clf = linear_model.LinearRegression()

# 説明変数に "quality (品質スコア以外すべて)" を利用
wine_except_quality = wine.drop("quality", axis=1)
X = wine_except_quality.as_matrix()

# 目的変数に "quality (品質スコア)" を利用
Y = wine['quality'].as_matrix()

# 予測モデルを作成
clf.fit(X, Y)

# 偏回帰係数
print(pd.DataFrame({"Name":wine_except_quality.columns,
                    "Coefficients":clf.coef_}).sort_values(by='Coefficients') )

# 切片 (誤差)
print(clf.intercept_)

上記の結果からワインの品質スコアは、以下のような回帰式で表せることがわかります。

[quality] = -17.881164 × [density] + -1.874225 × [chlorides] +
            -1.083590 × [volatile acidity] + -0.413653 × [pH] + 
            -0.182564 × [citric acid] + -0.003265 × [total sulfur dioxide] + 
            0.004361 × [free sulfur dioxide] + 0.016331 × [residual sugar] + 
            0.024991 × [fixed acidity] + 0.276198 × [alcohol] + 
            0.916334 × [sulphates] + 21.9652084495

scikit-learn を用いた線形回帰の実行例: 各変数を正規化して重回帰分析

各変数がどの程度目的変数に影響しているかを確認するには、各変数を正規化 (標準化) し、平均 = 0, 標準偏差 = 1 になるように変換した上で、重回帰分析を行うと偏回帰係数の大小で比較することができるようになります。

from sklearn import linear_model
clf = linear_model.LinearRegression()

# データフレームの各列を正規化
wine2 = wine.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))
wine2.head()

# 説明変数に "quality (品質スコア以外すべて)" を利用
wine2_except_quality = wine2.drop("quality", axis=1)
X = wine2_except_quality.as_matrix()

# 目的変数に "quality (品質スコア)" を利用
Y = wine2['quality'].as_matrix()

# 予測モデルを作成
clf.fit(X, Y)

# 偏回帰係数
print(pd.DataFrame({"Name":wine2_except_quality.columns,
                    "Coefficients":np.abs(clf.coef_)}).sort_values(by='Coefficients') )

# 切片 (誤差)
print(clf.intercept_)

正規化した偏回帰係数を確認すると、alcohol (アルコール度数) が最も高い値を示し、品質に大きな影響を与えていることがわかります。

参考: 1.1. Generalized Linear Models — scikit-learn 0.17.1 documentation
sklearn.linear_model.LinearRegression — scikit-learn 0.17.1 documentation