SkyFoxで気軽に機械学習

機械学習自動化ツール「SkyFox」の紹介ブログ

SkyFoxのアルゴリズムの自動選択機能について

今回はSkyFoxのアルゴリズムの自動選択機能について説明します。

 

f:id:secondxight:20190619201804p:plain

 

 

 

目次

 

自動選択の種類

自動選択には3種類があります。

アルゴリズムの選択でナビゲーションをクリックすると

が展開します。

f:id:secondxight:20190619185119p:plain

アルゴリズムの選択画面

 

ホワイトボックス

項目毎の影響度が可視化し易く、業務で利用する上で扱いやすいです。

 

ブラックボックス

モデルの中身が見えない反面、精度は高くなります。

 

自動

ホワイトもブラックの両方から自動で選択されます。 

 

 

 

アルゴリズムの個別設定方法

 

アルゴリズムは自動選択以外にもマニュアルで選択可能です。

ナビゲーションの下にある分類やディープラーニングをクリックすると展開しますのでこちらから選択してください。

f:id:secondxight:20190619193354p:plain

 

分類モデルでの選択肢

 

ロジスティック回帰

貸倒や購買、退職など0/1で表現される事象を予測します。
モデルが数式で表されるため項目ごとの影響が見やすく、精度も高いことから、最も広く使われています。

 

決定木(分類木)

貸倒や購買、退職など0/1で表現される事象を予測します。
最も古くからあり、データ全体を条件で分岐していくことで、事象が発生する条件を推定します。構造上モデルの理解が容易な反面、精度がやや低いです。

 

k-近傍分類器

貸倒や購買、退職など0/1で表現される事象を予測します。
事象毎にグループを生成し、どちらのグループに近い距離にあるかで判別します。
顧客セグメントの判別などに向きます。

 

サポート・ベクター・マシン分類器

貸倒や購買、退職など0/1で表現される事象を予測します。
分類するデータ間の距離が広くなるように境界線を作って分類するため、未知のデータに対する判別力が高いと言われています。
複雑な計算をするため、処理時間が長いの欠点です。

 

ナイーブ・ベイズ分類器

貸倒や購買、退職など0/1で表現される事象を予測します。
ベイズの定理を用いて、最も可能性が高いと判断されるカテゴリに分類します。
古くからあり、簡易でデータの分布に依らず使えます。

 

ランダム・フォレスト分類器

貸倒や購買、退職など0/1で表現される事象を予測します。
データや項目をランダムに選択しながら、多数の決定木を生成し、すべての決定木を用いて予測を行います。
精度は高い一方、多くのデータを必要とします。
また、作成される決定木は100を超えることも多く、モデル全体の特徴を捉え難くなります。

 

勾配ブースティング分類器

貸倒や購買、退職など0/1で表現される事象を予測します。
多数の決定木を生成し、すべての決定木を用いて予測を行います。
決定木を生成する度に、それまでに作成された決定木では予測不可であるデータに重み付けをするため、非常に精度が高い一方、多くのデータを必要とします。
また、作成される決定木は100を超えることも多く、モデル全体の特徴を捉え難いです。

 

順伝搬型NN分類器

ディープラーニングの1つである順伝搬型ニューラルネットワークを用いて、あり/なしやA,B,Cなどのクラスに分類します。
ネットワーク次第では高精度なモデルが構築できますが、どういう設定なら精度が向上するかの見極めが難しいため、玄人向きの手法と言えます。

 

 

回帰モデルでの選択肢

 

線形回帰

与信枠や購入金額、業績など数値で表現される事象を予測します。
全てのデータの中心を通る線を妥当な予測線とする手法です。
モデルが数式で表されるため、項目ごとの影響が見やすいのが特徴です。

 

エラスティック・ネット

与信枠や購入金額、業績など数値で表現される事象を予測します。
影響度の極めて弱い項目が含まれる場合、それらの重みを意図的に小さく(またはゼロ)にすることで、モデルの汎用性を上げる仕組みがあり、シンプルかつ高い精度のモデルが構築できます。

 

決定木(回帰木)

与信枠や購入金額、業績など数値で表現される事象を予測します。
古くからあり、枝分かれで事象を予測するため、モデルの中身の理解が容易な反面、精度がやや低いです。

 

k-近傍回帰

与信枠や購入金額、業績など数値で表現される事象を予測します。
事象毎にグループを生成し、グループとの距離を基に回帰を行います。
回帰のモデルとして利用されることは少ないです。

 

ランダム・フォレスト回帰

与信枠や購入金額、業績など数値で表現される事象を予測します。
データや項目をランダムに選択しながら、多数の決定木を生成し、すべての決定木を用いて予測を行います。
精度は高い一方、多くのデータを必要とします。
また、作成される決定木は100を超えることも多く、モデル全体の特徴を捉え難くなります。

 

勾配ブースティング回帰

与信枠や購入金額、業績など数値で表現される事象を予測します。
多数の決定木を生成し、すべての決定木を用いて予測を行います。
決定木を生成する際に、それまでに作成された決定木では誤ってしまうデータに重みを付けるため、非常に精度が高い一方、多くのデータを必要とします。
また、作成される決定木は100を超えることも多く、モデル全体の特徴を捉え難いです。

 

順伝搬型NN回帰

ディープラーニングの1つである順伝搬型ニューラルネットワークを用いて、金額などの連続した数値を予測します。
ネットワーク次第では高精度なモデルが構築できますが、どういう設定なら精度が向上するかの見極めが難しいため、玄人向きの手法と言えます。

 

 

 

 

最後に

いかがでしたか?

現段階では以上のアルゴリズムに対応していますが、今後新しいアルゴリズムにもどんどん対応していく予定です。

 

 

※トライアルサイトはSkyFoxの公式ページ(https://skyfox.ai)にあるリンクからご利用頂けます。