機械学習における学習プロセスには様々な方法が用いられてきましたが、中でもポピュラーな手法として採用されてきたのが、決定木分析です。決定木分析は機械学習はもちろんのこと、その他の分野でも活躍している優れた分析手法で、一般的な知識として知っておいても損はありません。決定木分析の特徴や、その活用方法についてご紹介していきます。
決定木分析(ディシジョンツリー)とは
英語ではディシジョンツリー(Decision Tree)とも呼ばれる決定木分析ですが、主に二つの樹形図を描くことによって成立します。
分類木
一つ目の樹形図が、分類木です。機械学習においては分類と回帰という、二つのアプローチでデータを分析する手法が採られていますが、分類木は前者の手法に当てはまります。
そもそも分類というのは、あるデータをあらかじめ設定したクラスに当てはめ、そのデータがどのクラスに類するのかをカテゴライズする取り組みです。
分類木を描く際にも、このようなアプローチが行われます。YesかNoで答えられる質問を何度も繰り返すことによって、区分結果を数値化し、そのプロセスはまるで樹木のような図を描くことになります。
回帰木
機械学習におけるもう一つの手法が回帰です。回帰はあるデータを読み込むことで、連続性のある値に注目し、データの向こう側にある予測値を算出することができる分析手法です。
分類木のようにデータに区分を与えるのではなく、数値を予測するために活用するという点で、特徴的な方法です。
二つの樹形図を組み合わせて運用する
決定木分析では、分類木と回帰木の二つのツリーを組み合わせて運用します。
上記二つの樹形図は異なる結果を算出することになりますが、同じデータを異なるアプローチでとらえるために有効な方法でもあります。
例えば、大量のメールデータを分析するとします。分類木を活用すれば、メールをスパムメールと普通のメールに区分分けを行うことができ、回帰木ではメールが何時ごろに届きやすいのかなどを調べることが可能です。
決定木分析の特徴
決定木分析は昔から使われてきた分析方法ですが、なぜ世界的にポピュラーな手法として扱われているのでしょうか。
解釈が比較的簡単
一つ目の理由は、決定木分析は解釈が比較的容易な分析方法であるためです。
上でも簡単に説明することができている通り、この方法は分析方法さえ知っていれば誰でもすぐに理解することができ、算出されるデータもわかりやすいため、初めて統計解析に触れるという人でも気軽に運用しやすいから、という理由があります。
決定木分析は数ある機械学習のアプローチや分析方法の中でも、フリーソフトとデータがあればすぐに扱える分類にあります。
サンプルデータなどを活用し、一度試してみることで、その使い方や仕組みを体感してみると良いでしょう。
分類・回帰の両方で使用可能
決定木分析は分類と回帰の両方に使えることも、使いやすさの秘訣です。
分類と回帰はデータの異なる側面を表すため、両方を同時に扱うことが望ましいと言えます。
これらを別個に分析するとなると少し面倒になってしまいますが、決定木分析であれば同じような手法でそれぞれを分析することができるので、初心者でも混乱せずに扱うことが可能です。
外れ値の影響が弱い
データ分析において、厄介な存在となるのが外れ値です。扱うデータが大きくなればなるほど、通常のデータとは明らかに外れた値が現れるケースが増えてきます。
異常な値は正確な分析を行う上で支障をきたすこともあるのですが、決定木分析においては外れ値の影響を受けにくく、正しい分析結果を算出しやすいのが特徴です。
外れ値を含むクラスとして扱えたり、外れ値を最初から除外することができる使いやすさも、この分析方法の強みと言えます。
効果的な切り口を発見しやすい
決定木分析は、データの中に隠れた最も注目すべき因子を特定しやすいというのも大きな強みとなっています。
ビッグデータを扱う際、肝心なのはどの因子が分析結果を左右しており、注目に値すべきなのかを迅速に発見することです。
買い物客のデータをとっても、そのデータにおいては買い物客の性別が重要なのか、年齢が重要なのか、買っている商品や買い物にきた時間が大切なのか、様々な側面が見えてきます。
決定木分析では重視すべき因子を主観ではなく客観的に発見しやすい手法となっているため、データを迅速に処理する上では重要な役割を果たします。
ONETECHは決定木分析を利用して数値認識モジュールを開発
7セグメントディスプレイのデジタル数値をOCRで読み取りました。
数値認識モジュールとしてホロレンズアプリに搭載しました。
OCRと決定木分析の組み合わせでC#で開発しました。
https://onetech.jp/works/ai-development/デジタル数字認識システム開発/
おわりに
決定木分析は、機械学習はもちろんのこと、データマイニングやマーケティングといった分野においても非常に大きな役割を果たす手法です。
正しくデータを分析できるためには、まずは決定木を理解することから始めてみるのが良いでしょう。