人工知能の活用には欠かせないのが、機械学習によるインプットです。柔軟な思考力を持たせるための基本的な学習形態ですが、機械学習にもいくつかの種類があります。機械学習を進めていくための二つの手法について、ご紹介していきます。
Machine Learning – 機械学習とは
まず機械学習においてその重要性を確認しておくと、これは人工知能が自ら学び、主体的に考えるための機能を身につけさせるのに必要になってきます。
なぜAIに機械学習が必要なのか
通常のコンピューターとAIの一番の違いは、自発的に答えを導き出せるかどうかです。
前者はすでにある答えを導くことしかできませんが、後者の場合はこれまでの学習から、自発的に新しい答えを導き出し、回答することができます。
これを可能にする技術が機械学習です。大量のデータを特定のアルゴリズムに読み込ませ、そこから得られた特徴を、未知のデータを読み込んだ際の予測へ応用します。
ディープラーニングの登場
そうした機械学習の概念は、20世紀から研究が続けられてきました。しかし21世紀以降、これをさらに発展させた技術として運用されてきたのが、ディープラーニングです。
ディープラーニングも機械学習の一種といえる学習方法ですが、決定的に異なるのは、こちらの手法ではコンピューターが自分で学習すべきことを判断できる点にあります。
機械学習では人間がある程度何をどう学ぶのかということを指示してやる必要がありました。しかしディープラーニングでは、コンピューターが独自に必要な情報を判断し、高度に分析することが可能になるというわけです。
教師あり学習の手法
このように、機械学習は人工知能分野において最も重要な地位を占めるプロセスとなっていますが、この学習法にもいくつかのアプローチが存在します。
中でもポピュラーなのが教師あり学習で、すでに答えが用意されているデータを大量に読み込ませることで、物事の法則性を独自に解釈させるという取り組みです。
その解釈の方法の中でも基本的な手法が、回帰分類です。
回帰
回帰は、連続する値を読み込ませることで、今後どのような値を示すようになるのかを予測するための手法です。
例えば、あるコンビニの傘の売り上げデータを読み込ませることで、天気の悪い日に伸びる傾向にあるという法則を、コンピューターは理解することができます。
それを踏まえ、来月以降の傘の売り上げはどのように推移していくかを予測させることで、データに基づく傘の仕入れを行うことができるというわけです。
回帰分析にもいくつかの方法があり、線形回帰や他公式回帰分析などが用いられます。
分類
分類はその名の通り、あるデータがどのクラス(カテゴリ)に分けられることができるかを判断する手法です。
例えば新着メールが重要なメールなのか、スパムメールなのかを判断する際に利用されています。
これまでの事例とメールの中身を照らし合わせて分析することで、その判断を行います。分類は2種類以上のカテゴリに分ける際にも使用され、その際は多クラス分類という名前で運用されています。
回帰と分類はその役割が微妙に異なりますが、同じデータを読み込ませて、異なる結果を出力することが可能です。
メールの例で言うと、日に届くメールの数を回帰分析にかけることで、今後の1日あたりのメール受信数を知ることができます。
分類分析にかけることで、スパムメールと通常のメールを正確に分けることができます。
機械学習の具体的なプロセス
回帰分類は、いくつかのアルゴリズムを組み合わせて運用することで、正確な分析を進めていくことができます。
決定木分析
ポピュラーな分析方法として知られているのが、決定木分析です。この方法では回帰木と分類木という樹形図を組み合わせ、そこからデータを導き出すことができる手法です。
回帰木と分類木という名前からも予測できるように、この手法は回帰分類の二つの方法を組み合わせて運用する分析方法です。
回帰木によって連続する値から予測値を導き出し、分類木によってクラスを判断することができます。
ランダムフォレスト
決定木分析をもう少し発展させて活用しているのが、ランダムフォレストと呼ばれる方法です。
これは決定木を複数用いて行う分析方法の一つで、多数決のような形で物事の判断を行うことができます。
多数決で分析を進める手法はアンサンブル学習とも呼ばれ、異なる学習範囲の決定木をそれぞれ特定の範囲で分析することで、精度の高い結果を算出することが可能になっています。
おわりに
機械学習分野で紹介されることが増えた回帰分類のプロセスですが、実はマーケティングの現場でも盛んに採用されている考え方です。
決定木分析などはまさにマーケティングや意思決定における重要な算出方法であるとも言え、その活躍の幅は非常に広いと言えます。
今やフリーソフトでこれらの手法を身につけることもできるため、サンプルデータなどを使って一度練習してみるのも良いでしょう。