AIはどうやって「ネコ」を識別しているのか?

人間はネコの写真を見ればすぐに「これはネコだ」とわかりますが、コンピューターにとって異なる背景やアングルで撮影されたネコの本質的な特徴を認識し、「これはネコだ」と判断することは簡単ではありません。昨今のコンピューターは、生物の学習メカニズムを模倣したニューラルネットワークを活用してネコを識別しているとのことで、科学系メディアのQuanta Magazineがニューラルネットワークの仕組みについて解説しました。
How Can AI ID a Cat? An Illustrated Guide. | Quanta Magazine
https://www.quantamagazine.org/how-can-ai-id-a-cat-an-illustrated-guide-20250430/
ニューラルネットワークにおけるネコの検出は、研究者が「分類タスク」と呼ぶものの一例です。分類タスクでは、ニューラルネットワークに特定のオブジェクト(この場合は写真)が与えられた場合、適切なカテゴリ(この場合は「ネコ」か「ネコじゃない」か)に割り当てることが目標です。
Quanta Magazineは「Triangle Territor(三角形の領土)」と「Square State(四角の国)」という架空の2つの地域を例に、分類タスクの仕組みについて解説しています。

緯度と経度の座標で表された点を与えると、その点が「三角形の領土」か「四角の国」のどちらに位置するのかを判断するニューラルネットワークがあるとします。しかし、境界線を示す地図は存在せず、ニューラルネットワークには「三角形の領土」と「四角の国」のどちらかにある既知の点の集合しか与えられません。

未知の点を分類する「分類器システム」を構築するには、まず境界線を引く必要があります。
ニューラルネットワークの構成要素である人工ニューロンは、複数の数値を入力すると1つの数値を出力する数学関数です。

出力値は常に「0」か「1」どちらかに近い値となり、パラメータと呼ばれる別の数値と入力値の組み合わせによって決定されます。たとえば2つの入力を持つ人工ニューロンには、入力値が出力にどの程度影響するのかを示す「weight(重み)」というパラメータと、出力値の全体的な優先順位を決定する「Bias(バイアス)」というパラメータが存在します。入力が2つあるので重みは2つ、バイアスは1つで、パラメータは合計で3つあります。

以下の3つの図は、それぞれ異なるパラメータを持つ人工ニューロンが、どのような境界線を引くのかを示したもの。これらの図では境界線はいずれも直線となっており、パラメータによって直線の位置と角度が決まります。

新しく入力される点が「三角形の領土」と「四角の国」のどちらに属するべきなのかを判断する分類器を作成するには、この境界線を調整して2つの地域の境界を正確に示す必要があります。たとえば、「出力値が『0』に近い場合は『四角の国』に、『1』に近い場合は『三角形の領土』に分類する」といった方法です。

境界線を調整するには、ニューロンのパラメータをトレーニングと呼ばれるプロセスを通して調整する必要があります。最初のステップではパラメータがランダムな値に設定されており、そこからトレーニングによって出力値と真の値の差を比較し、誤差を調整していきます。

人工ニューロンが間違った答えを出すたびに自動化されたアルゴリズムが重みとバイアスのパラメータを調整し、境界線を移動させていきます。

そして最終的には、正しい境界線に近似するパラメータが得られるというわけです。

「三角形の領土」と「四角の国」のケースのように、境界線が直線に近い単純な場合は単一の人工ニューロンでもうまく機能しますが、「ネコかどうかを識別する」といったより複雑なタスクでは、単一の人工ニューロンではうまくいきません。そこで、多数の人工ニューロンを接続した「ニューラルネットワーク」を使います。ニューラルネットワークも個々の人工ニューロンと同様に、数値を入力すると新たな数値を出力する数学関数です。

ニューラルネットワーク内の人工ニューロンは、レイヤーと呼ばれるグループごとに配置されます。各レイヤーには任意の数の人工ニューロンを含めることができ、各レイヤーの出力が次のレイヤーへの入力値となります。

大規模なニューラルネットワークではパラメータも多く、これによってより複雑な境界線を検出できるとのこと。

また、これまでは入力値が2つのニューラルネットワークを見てきましたが、ニューラルネットワークが持つ入力の数に制限はありません。先の例で入力値は緯度と経度でしたが、代わりにピクセルのグレースケールや3次元空間の座標などを表すこともできます。

2500個の入力値を組み合わせると、50×50のピクセルグリッドを表現することも可能です。

十分なデータポイントがあれば、ネコとネコ以外を識別するための大規模なニューラルネットワークを構築することができると、Quanta Magazineは説明しました。

・関連記事
AIの仕組みや開発手法についてイラスト付きで分かりやすく解説するAmazonの無料教材「MLU-Explain」 - GIGAZINE
「畳み込みニューラルネットワークとは何か?」を分かりやすく図解するとこうなる - GIGAZINE
OpenAI開発のテキスト生成AI「GPT-3」がどんな処理を行っているのかを専門家が解説 - GIGAZINE
人工ニューラルネットワークによるAI・機械学習の基礎を提唱した研究者2名がノーベル物理学賞を受賞 - GIGAZINE
ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ - GIGAZINE
ニューラルネットワークはどのように画像を理解しているのか - GIGAZINE
脳の学習原理は人工知能のものとは根本的に異なっている - GIGAZINE
AIの仕組みであるLLMの「ブラックボックス」の内部を見てどのニューラルネットワークが特定の概念を呼び起こすかを知る試みをAnthropicが解説 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1h_ik
You can read the machine translated English article How does AI identify 'cats'?….