2026.04.21

AIは「猫」と「犬」をどう見分けるのか？LLMとチャンクの仕組みを図解で完全解説

narycolu

「ChatGPTはどうやって『猫』と『犬』を区別しているの？　感覚もないのに、なんで分かるの？」

こんな疑問を持ったことはありませんか？実はこの「なぜ？」を理解すると、AIの使い方が劇的に変わります。プロンプトの書き方が変わり、AIに任せる仕事の判断基準が変わり、AIに振り回されなくなります。

この記事では、LLMの内部構造を5つのオリジナル図解で徹底解説します。難しい数式は一切なし。AIの「見え方」が変わること保証します。

📖 この記事でわかること

LLM（ChatGPT・Claude）が「次の単語を予測する機械」である理由
テキストが「チャンク（トークン）」に分解される仕組み
AIが猫と犬を区別できる「ベクトル空間」の直感的な理解
「注意機構（アテンション）」が文脈を読む仕組み
この知識を使って、明日からAIをもっとうまく使う方法

LLMとは何か？仕組みを30秒で理解する
【図解①】テキストは「チャンク（トークン）」に分解される
【図解②】トークンは「ベクトル」という座標に変換される
【図解③】LLMが「猫」と「犬」を見分ける仕組みとは
【図解④】注意機構（アテンション）：文脈を読む革命的技術
【図解⑤】テキスト入力から出力まで：LLM処理の全体フロー
人間の理解とAIの理解、何が本当に違うのか
この仕組みを知ると、AIがもっとうまく使える
よくある質問（FAQ）

LLMとは何か？仕組みを30秒で理解する

AIの頭脳・大規模言語モデルのコンセプトイメージ — LLMは「次に来る言葉を予測する超巨大エンジン」——シンプルな原理が驚くほど複雑な知性を生む

LLM（Large Language Model）は日本語で「大規模言語モデル」と呼びます。ChatGPT・Claude・Geminiなどがすべてこれに当たります。

一言で言えば、「次に来る言葉を予測する、超巨大な予測エンジン」です。

「今日は天気が良いので、散歩に___」という文章を見たとき、次に来る言葉として「行きたい」「出かけた」「最適だ」などを確率的に予測します。この「次の単語予測」を何千回も繰り返すことで、流暢な文章を生成しているのです。

シンプルに聞こえますが、これを実現するために数千億のパラメータ（重み）を持つ巨大なニューラルネットワークが使われています。Claudeの場合、そのパラメータ数は公開されていませんが、学習に使われたデータはインターネット上の膨大なテキスト、書籍、論文など何十兆文字にも及びます。

⚠️ よくある誤解：LLMは「知っている」のではない

辞書を引いているわけでも、論理的に考えているわけでもありません。膨大なテキストから「次に来る言葉のパターン」を学習した統計モデルです。この違いが、後の理解に重要になります。

【図解①】テキストは「チャンク（トークン）」に分解される

コードとデータ処理・トークン化のイメージ — AIはテキストをそのまま読まない——まず「トークン」という小さな単位に分解する

AIはテキストをそのまま処理しているわけではありません。最初に「トークン（チャンク）」と呼ばれる小さな単位に分解します。英語なら単語単位、日本語なら文字や語の一部になります。

📊 図解①：「猫はニャーと鳴く」がトークンに分解されるまで

入力テキスト：

「猫はニャーと鳴く」

↓ トークナイザーが分解 ↓

猫ID: 7204

はID: 542

ニャーID: 9341

とID: 428

鳴くID: 3812

英語の場合（”Cats meow”）：

CatsID: 34521

meID: 8204

owID: 2031

※ “meow”は2トークン（me＋ow）に分割されます

💡 ポイント：各トークンには固有のID番号が割り当てられます。AIはテキストではなく、この数字の列を処理しています。[7204, 542, 9341, 428, 3812] という数列がAIの”見ているもの”です。

GPT-4では約10万種類のトークンが存在します。日本語は英語より文字種が多いため、1文字が1〜2トークンになることが多く、同じ内容でも日本語は英語の約2〜3倍のトークン数になります。これがAPIコストにも影響する重要な知識です。

【図解②】トークンは「ベクトル」という座標に変換される

ニューラルネットワーク・高次元ベクトル空間のイメージ — 言葉の意味が数値の「座標」に変換され、意味の地図が形成される

トークンのID番号のままでは、AIは「猫」と「犬」の関係性を理解できません。そこで次に「埋め込み（Embedding）」という変換が行われます。

各トークンを数千次元の空間における座標（ベクトル）に変換します。これが「言葉の意味を数値で表す」技術の核心です。

📊 図解②：言葉がベクトル空間に配置されるイメージ

意味が近い言葉ほど、空間内でも近い位置に配置されます。

🐱 🐈 🦁

ネコ科クラスター

猫・三毛猫・ライオンは近い座標に集まる

🐶 🐕 🐺

イヌ科クラスター

犬・柴犬・オオカミは近い座標に集まる

🚗 ✈️ 🚂

乗り物クラスター

動物クラスターとは全く別の場所

言葉	猫との距離	犬との距離	関係性
🐈 三毛猫	0.05（非常に近い）	0.42	猫の下位概念
🐕 柴犬	0.40	0.06（非常に近い）	犬の下位概念
🦁 ライオン	0.18（やや近い）	0.35	同じネコ科
🐾 ペット	0.22	0.21	どちらにも近い
🚗 車	0.89	0.87	無関係

※ 数値はイメージです（実際は数千次元）

実際のLLMでは、この「空間」が数千〜数万次元あります。人間には想像もできない多次元空間の中に、すべての言葉が「意味の地図」として配置されているのです。

さらに興味深いことに、この空間では「王様 − 男性＋女性＝女王」のような「意味の演算」が成立します。意味が数値になっているからこそ、足し算・引き算ができるのです。

【図解③】LLMが「猫」と「犬」を見分ける仕組みとは

猫のアップ写真——AIはテキストから猫の「特徴パターン」を学習する — 「猫」という言葉が何億回ものテキストで「ニャー・ひげ・ネコ科」と共起することで、AIは猫の特徴を学習する

「猫はニャーと鳴く」「犬はワンと吠える」という文章を何億回も読んだLLMは、自然に「猫」と「犬」に関連する特徴パターンを学習しています。

📊 図解③：LLMが学習した「猫」と「犬」の特徴パターン

🐱 猫

ニャーと鳴く

ひげ（ウィスカー）がある

ゴロゴロ喉を鳴らす

高い場所が好き

独立心が強い

爪を引っ込められる

ネコ科

🐶 犬

ワンと吠える

しっぽを振る

群れで行動する

散歩が好き

人間に忠実

爪が出たまま

イヌ科

LLMが学習した確率テーブル（イメージ）

P(“ニャー” | “猫”) = 0.89（89%の確率で猫の文章に登場）
P(“ニャー” | “犬”) = 0.003（犬の文章ではほぼ登場しない）
P(“吠える” | “犬”) = 0.76（76%の確率で犬の文章に登場）
P(“吠える” | “猫”) = 0.011（猫の文章ではほぼ登場しない）

💡 これが「理解」の正体：LLMは「猫の定義」を暗記しているのではありません。何億もの文章から「猫という文脈で出てくる言葉のパターン」を統計的に学習しています。体験から学ぶ人間の学習に、構造的には近いものがあります。

【図解④】注意機構（アテンション）：文脈を読む革命的技術

神経回路・アテンション機構のイメージ — 2017年にGoogleが発表した「アテンション機構」が、AIを言語を理解する機械へと変えた

「銀行に行った」と「川岸（bank）に沿って歩いた」——英語では「bank」が「銀行」と「川岸」の両方を意味します。同じ単語でも文脈によって意味が変わる問題を、LLMはどう解決しているのか？

その答えが「注意機構（Self-Attention）」です。2017年にGoogleが「Attention Is All You Need」という論文で発表したこの技術が、現代AI革命の核心です。

📊 図解④：「あの黒い猫はご飯を食べた」を処理するアテンション

AIが「食べた」という単語の意味を理解するとき、他のどの単語を「注目」しているか：

あの
黒い
猫
は
ご飯
を
食べた ← 処理中

「猫」への注意度：85%（誰が食べたかを知るため）

「ご飯」への注意度：60%（何を食べたかを知るため）

「あの」への注意度：8%（意味への影響が低い）

「bank」の曖昧さをアテンションが解決する例：

💳 金融の意味の場合

「I went to the bank to deposit money」
→ “deposit” “money” に高い注意 → 金融機関と判断

🌊 川岸の意味の場合

「Fish swim near the river bank」
→ “river” “fish” “swim” に高い注意 → 川岸と判断

【図解⑤】テキスト入力から出力まで：LLM処理の全体フロー

AIデータ処理・パイプラインのイメージ — テキストを入力してから出力が返ってくるまで、LLMの内部では6つのステップが瞬時に実行される

これまでの知識を統合して、テキストが入力されてから出力されるまでの全体像を見てみましょう。

📊 図解⑤：LLMの処理全体フロー

📝 テキスト入力

ユーザーがテキストを入力します。

「猫はニャーと鳴くが、犬はワンと吠える」

✂️ トークン化（チャンク化）

テキストをトークンIDの数列に変換します。

[7204, 542, 9341, 428, 3812, 11, 1023, 542, 831, 428, 6127]

🗺️ 埋め込み変換（Embedding）

各トークンIDを高次元ベクトルに変換。意味を数値の配列で表現します。

猫 → [0.23, -0.81, 0.44, 0.09, -0.67, … × 数千次元]

👁️ アテンション層（文脈把握）

各トークンが他のトークンに「どれだけ注目するか」を計算。文脈を理解します。

猫 → ニャーに高注目(85%) / 犬 → ワンに高注目(82%)

🔁 多層のTransformer処理（数十〜100層以上）

アテンション処理を何十〜百層以上繰り返します。各層で「深い理解」が積み重なります。

浅い層 → 文法理解 | 中間層 → 意味理解 | 深い層 → 概念・文化理解

📤 次のトークンを予測・出力

全語彙（約10万語）それぞれに「次に来る確率」を計算し、最も適切なトークンを出力します。

「猫はニャーと鳴く」の続き → 「。」(91%) / 「が…」(4%) …

人間の理解とAIの理解、何が本当に違うのか

人間とコンピューター・AI技術の共存イメージ — 人間の「体験による理解」とAIの「パターンによる理解」——異なるアプローチで、似た結果を生み出す

ここまで読んで、こう思った方もいるかもしれません。「AIの理解って、本当の理解じゃないんじゃないか？」

これは哲学的に非常に深い問いです。現時点での整理を示します。

観点	人間の理解	LLMの理解
根拠	五感・体験・感情・記憶	テキストのパターン統計
猫の理解	実際に触れた感触・鳴き声の記憶	「猫」に関連するテキストの分布
新概念の学習	1〜数回の体験で習得可能	膨大なテキストが必要
意識・感情	あり（主観的体験）	なし（数値計算のみ）
誤り	感情・バイアスによる誤り	学習データのバイアスによる誤り
更新方法	経験・会話・読書	再学習（ファインチューニング）

🧠 まとめ：AIの「理解」は「意味の地図」

LLMの「理解」は、言葉と言葉の関係性を高次元空間に地図として描いたものです。「猫」と「ニャー」が近い場所にあり、「犬」と「ワン」が近い場所にある。この地図の精度が高いほど、よりリアルな「理解しているような」応答が生まれます。それは人間の理解とは異なりますが、多くの実用場面では十分に機能します。

この仕組みを知ると、AIがもっとうまく使える

ノートパソコンでAIを使って仕事をするイメージ — LLMの仕組みを理解すれば、プロンプト設計の「なぜ」が分かり、AI活用の精度が上がる

LLMの仕組みを理解すると、次のことが直感的にわかるようになります。

具体的なコンテキストを与えると精度が上がる → アテンション機構が適切な部分に注目できるから
「誰に向けて」「どの形式で」を指定すると質が変わる → 関連トークンがより正確にアクティブになるから
AIは「知っている」のではなく「パターンから生成」している → だから事実確認は必ず自分で行う
日本語より英語のプロンプトの方が精度が高いことがある → 英語の学習データが圧倒的に多いから
複雑な計算・論理的推論が苦手 → パターン予測であって、論理演算ではないから

✅ 今すぐ試せる：プロンプトの比較実験

ChatGPTやClaudeに次の2つを送り比べてみてください。違いは一目瞭然のはずです。

❌ コンテキストなし：「LLMについて教えて」
✅ コンテキストあり：「LLMの仕組みを、プログラミング未経験の30代会社員に、猫と犬の例えを使って図解で説明して。専門用語は使わないこと」

アテンション機構が「プログラミング未経験・30代・猫と犬・図解・専門用語なし」という文脈のトークンに注目し、それぞれの重みを高めます。これがプロンプト設計の本質です。

📚 関連記事

よくある質問（FAQ）

疑問・質問・議論のイメージ — LLMについてよく寄せられる5つの疑問に答えます

Q. ChatGPTは実際に「考えている」のですか？

A. 正確には「考えている」ではなく「統計的に最も適切な次のトークンを予測している」のです。ただしその処理が非常に精巧なため、結果的に「考えているように見える」応答が生まれます。意識や感情はありません。

Q. チャンク（トークン）の数が増えると何が起きますか？

A. 処理できるトークン数の上限を「コンテキストウィンドウ」と言います。例えばClaude 3.7の場合は約20万トークン（20万字相当）まで処理できます。これを超えると「記憶」できなくなります。長い会話が途中から噛み合わなくなるのはこのためです。

Q. なぜAIは簡単な計算を間違えることがあるのですか？

A. LLMはテキストパターンから学習するため、論理的に計算しているわけではありません。「3×8=24」と多くのテキストで目にしているので答えられますが、未知のパターンや桁数が多い計算は苦手です。数値計算は専用ツール（Pythonや電卓）との組み合わせが正確です。

Q. 日本語は英語よりトークン数が多くなるのはなぜですか？

A. LLMの多くは英語テキストで主に学習されているため、英語のトークン辞書が充実しています。日本語の漢字・ひらがな・カタカナは英語より文字種が多く、1単語が複数トークンになることが多いです。同じ内容を日本語で入力すると、英語より2〜3倍のトークンを消費することもあります。

Q. LLMはなぜ「ハルシネーション（嘘をつく）」が起きるのですか？

A. LLMは「正しい情報を出力する」のではなく「もっともらしい次のトークンを予測する」ためです。学習データに存在しない情報でも、文脈的に「それらしい」テキストを生成してしまいます。特に固有名詞・数値・新しい出来事は要注意。重要な情報は必ず一次ソースで確認してください。

📋 この記事の要点まとめ

LLMは「次の単語を予測する超巨大エンジン」——知っているのではなくパターンを学習している
テキストは「トークン（ID番号の列）」に分解されてから処理される
各トークンは「ベクトル空間の座標」に変換され、意味の近い言葉が近くに配置される
「注意機構（アテンション）」が文脈を読み、同じ単語の異なる意味を区別する
AIの「理解」は人間と異なるが、プロンプト設計を工夫すれば精度を大幅に高められる