Shikata Ga Nai

Private? There is no such things.

第22回:LLMアーキテクチャの考え方(初心者向け)

Hello there, ('ω')ノ

~「中のしくみ」をイメージで理解して、使いこなす力をつけよう~

LLM(大規模言語モデル)は、「ブラックボックス」と言われがちです。 確かに内部には高度なAI技術が詰まっていますが、基本の考え方さえつかめれば、使い手としての理解度がグッと深まります。

この記事では、「LLMって中で何をしているの?」「どんな流れで答えが返ってくるの?」といった素朴な疑問に、図にしたつもりでイメージしやすくお答えします。


🧠 そもそもLLMってどう動いているの?

一言で言えば:

「大量の文章を読んで、“次に来そうな言葉”を予測し続けているモデル」

例えば「おはようございます。本日は…」と入力すると、 「…晴れのち曇りとなるでしょう。」や「…ご来店ありがとうございます。」のような、文脈に合った続きを予測してくれるのがLLMです。


📦 LLMの中身はどうなっている?(ざっくり構造)

LLMは大まかに以下の3つの層で構成されています:

[1] 入力処理(Tokenizer)  
↓  
[2] モデル本体(Transformer構造)  
↓  
[3] 出力生成(デコーダー/予測)

① 入力処理(Tokenizer)

  • 入力された文章を、モデルが扱いやすい単位(トークン)に分解します。 例:「今日は晴れです」→「今日」「は」「晴」「れ」「です」

  • この時点で文章は数値データ(ベクトル)に変換されます。


② モデル本体(Transformer)

  • LL.Mの頭脳にあたる部分です。
  • Transformerという仕組みで、「前後の文脈を加味して、次に何が来るか?」を何層にもわたって考えます。

💡 特徴的なのは「自己注意(Self-Attention)」という仕組み → 文の中で「何が重要か?」を自動で見つけて強調してくれる技術です。


③ 出力生成(デコーダー)

  • 最終的に、「次に来るべき単語はこれだ」と予測し、文章を出力します。

この流れを1トークンずつ何度も繰り返しながら、「自然な文章」を作っているのです。


🔁 モデルの動きは“自動補完”の超高性能版

例えば、スマホで「お疲れ」と入力すると予測候補が出てきますよね。 LLMは、これを文脈レベルで圧倒的な精度と柔軟さで実行していると考えるとイメージしやすいです。


💡 なぜこんなに「賢い」のか?

ポイントは主に3つ:

  1. 大量の文章で学習している(数十億〜数兆単語)
  2. 単語同士の関係性を“数値”で学んでいる(意味の近さを数値で表現)
  3. 過去の文脈すべてを踏まえて“次”を予測している(人間の会話と似ている)

🛠 実務にどう関係あるの?

よくある課題 アーキテクチャ理解がどう役立つか
出力が途中で切れる トークン数の制限を知っておけば対処可能
同じ質問に違う答えが返る Transformerの文脈依存の特性と関係あり
望んだ出力にならない トークナイズのタイミングや文の分け方を見直すと改善することも

LLMは「使う側が設計・調整することで性能が最大化する道具」です。 アーキテクチャをざっくり理解しているだけで、“なぜうまくいかないか”を推測しやすくなります。


✅ まとめ:「なんとなくわかる」が使いこなしの第一歩

  • LLMは「次の言葉を予測するモデル」
  • 中身は3つのステップ:トークン化 → Transformer処理 → 出力生成
  • 自己注意などの仕組みで「文脈を考えて言葉を選んでいる」
  • 構造を知ることで、プロンプト設計・分割・評価の理由が見えてくる

Best regards, (^^ゞ