Shikata Ga Nai

Private? There is no such things.

第15回:初心者が知っておくべきRAGの専門用語まとめ

Hello there, ('ω')ノ

RAGを理解するには“言葉の壁”を乗り越えよう

RAGや生成AIを学んでいると、次々と聞き慣れないカタカナや技術用語が出てきて
「なんだか難しそう…」と感じることもあるかもしれません。

でも安心してください。

今回の記事では、RAGを理解するために最低限知っておきたい専門用語を、初心者向けにやさしく解説します。
しかも、会話や実務の中で「よく出てくる順」に並べてありますので、ピンポイントでの理解にも役立ちます!


💡よく出る!RAG基本用語15選


1. RAG(検索拡張型生成)

Retrieval-Augmented Generationの略。
🔍検索と生成を組み合わせて、社内データを参照しながらAIが回答する技術。
➡「社内版ChatGPT」を作る仕組みとも言える。


2. LLM(大規模言語モデル)

Large Language Modelの略。ChatGPTやClaudeなどの“頭脳”にあたる部分。
🧠大量の文章を学習して、人間のように自然な文章を生成できるAIの中核技術。


3. プロンプト(Prompt)

AIへの指示文・質問文のこと。
✍「どう答えてほしいか」「どんな文体で書いてほしいか」などを指定する。
➡プロンプト次第で回答の質が大きく変わる!


4. ベクトル(Vector)

単語や文章の「意味」を数値で表現したもの。
🔢似た意味の言葉同士は、ベクトル空間でも近くに配置される。
➡AIが“意味ベース”で検索できるようになるカギ。


5. 埋め込み(Embedding)

文章や単語をベクトルに変換する処理。
➡この埋め込みを行うことで、文章同士の“意味的な距離”を比べられるようになる。


6. ベクトルデータベース(Vector DB)

ベクトル化した文章を保存・検索できるデータベース。
📦例:FAISS、Pinecone、Chroma など。
➡「似た意味の文章を高速に探す」ために使われる。


7. インデックス(Indexing)

社内文書などの元データを読み込み、ベクトル化して登録する前処理のこと。
➡チャンク分割やノイズ除去もこの段階で行う。


8. 検索(Retrieval)

ユーザーの質問に対し、意味的に近い情報をベクトル空間から探し出すプロセス。


9. 生成(Generation)

見つけた情報(文脈)をもとに、LLMが文章として回答を作るステップ。


10. チャンク(Chunk)

文書を分割した“小さな情報のまとまり”。
📄たとえば「段落ごと」「見出しごと」に分ける。
➡チャンクの分け方次第で、検索精度が大きく変わる!


11. コンテキストウィンドウ(Context Window)

AIが一度に処理できる情報量の上限。
🧠机の広さのようなもの。広いほど、長い会話や文脈を扱える。
➡GPT-4 Turboは最大128,000トークンなど。


12. ファインチューニング(Fine-tuning)

AIモデルを追加のデータで再学習させる方法。
➡特定の業界や会社に特化した回答ができるようになるが、コストと手間がかかる。


キーワード検索+ベクトル検索を組み合わせた方法。
🔍単語の一致も、意味の近さも、両方を考慮して情報を探す。
➡精度の高い検索を実現できる。


14. LangChain(ラングチェーン)

LLMや検索機能、APIなどをつなぎ合わせてRAGの処理全体を設計できるフレームワーク。
➡AI活用の「配線係」的な存在。


15. LlamaIndex(ラマインデックス)

PDFやWordなどの文書を読み込み、ベクトル化・検索可能にするデータ整備ツール。
➡RAGに必要な「インデックス化」を自動で行ってくれる。


📘 おまけ:知っておくと便利な関連用語

用語 意味
トークン AIが文章を処理するときの単位(単語のかけら)
メタデータ 文書に付ける追加情報(例:作成者、日付、分類タグ)
OCR 画像から文字を読み取る技術(スキャンPDFを変換する時に使用)

まとめ:用語を知ればRAGの理解が一気に深まる!

  • RAG関連の用語は多いけれど、基本的には人間がやっている「調べて答える」流れをAIが真似しているだけ
  • 難しそうな単語も、“人間で例えるとどういう役割か?”で考えるとイメージしやすい
  • 用語を押さえれば、エンジニアと非エンジニアの橋渡しにもなる!

Best regards, (^^ゞ