Hello there, ('ω')ノ
RAGを理解するには“言葉の壁”を乗り越えよう
RAGや生成AIを学んでいると、次々と聞き慣れないカタカナや技術用語が出てきて
「なんだか難しそう…」と感じることもあるかもしれません。
でも安心してください。
今回の記事では、RAGを理解するために最低限知っておきたい専門用語を、初心者向けにやさしく解説します。
しかも、会話や実務の中で「よく出てくる順」に並べてありますので、ピンポイントでの理解にも役立ちます!
💡よく出る!RAG基本用語15選
1. RAG(検索拡張型生成)
Retrieval-Augmented Generationの略。
🔍検索と生成を組み合わせて、社内データを参照しながらAIが回答する技術。
➡「社内版ChatGPT」を作る仕組みとも言える。
2. LLM(大規模言語モデル)
Large Language Modelの略。ChatGPTやClaudeなどの“頭脳”にあたる部分。
🧠大量の文章を学習して、人間のように自然な文章を生成できるAIの中核技術。
3. プロンプト(Prompt)
AIへの指示文・質問文のこと。
✍「どう答えてほしいか」「どんな文体で書いてほしいか」などを指定する。
➡プロンプト次第で回答の質が大きく変わる!
4. ベクトル(Vector)
単語や文章の「意味」を数値で表現したもの。
🔢似た意味の言葉同士は、ベクトル空間でも近くに配置される。
➡AIが“意味ベース”で検索できるようになるカギ。
5. 埋め込み(Embedding)
文章や単語をベクトルに変換する処理。
➡この埋め込みを行うことで、文章同士の“意味的な距離”を比べられるようになる。
6. ベクトルデータベース(Vector DB)
ベクトル化した文章を保存・検索できるデータベース。
📦例:FAISS、Pinecone、Chroma など。
➡「似た意味の文章を高速に探す」ために使われる。
7. インデックス(Indexing)
社内文書などの元データを読み込み、ベクトル化して登録する前処理のこと。
➡チャンク分割やノイズ除去もこの段階で行う。
8. 検索(Retrieval)
ユーザーの質問に対し、意味的に近い情報をベクトル空間から探し出すプロセス。
9. 生成(Generation)
見つけた情報(文脈)をもとに、LLMが文章として回答を作るステップ。
10. チャンク(Chunk)
文書を分割した“小さな情報のまとまり”。
📄たとえば「段落ごと」「見出しごと」に分ける。
➡チャンクの分け方次第で、検索精度が大きく変わる!
11. コンテキストウィンドウ(Context Window)
AIが一度に処理できる情報量の上限。
🧠机の広さのようなもの。広いほど、長い会話や文脈を扱える。
➡GPT-4 Turboは最大128,000トークンなど。
12. ファインチューニング(Fine-tuning)
AIモデルを追加のデータで再学習させる方法。
➡特定の業界や会社に特化した回答ができるようになるが、コストと手間がかかる。
13. ハイブリッド検索(Hybrid Search)
キーワード検索+ベクトル検索を組み合わせた方法。
🔍単語の一致も、意味の近さも、両方を考慮して情報を探す。
➡精度の高い検索を実現できる。
14. LangChain(ラングチェーン)
LLMや検索機能、APIなどをつなぎ合わせてRAGの処理全体を設計できるフレームワーク。
➡AI活用の「配線係」的な存在。
15. LlamaIndex(ラマインデックス)
PDFやWordなどの文書を読み込み、ベクトル化・検索可能にするデータ整備ツール。
➡RAGに必要な「インデックス化」を自動で行ってくれる。
📘 おまけ:知っておくと便利な関連用語
用語 | 意味 |
---|---|
トークン | AIが文章を処理するときの単位(単語のかけら) |
メタデータ | 文書に付ける追加情報(例:作成者、日付、分類タグ) |
OCR | 画像から文字を読み取る技術(スキャンPDFを変換する時に使用) |
まとめ:用語を知ればRAGの理解が一気に深まる!
- RAG関連の用語は多いけれど、基本的には人間がやっている「調べて答える」流れをAIが真似しているだけ
- 難しそうな単語も、“人間で例えるとどういう役割か?”で考えるとイメージしやすい
- 用語を押さえれば、エンジニアと非エンジニアの橋渡しにもなる!
Best regards, (^^ゞ