Hello there, ('ω')ノ
RAGのカギは「どんなデータを渡すか」
前回の記事で、RAGは
①インデックス → ②検索 → ③生成
という3ステップで動いていることをご紹介しました。
この中で最初にして最重要のステップが、
✅ 「インデックス」=社内データをAIが使えるように整えること
です。
でも、ただPDFやWordを突っ込んでも、うまく動くとは限りません。
むしろ「そのままではAIが困ってしまう」データがほとんどです。
今回は、RAGに使える“良いデータ”をどう準備するのか?
実務で役立つチェックポイントと工夫をわかりやすく解説します。
まず大前提:AIは“読み手”であって“魔法使い”ではない!
ChatGPTなどの生成AIが賢く見えるのは、「良い情報をちゃんと与えたとき」です。
🔍 ゴミのようなデータを渡せば、ゴミのような回答が返ってきます。
✅ わかりやすく整理された情報を渡せば、信頼できる答えが返ってきます。
これは「Garbage In, Garbage Out(ゴミを入れればゴミが出る)」という有名な原則です。
RAG用データ整備のステップ
① 使いたい情報を集める ② フォーマットを統一する ③ 余分な情報を削除する ④ チャンク(分割)しやすいように整える ⑤ ベクトル化・登録
では、それぞれのポイントを見ていきましょう!
🗂 ① 使いたい情報を選定する
まず、「AIにどんなことを答えてほしいか?」を決めて、必要な情報源を集めます。
✔ よく使われる情報例:
- 社内FAQ
- 業務マニュアル・手順書
- 就業規則・社内ルール
- 契約書・申請書テンプレート
- 過去の議事録・レポート
📌 ポイント:用途に合わせてデータを厳選すること!
🧾 ② フォーマットを統一する
AIに読み込ませる際、バラバラの形式だと処理が煩雑になります。
✔ 整理しておきたい形式:
ファイル形式 | 対応例 |
---|---|
テキスト抽出可能なもの(画像化されていない) | |
Word / Excel | 余計な装飾やコメントは削除しておく |
テキスト | UTF-8などの文字コードを統一する |
📌 画像しか入っていないPDFなどは、OCR処理が必要になる場合があります。
🧹 ③ 余分な情報を削除する
ノイズとなる情報が多いと、AIは「何が大事なのか」がわからなくなります。
🔻 削除・整理したいもの:
- ページ番号やヘッダー・フッター(繰り返しが多い)
- バージョン履歴やコメントメモ
- 「このページは意図的に空白です」などの注意文
👉 あくまで「AIが読む本」だと思って、要らない情報はカットしましょう。
✂ ④ チャンク(分割)しやすいように整える
AIは、長い文書を小さな単位(チャンク)に分けて記憶するのが基本です。
✔ チャンクに分けやすい文書の特徴:
- セクションや見出しが明確(例:「1.目的」「2.対象者」)
- 文の区切りがはっきりしている(だらだらと続いていない)
- 表現が簡潔で、1文が短め
📌 段落構成がしっかりしている文書ほど、RAGとの相性が良いと言えます。
💾 ⑤ ベクトル化・保存へ
最後に、整えたデータをベクトル化(Embedding)して、
ベクトルデータベースに登録します(ここはエンジニアやツールの出番です)。
よくあるNGパターンとその対策
NG例 | 問題点 | 対策 |
---|---|---|
表ばかりのExcel資料 | セルの意味が伝わらない | 必要な部分だけ文章にして抽出 |
スキャンPDF | テキストが読み取れない | OCRで文字起こしする |
全社ポータルのHTMLそのまま | ノイズが多く、構造も複雑 | 必要なコンテンツだけ抽出・整理 |
200ページのPDFを丸ごと渡す | 重要情報が埋もれる | セクション単位で分割・整理 |
社内導入での実務ポイント
- IT部門や情シスとの連携が重要(形式・保存場所の相談)
- データ整備は一気にやらず、最初は小規模でPoC(試験導入)から
- ドキュメントの「タグ付け」や「分類」も後々役立つ
まとめ:AIに渡すデータは“読みやすい資料”に整える
- RAGで重要なのは、「どんなデータを渡すか」
- データを“きれいに整理しておくこと”が信頼できる回答につながる
- ノイズを減らし、わかりやすく区切ることがポイント
- 実務では、まず小規模に試して、整備と仕組み化を進めていくのが◎
Best regards, (^^ゞ