Shikata Ga Nai

Private? There is no such things.

第14回:データをAIに渡すにはどう準備するの?

Hello there, ('ω')ノ

RAGのカギは「どんなデータを渡すか」

前回の記事で、RAGは
①インデックス → ②検索 → ③生成
という3ステップで動いていることをご紹介しました。

この中で最初にして最重要のステップが、

「インデックス」=社内データをAIが使えるように整えること

です。

でも、ただPDFやWordを突っ込んでも、うまく動くとは限りません。
むしろ「そのままではAIが困ってしまう」データがほとんどです。

今回は、RAGに使える“良いデータ”をどう準備するのか?
実務で役立つチェックポイントと工夫をわかりやすく解説します。


まず大前提:AIは“読み手”であって“魔法使い”ではない!

ChatGPTなどの生成AIが賢く見えるのは、「良い情報をちゃんと与えたとき」です。

🔍 ゴミのようなデータを渡せば、ゴミのような回答が返ってきます。
✅ わかりやすく整理された情報を渡せば、信頼できる答えが返ってきます。

これは「Garbage In, Garbage Out(ゴミを入れればゴミが出る)」という有名な原則です。


RAG用データ整備のステップ

① 使いたい情報を集める  
② フォーマットを統一する  
③ 余分な情報を削除する  
④ チャンク(分割)しやすいように整える  
⑤ ベクトル化・登録

では、それぞれのポイントを見ていきましょう!


🗂 ① 使いたい情報を選定する

まず、「AIにどんなことを答えてほしいか?」を決めて、必要な情報源を集めます。

✔ よく使われる情報例:

  • 社内FAQ
  • 業務マニュアル・手順書
  • 就業規則・社内ルール
  • 契約書・申請書テンプレート
  • 過去の議事録・レポート

📌 ポイント:用途に合わせてデータを厳選すること!


🧾 ② フォーマットを統一する

AIに読み込ませる際、バラバラの形式だと処理が煩雑になります。

✔ 整理しておきたい形式:

ファイル形式 対応例
PDF テキスト抽出可能なもの(画像化されていない)
Word / Excel 余計な装飾やコメントは削除しておく
テキスト UTF-8などの文字コードを統一する

📌 画像しか入っていないPDFなどは、OCR処理が必要になる場合があります。


🧹 ③ 余分な情報を削除する

ノイズとなる情報が多いと、AIは「何が大事なのか」がわからなくなります。

🔻 削除・整理したいもの:

  • ページ番号やヘッダー・フッター(繰り返しが多い)
  • バージョン履歴やコメントメモ
  • 「このページは意図的に空白です」などの注意文

👉 あくまで「AIが読む本」だと思って、要らない情報はカットしましょう。


✂ ④ チャンク(分割)しやすいように整える

AIは、長い文書を小さな単位(チャンク)に分けて記憶するのが基本です。

✔ チャンクに分けやすい文書の特徴:

  • セクションや見出しが明確(例:「1.目的」「2.対象者」)
  • 文の区切りがはっきりしている(だらだらと続いていない)
  • 表現が簡潔で、1文が短め

📌 段落構成がしっかりしている文書ほど、RAGとの相性が良いと言えます。


💾 ⑤ ベクトル化・保存へ

最後に、整えたデータをベクトル化(Embedding)して、
ベクトルデータベースに登録します(ここはエンジニアやツールの出番です)。


よくあるNGパターンとその対策

NG例 問題点 対策
表ばかりのExcel資料 セルの意味が伝わらない 必要な部分だけ文章にして抽出
スキャンPDF テキストが読み取れない OCRで文字起こしする
全社ポータルのHTMLそのまま ノイズが多く、構造も複雑 必要なコンテンツだけ抽出・整理
200ページのPDFを丸ごと渡す 重要情報が埋もれる セクション単位で分割・整理

社内導入での実務ポイント

  • IT部門や情シスとの連携が重要(形式・保存場所の相談)
  • データ整備は一気にやらず、最初は小規模でPoC(試験導入)から
  • ドキュメントの「タグ付け」や「分類」も後々役立つ

まとめ:AIに渡すデータは“読みやすい資料”に整える

  • RAGで重要なのは、「どんなデータを渡すか」
  • データを“きれいに整理しておくこと”が信頼できる回答につながる
  • ノイズを減らし、わかりやすく区切ることがポイント
  • 実務では、まず小規模に試して、整備と仕組み化を進めていくのが◎

Best regards, (^^ゞ