Shikata Ga Nai

Private? There is no such things.

第57回:社内のデータ整備、どこから着手すべき?

Hello there, ('ω')ノ

「RAGやってみたいけど…ウチのデータ、バラバラでぐちゃぐちゃです」

そんな声、よく聞きます。

生成AIやRAGは確かに便利な技術ですが、
どんなに高性能なAIでも、与えるデータがぐちゃぐちゃだと正しい答えは出せません。

つまり、RAGにとっての“燃料”は 社内のデータ
逆にいえば、「データさえ整っていれば」RAGの導入ハードルは一気に下がります!

そこで今回は、非エンジニアでもできる“データ整備のはじめ方”をわかりやすく解説します。


💡 まず知っておきたい:RAGが扱うのは“意味のある文書”

RAGで活用されるデータの例は、主に以下のようなものです。

データタイプ 具体例
規程・制度文書 就業規則、福利厚生、経費マニュアルなど
業務マニュアル 手順書、FAQ、ナレッジ集
報告書・議事録 プロジェクト記録、業務日報
提案資料 営業資料、製品説明、価格表など
チャットログ 社内Q&A、顧客対応履歴(必要に応じて)

📌 「構造化されていないけど、意味のある文章」がRAGに向いています!


🛠 ステップ①:まず“棚卸し”から始めよう


✅ こんな質問を自分にしてみてください:

  • よく聞かれる業務の情報って、どこにありますか?
  • 回答するときに参照している文書はどれですか?
  • よく使うマニュアルや手順書って、どこに保存されていますか?

➡ この時点では完全でなくてOK!
 「とりあえずありそうなファイルを集める」だけで第一歩です。


📋 データ棚卸しシート例(Excelなどで管理)

ファイル名 内容の概要 保管場所 担当部門 最終更新日
経費マニュアル.pdf 交通費・出張費のルール Teams > 経理 経理部 2023/10/01
勤怠ルール.docx 遅刻・早退・有給の手続き Google Drive 人事部 2022/12/15
よくある質問.xlsx 総務系のFAQ一覧 社内ポータル 総務部 2024/02/01

🧩 ステップ②:RAGで使いやすい形に「整える」


✅ 最初はこの3つを意識すればOK!

整備ポイント 内容
テキスト化 Word / PDF / Excel / Notionなど → テキスト形式に変換できるか確認
分割しやすさ 大きなファイルは「章・節・項目」ごとに分けると使いやすい
出典情報をセットに 「ファイル名」「セクション名」「作成日」などのメタ情報は必須

📌 RAGの検索・出力時に「どの文書からの情報か」がわかるようにしておきましょう!


✅ ありがちな「整ってない例」とその対策

状況 問題 対策例
ファイル名が「final」「新」「最新版」だらけ バージョン管理が不明確 「経費マニュアル_2024年4月版」などに統一
Word内の構成がバラバラ 項目の抽出が困難 見出し(H1・H2など)を使って構造化
同じ情報が複数箇所にある 矛盾した回答のもとに 元データの重複を見直し、1本化を検討

🔍 ステップ③:優先度をつけて“少しずつ整える”

RAGで扱う文書すべてを完璧にする必要はありません。
まずは「よく使う・よく聞かれる」情報から始めましょう。

優先度 文書の例 理由
経費・勤怠・福利厚生マニュアル 社員全員が関わる基本情報
部門別マニュアル・手順書 業務効率化に直結
過去の議事録・報告書 二次活用度は低めだが蓄積価値あり

✅ よくある質問Q&A


❓ Q. PDFばかりだけど使えますか?

👉 はい、PDF→テキスト変換ツール(PyMuPDFやpdfplumberなど)を使えば問題ありません。
 OCR(文字認識)が必要な場合は、PaddleOCRなども有効です。


❓ Q. 情報漏えいが心配…

👉 RAGで使う文書は、「公開範囲を明確にしたうえで」整備しましょう。
 社外秘や個人情報は除外/フィルタリングする仕組みも導入時に検討します。


❓ Q. IT担当じゃないけど関われる?

👉 むしろ最初のデータ整備は業務側(非エンジニア)の方が向いています!
 どの情報が現場で必要か、誰が使っているかを一番よく知っているからです。


🎯 まとめ:「RAGはデータ整備から始まる」が合言葉

  • RAGの精度や価値は、「どんな文書をどう渡すか」で決まる
  • 整備といっても、まずはファイルを集めるだけでも大きな前進!
  • 少しずつ整える → 試す → 改善する、の繰り返しで十分
  • 現場×データ整備×AIが連携すれば、RAGは“本当に使える業務支援ツール”に進化します!

Best regards, (^^ゞ