Shikata Ga Nai

Private? There is no such things.

第43回:カスタム評価指標の作り方

Hello there, ('ω')ノ

~あなたの会社の「良いAI」を、あなたが決める~

多くのAI活用現場で使われているBLEUやROUGEといった評価指標。 しかし実際の業務では、こう思ったことはありませんか?

  • 「数字は高いのに、なぜか使いにくい…」
  • 「丁寧さやトーンが評価できていない」
  • 「うちの業務に必要な観点が抜けている」

そんなときに役立つのが、「カスタム評価指標」の考え方です。 つまり、業務で本当に役立つ“良いAI”を、自分たちの基準で定義するということです。


🧭 そもそも評価指標は何のためにある?

LLMを評価する目的は、「精度を測ること」ではなく、業務に合っているかどうかを判断することです。 つまり──

“数字が高い=使える”とは限らない!

だからこそ、「自分たちの基準で、良し悪しを判断できるようにする」ことが重要になります。


🏗 カスタム評価指標の作り方:5ステップ

✅ ステップ1:業務のゴールを明確にする

例)「社内問い合わせをAIに任せたい」「報告書を自動で下書きしてほしい」など

➡ ゴールが違えば、評価するべきポイントも異なります。


✅ ステップ2:評価観点を決める

「うちのAIは、どういう点を大事にしてほしいか?」を整理します。

評価観点の例 説明
正確性 情報が間違っていないか
丁寧さ 言葉づかいや敬語が適切か
業務適合性 業務ルールや社内用語に合っているか
構成力 わかりやすい順序・論理で書かれているか
自信度 回答に対して適切な曖昧さ・断言レベルか

✅ ステップ3:5段階やYes/Noで評価できる形にする

シンプルで運用しやすい指標に落とし込みましょう。

例:

項目 評価基準
正確性 5: 完全に正しい / 3: 一部曖昧 / 1: 明らかに誤り
丁寧さ Yes / No
構成力 5: 段落や見出しが整っていて読みやすい ~ 1: 無秩序

✅ ステップ4:テストセットで試す

  • よくある問い合わせや業務文書を10~50件用意
  • 実際のモデル応答を評価してみる
  • 評価者は複数人にして、ばらつきも確認

✅ ステップ5:継続的に見直す

  • 社内ルールが変われば、評価観点も変わる
  • モデルが進化すれば、基準もアップデートが必要
  • 現場の声(使いやすさ・納得感)を定期的に反映

🧰 活用例:社内チャットボット向けカスタム指標

観点 評価内容 評価方法
正確性 回答内容に誤りがないか 5段階スコア
トーン 敬語や表現が自然か Yes / No
一貫性 前の質問との整合性があるか 5段階スコア
社内用語対応 専門語や略語が正しく使われているか 5段階スコア

→ これをExcelや社内ツールでスプレッドシート化しておくと、比較・分析が容易になります


💡 補足:自動評価との組み合わせも有効

  • 正確性や言い換え率はBLEUやROUGEで自動算出
  • トーンや論理展開など、人間にしかわからない観点はカスタム指標で補う
  • 最終的には定量+定性のハイブリッド評価がベスト

✅ まとめ:「うちに合ったAIかどうか」は、自社基準で測る時代へ

  • 汎用評価では拾いきれない“業務的な適合性”を測るには、自社で評価軸を持つことが重要
  • 作り方はシンプルでOK。目的に沿った観点・評価形式を定義するだけ
  • 継続的に改善しながら、AI運用の“フィードバックループ”を回す基盤として活用できる

Best regards, (^^ゞ