Shikata Ga Nai

Private? There is no such things.

第42回:コーディング・会話能力の見極め方

Hello there, ('ω')ノ

~AIが「書ける」「話せる」はどう測る?~

LLMを社内で使う際に注目されるのが次の2点です:

  • ✅ コーディング:簡単な自動スクリプトやバグ修正ができるか
  • ✅ 会話能力:チャットボットとして自然に対話できるか

これらのスキルは、「どんな業務をAIに任せられるか?」を判断する上で非常に重要です。


💻 1. コーディング能力の見極め方

✅ 評価の観点

項目 内容
正確性 出力されたコードが動くか?バグがないか?
理解力 指定された仕様を正しく解釈しているか?
修正力 既存コードのエラーや改善提案ができるか?
スタイル 可読性の高いコメント付きコードになっているか?

📋 評価方法(実務向け)

方法1:テストスクリプトを与える

例:「PythonでCSVファイルから合計金額を計算してください」

✅ 評価ポイント:

  • 実行結果が正しいか
  • コードに無駄や冗長さがないか
  • 入力条件の変化にも柔軟に対応できるか

方法2:リファクタリング問題

例:「このスパゲッティコードを読みやすく改善してください」

✅ 評価ポイント:

  • 構造の改善提案があるか
  • コメントや関数分けが適切か

🗣️ 2. 会話能力の見極め方

✅ 評価の観点

項目 内容
自然さ 不自然な日本語になっていないか?
文脈理解 前の発言を踏まえて話せているか?
丁寧さ 敬語・社内トーンに合っているか?
一貫性 会話の途中で話が矛盾していないか?

📋 評価方法(実務向け)

方法1:業務シナリオ会話テスト

例:「経費精算の流れを教えてください」とチャットで質問

✅ 評価ポイント:

  • 質問の意図をくみ取り、順を追って説明しているか
  • 不明点に対して聞き返しや条件確認があるか

方法2:クレーム対応シミュレーション

例:「昨日届いた商品に不備があった」と言われた時の応答

✅ 評価ポイント:

  • 共感・お詫びなど適切な表現ができているか
  • 顧客の立場に立った案内ができているか

🔧 実務での導入例:評価+ログ活用で継続改善

  1. コード問題とチャットシナリオを事前に用意
  2. モデル出力を保存&評価シートでスコア付け
  3. 社内チューニングの指針として活用
  4. ログからミスパターンを収集し、プロンプトや学習に活かす

🎓 補足:自動評価指標も使える

コーディング 会話
✔️ Pass\@1(1回で正解コードが出るか) ✔️ BLEU・ROUGE(回答の言い換え度)
✔️ CodeBLEU(構文+意味一致を評価) ✔️ 人間による自然さ・文脈理解の評価

➡ ただし、最終的には人の目での確認が不可欠です。


✅ まとめ:「できるAIかどうか」は“書けるか・話せるか”で見えてくる

  • コーディングと会話は、業務でのAI活用に直結するスキル
  • 評価には、事前に用意したタスク+定量・定性チェックが有効
  • 定期的にテストすることで、モデルの改善・切り替え判断にも活用可能

Best regards, (^^ゞ