5.マルチモーダル対応の知識とは

Hello there, ('ω')ノ

マルチモーダルとは、テキストだけでなく、画像、図面、3Dモデルなど複数の形式を組み合わせてAIとやり取りすることを指します。設計支援分野では、文章だけでなく「イメージ画像」「平面図」「CADデータ」といった形式でやり取りする機会が多く、プロンプトエンジニアにはこれを扱う知識が求められます。

必要となる知識領域

画像生成AI（Stable Diffusion、DALL·Eなど）や設計特化AIに対し、視覚的な要素を言語化して入力する。
- 「木材を多用した北欧風のリビング、白い壁、観葉植物を配置、窓から自然光」
曖昧な表現ではなく、素材・色・照明・配置などを具体化することが重要。

最新の生成AIでは、画像をアップロードし、それに対して文章で指示を与えられる。
- 例：平面図を読み込ませ、「このレイアウトをオープンオフィス風に変更してください」と指示する。
プロンプトエンジニアは、既存データを活かして修正・改善させる発想が必要。

テキストを視覚的情報に翻訳する
- 言葉で「明るく開放的な空間」と指示するのではなく、「南向きの大窓、天井高2.7m、床は明るい木材、壁は白」といった形に具体化。
視覚的出力の評価と改善
- 出力された画像や図面を見て、「デザイン意図と一致しているか」を判断し、改善指示を与える。
形式に応じた出力制御
- 「イメージ画」「平面図」「断面図」など、目的に応じて出力形式を選び分ける。

「開放感のあるオフィスデザインのイメージを見たい」

「南向きに大きな窓を配置し、天井を高くしたオフィスの内観パースを生成してください。社員10人が使えるワークデスクと、会議用テーブルを配置してください。出力は高解像度のレンダリングイメージとしてください。」

→ 出力を確認後、改善指示を追加：「会議用テーブルのサイズを小さくし、交流スペースを広げてください」

マルチモーダル対応の知識とは、

を理解し実践することです。これにより、プロンプトエンジニアは「文章でのやり取り」だけでなく、「視覚的なやり取り」にも対応でき、設計支援の現場で強みを発揮できます。

Best regards, (^^ゞ