Hello there, ('ω')ノ
マルチモーダルとは、テキストだけでなく、画像、図面、3Dモデルなど複数の形式を組み合わせてAIとやり取りすることを指します。 設計支援分野では、文章だけでなく「イメージ画像」「平面図」「CADデータ」といった形式でやり取りする機会が多く、プロンプトエンジニアにはこれを扱う知識が求められます。
必要となる知識領域
1. テキストから画像・図面生成への指示方法
画像生成AI(Stable Diffusion、DALL·Eなど)や設計特化AIに対し、視覚的な要素を言語化して入力する。
- 「木材を多用した北欧風のリビング、白い壁、観葉植物を配置、窓から自然光」
- 曖昧な表現ではなく、素材・色・照明・配置などを具体化することが重要。
2. 画像・図面をもとに改善指示する方法
AIが生成したイメージを見て、改善点を言語化する。
- 例:「窓のサイズを大きくし、家具の配置を壁際に移動してください」
- 画像や図面を読み取り、テキスト指示で修正を加えるスキル。
3. 画像+テキストの複合指示
最新の生成AIでは、画像をアップロードし、それに対して文章で指示を与えられる。
- 例:平面図を読み込ませ、「このレイアウトをオープンオフィス風に変更してください」と指示する。
- プロンプトエンジニアは、既存データを活かして修正・改善させる発想が必要。
4. 出力形式の指定と制御
- 「レンダリング風の高解像度画像」「手書き風スケッチ」「平面図」など、出力のスタイルを指定することが可能。
例:
- 「建築雑誌に掲載されるような高解像度の内観パース」
- 「白黒のシンプルな平面図」
5. 図面・3Dデータとの接続
- 将来的にBIMやCADデータとの連携も想定される。
- AI生成した案を3Dモデル化・施工データ化できる前提でプロンプトを作成することが、実務的に重要になる。
プロンプトエンジニアに求められる役割
テキストを視覚的情報に翻訳する
- 言葉で「明るく開放的な空間」と指示するのではなく、 「南向きの大窓、天井高2.7m、床は明るい木材、壁は白」といった形に具体化。
視覚的出力の評価と改善
- 出力された画像や図面を見て、「デザイン意図と一致しているか」を判断し、改善指示を与える。
形式に応じた出力制御
- 「イメージ画」「平面図」「断面図」など、目的に応じて出力形式を選び分ける。
具体例
クライアント要望
「開放感のあるオフィスデザインのイメージを見たい」
マルチモーダル対応プロンプト
「南向きに大きな窓を配置し、天井を高くしたオフィスの内観パースを生成してください。 社員10人が使えるワークデスクと、会議用テーブルを配置してください。 出力は高解像度のレンダリングイメージとしてください。」
→ 出力を確認後、改善指示を追加: 「会議用テーブルのサイズを小さくし、交流スペースを広げてください」
まとめ
マルチモーダル対応の知識とは、
- テキストから画像や図面を生成する指示方法
- 画像や図面を見て修正点を言語化する力
- 出力形式(スケッチ、パース、平面図など)の制御方法
- BIMやCADなど実務データとの連携を意識した設計
を理解し実践することです。 これにより、プロンプトエンジニアは「文章でのやり取り」だけでなく、「視覚的なやり取り」にも対応でき、設計支援の現場で強みを発揮できます。
Best regards, (^^ゞ