サイトのAPI図鑑B版
掲載情報が正確でない可能性があります。
AI・機械学習API

AI画像生成API活用ガイド【DALL-E 3・Stable Diffusion・Midjourney API】

DALL-E 3・Stable Diffusion API・Midjourney・Ideogramなどのテキストから画像を生成するAI APIの比較・実装方法・商用利用ライセンスを解説します。

#AI画像生成#DALL-E#Stable Diffusion#Midjourney

AI画像生成APIの概要

テキストプロンプトから画像を生成するAI技術は2022〜2023年に急速に普及しました。DALL-E・Stable Diffusion・MidjourneyなどのモデルがAPIとして提供されており、Webサービス・アプリ・クリエイティブツールへの組み込みが可能になっています。マーケティング素材・ゲームアセット・プロダクトプロトタイプ・教育コンテンツなど多様な用途に活用されています。

主要AI画像生成API

OpenAI DALL-E 3 API

  • 料金:1024×1024で$0.04/枚(Standard)、$0.08/枚(HD)
  • 特徴:テキストの正確な反映・詳細なプロンプト解釈・商用利用可
  • サイズ:1024×1024・1792×1024・1024×1792

Stability AI(Stable Diffusion API)

  • 料金:クレジット方式($10=1,000クレジット、1枚=1〜8クレジット)
  • 特徴:高いカスタマイズ性・多様なモデル・Img2Img対応
  • オープンソース版:ローカルで無料実行可能(GPU推奨)

Midjourney(非公式API)

MidjourneyはDiscordボット経由での利用が主流で、公式APIはまだ限定公開です。サードパーティのAPIラッパーも存在しますが、利用規約の確認が必要です。

Ideogram API

  • 特徴:日本語テキストを含む画像生成に比較的強い
  • 料金:100クレジット/月(無料)から

DALL-E 3 APIの実装例

import OpenAI from 'openai';

const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const imageResponse = await openai.images.generate({
  model: 'dall-e-3',
  prompt: '富士山を背景に桜の木が咲いている、日本の春の風景、写真リアリスティック',
  n: 1,
  size: '1024x1024',
  quality: 'hd',
  response_format: 'url', // またはb64_json
});

const imageUrl = imageResponse.data[0].url;
console.log('生成画像URL:', imageUrl);

Stable Diffusion APIの実装(Stability AI)

const response = await fetch(
  'https://api.stability.ai/v1/generation/stable-diffusion-xl-1024-v1-0/text-to-image',
  {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
      'Authorization': `Bearer ${process.env.STABILITY_API_KEY}`
    },
    body: JSON.stringify({
      text_prompts: [
        { text: 'A beautiful sunset over Mount Fuji, photorealistic', weight: 1.0 },
        { text: 'blurry, low quality', weight: -1.0 } // ネガティブプロンプト
      ],
      cfg_scale: 7,
      height: 1024,
      width: 1024,
      steps: 30,
      samples: 1,
    })
  }
);

プロンプトエンジニアリングのポイント

  • スタイルの指定:「photorealistic」「oil painting」「anime style」など画風を指定
  • 構図の指定:「wide angle」「close-up portrait」「bird's eye view」など
  • 照明の指定:「golden hour lighting」「studio lighting」「dramatic shadows」
  • 品質ワード:「8K resolution」「highly detailed」「professional photography」
  • ネガティブプロンプト(SD):「blurry, low quality, distorted, ugly」で低品質な生成を抑制

商用利用と著作権

AI生成画像の著作権は各国・各サービスで取り扱いが異なります。日本では現時点でAI生成画像のみへの著作権保護は認められていませんが、人間のクリエイティブな判断が関わる場合は保護される可能性があります。商用利用を行う場合は各サービスの利用規約を確認し、法的リスクを考慮してください。

まとめ

AI画像生成APIはクリエイティブコンテンツの制作効率を大幅に向上させます。DALL-E 3はシンプルなAPIと高品質な生成でビジネス用途に向いており、Stable Diffusionはカスタマイズ性と低コストが特徴です。商用利用の際は各サービスの最新の利用規約と著作権の扱いを確認してから使用してください。

よくある質問

Q.AI画像生成APIで生成した画像は商用利用できますか?

OpenAI DALL-E 3は商用利用が許可されており、生成した画像の知的財産権はユーザーに帰属します(利用規約に従う限り)。Stable Diffusionのオープンソース版はモデルのライセンス(CreativeML Open RAIL-M等)によりますが、多くは商用利用可能です。Midjourneyは有料サブスクリプションで商用利用が可能です。各サービスの最新の利用規約を必ずご確認ください。

Q.画質・スタイルを細かく制御するにはどうすればよいですか?

Stable Diffusion APIではnegative prompt(排除したいスタイル)・seed(再現性のある生成)・steps・cfg_scaleなどの詳細パラメーターが指定できます。DALL-E 3はプロンプトの自然言語記述で制御します。事前に生成例を試して最適なプロンプトを探るPrompt Engineeringが重要です。

Q.既存の画像を参考にして新しい画像を生成できますか?

DALL-E 3のimage-to-image機能・Stable DiffusionのImg2Img機能を使うと、既存の画像を参考にした変換・編集が可能です。ControlNetを使うと構図・ポーズを保持したまま画風を変換することもできます。

関連記事