Von DALL·E 3 zu GPT-4o: Die Weiterentwicklung der Bildgenerierung
Bisher wurden Bilder durch DALL·E 3 erzeugt, ein eigenständiges Modell, das im September 2023 veröffentlicht wurde. Allerdings bevorzugten viele KI-Enthusiasten schnell neuere Modelle wie Flux, MidJourney v6, SD 3.5, Recraft und Reve.
Mit der neuen Integration wird DALL·E 3 eingestellt, und GPT-4o übernimmt sowohl die Text- als auch die Bildgenerierung. OpenAI verfolgt damit das Ziel, ein multimodales „Omni“-Modell zu schaffen, das verschiedene Aufgaben gleichzeitig bewältigen kann.
Laut der offiziellen Ankündigung von OpenAI bietet die Bildgenerierung mit GPT-4o:
- Präzise Texterstellung in Bildern
- Exakte Umsetzung von Eingabeanweisungen
- Tiefere Integration in den Chat-Kontext, einschließlich der Bearbeitung hochgeladener Bilder
Höhere Bildqualität auf Kosten der Geschwindigkeit
OpenAI-CEO Sam Altman präsentierte die neuen Funktionen in einer Video-Demonstration. Gezeigt wurden unter anderem:
- Manga-Seiten, die die Relativitätstheorie veranschaulichen (mit Eingaben auf Englisch und Mandarin)
- Individuell gestaltete Sammelkarten, basierend auf echten Fotos
- Gedenkmünzen, die mehrere Bilder mit transparentem Hintergrund kombinieren
- Sehr detaillierte Bildgenerierungen, die lange und komplexe Eingabeanweisungen präzise umsetzen
Die Bilder sind deutlich hochwertiger, benötigen aber auch länger zur Erstellung. Altman betonte, dass OpenAI an einer Beschleunigung des Prozesses arbeitet, aber die höhere Qualität die längere Wartezeit rechtfertige.
„Die Bilder sind viel langsamer als bei unserem vorherigen Modell, aber unglaublich viel besser. Wir sind überzeugt, dass sich das Warten lohnt.“ – Sam Altman
So erkennt man GPT-4o-Bildgenerierung
Ein wesentliches Unterscheidungsmerkmal zwischen DALL·E 3 und GPT-4o ist die Art, wie Bilder generiert werden:
- DALL·E 3-Bilder erscheinen sofort vollständig nach einer Ladezeit.
- GPT-4o-Bilder werden schrittweise von oben nach unten aufgebaut.
Diese neue Darstellungsmethode macht den Prozess interaktiver und transparenter für die Nutzer.

Mehr als nur Kunst: Neue Einsatzmöglichkeiten für KI-generierte Bilder
Die Neuerung geht über reine Kunstprojekte hinaus. OpenAI hebt hervor, dass die visuelle Darstellung von Wissen völlig neue Anwendungsfälle ermöglicht, darunter:
- Wissenschaftliche Diagramme und Infografiken für Bildung und Forschung
- Visuelles Storytelling, etwa für Comics oder Präsentationen
- Bildbearbeitung mit Konsistenz, um gezielt Elemente in Bildern zu verändern
Schutzmaßnahmen gegen Deepfakes und Missbrauch
Mit der zunehmenden Qualität KI-generierter Bilder wächst auch die Gefahr von Fälschungen und Fehlinformationen. OpenAI hat daher Sicherheitsmechanismen implementiert:
- Verhinderung der Erstellung von Deepfakes und illegalen Inhalten
- Kein sichtbares Wasserzeichen, aber C2PA-Metadaten zur Kennzeichnung als KI-generiertes Bild
- Tools zur Nachverfolgung der Bildherkunft
Zukünftige Entwicklungen: Integration in die OpenAI-API
Das neue Feature wird schrittweise ausgerollt, sodass noch nicht alle Nutzer Zugriff darauf haben. Zudem plant OpenAI, die Bildgenerierung in seine API zu integrieren, damit Entwickler die Technologie in ihre eigenen Anwendungen einbinden können.
Laut den Nutzungsbedingungen von OpenAI behalten Nutzer das Eigentum an den generierten Bildern, sofern sie die OpenAI-Richtlinien einhalten.
Mit dieser Neuerung geht OpenAI einen weiteren Schritt in Richtung einer vollständig multimodalen KI, die Sprache, Bilder und andere Medien nahtlos kombiniert.
Wie stehen Sie zu der neuen Bildgenerierung in ChatGPT? Diskutieren Sie mit uns in den Kommentaren.