KI / OpenAI

Bildersprache revolutioniert: Entdecken Sie die Magie von DALL-E 3 in ChatGPT

von Wolfgang Walk · Veröffentlicht 22. Oktober 2023 · Aktualisiert 22. Oktober 2023

Ein Roboter steht vor einer Staffelei und malt ein naturgetreues Bild eines Baumes am Ufer eines Sees, der im Sonnenlicht glänzt. Der Roboter hat ein detailliertes mechanisches Design und hält mit seiner Hand einen Pinsel, der in Farbe getaucht ist, während er konzentriert an dem Kunstwerk arbeitet. Der Hintergrund ist in einem sanften Blauton gehalten, der den Fokus auf den Roboter und sein Gemälde lenkt.

Roboter als Künstler

Ein neuer Horizont der digitalen Bildgestaltung wurde eröffnet, als OpenAI DALL-E 3 vorstellte, eine kreative Schnittstelle, die auf ChatGPT aufbaut. Mit DALL-E 3 können Benutzer nun ChatGPT als Brainstorming-Partner nutzen und ihre Aufforderungen verfeinern, um erstaunliche Bilder zu erzeugen, die ihre Ideen zum Leben erwecken¹.

DALL-E 3 trifft ChatGPT: Eine Symbiose aus Text und Bild

Die Integration von DALL-E 3 und ChatGPT bietet eine Plattform, auf der Text- und Bildgenerierung auf innovative Weise verschmelzen. Mit einer Idee können Sie ChatGPT auffordern, detaillierte Anweisungen für DALL-E 3 zu generieren, die Ihre Vision in ein Bild übersetzen. Wenn das resultierende Bild nicht ganz Ihren Vorstellungen entspricht, können Sie ChatGPT mit wenigen Worten bitten, Änderungen vorzunehmen, um das Bild zu verfeinern¹.

Sicherheit im Fokus

Wie bei den Vorgängerversionen hat OpenAI Maßnahmen ergriffen, um die Fähigkeit von DALL-E 3, gewalttätige, nicht jugendfreie oder hasserfüllte Inhalte zu generieren, einzuschränken. Sicherheitsverbesserungen wurden vorgenommen, um Anfragen abzulehnen, die nach dem Namen einer Person des öffentlichen Lebens fragen, und um die Sicherheitsleistung in Risikobereichen wie der Generierung von Personen des öffentlichen Lebens und schädlichen Vorurteilen im Zusammenhang mit visueller Über-/Unterrepräsentation zu verbessern¹.

Die Entwicklungsstufen von DALLE

Die Entwicklung von DALL-E hat sich von seiner ersten Einführung bis zu seiner neuesten Version, DALL-E 3, stetig weiterentwickelt. Die erste Version von DALL-E wurde im Januar 2021 von OpenAI vorgestellt und nutzte eine modifizierte Version von GPT-3, um digitale Bilder aus natürlichsprachlichen Beschreibungen zu erzeugen¹ . Seitdem hat OpenAI DALL-E kontinuierlich verbessert und aktualisiert, wobei jede Version neue Funktionen und Fähigkeiten hinzugefügt hat². Der Name DALL·E ist eine Anspielung auf den Künstler Salvador Dalí und den Pixar-Film “WALL·E”. Es ist eine kreative Namensgebung, die die künstlerischen und maschinellen Aspekte des Modells reflektiert.

DALL-E 3, die neueste Version, wurde im September 2023 angekündigt und verspricht, realistischere, genauere und ansprechendere Bilder als je zuvor zu liefern². Die Vorgängerversionen, DALL-E und DALL-E ², haben das Potenzial von KI-generierter Kunst aufgezeigt, wiesen jedoch einige Einschränkungen auf, wenn es darum ging, nuancierte Aufforderungen zu verstehen. DALL-E 3 stellt einen bedeutenden Fortschritt in der KI-generierten Kunst dar, da die OpenAI-Forscher unermüdlich daran gearbeitet haben, die Fähigkeit des Systems zu verbessern, den Kontext von Aufforderungen zu verstehen³.

Mit jeder Weiterentwicklung von DALL·E hat OpenAI die Fähigkeit der Modelle verbessert, komplexe und nuancierte Aufforderungen zu verstehen und realistischere Bilder zu erzeugen. DALL·E 3 repräsentiert den aktuellen Stand der Technologie, indem es die Stärken seiner Vorgänger übernimmt und auf ihren Erfahrungen aufbaut, um eine leistungsstärkere und genauere Text-zu-Bild-Generation zu ermöglichen.

Die folgende Tabelle zeigt die technischen Unterschiede zwischen den Versionen:

Merkmal	DALL·E 1	DALL·E 2	DALL·E 3
Veröffentlichungsdatum	Jan 2021	Apr 2022	Sep 2023
Auflösung	256 x 256 Pixel	512 x 512 Pixel	1024 x 1024 Pixel
Bildsynthese-Methode	dVAE*	VAE**	Diffusionsmodell
Text-zu-Bild-Integration	Grundlegend	Verbessert	ChatGPT-Integration
Realitätsgetreue der Bilder	Grundlegend	Verbessert	Hoch
Verständnis von Aufforderungen	Grundlegend	Verbessert	Hoch
Benutzerinteraktion	Begrenzt	Erweitert	Realzeit-Feedback

Entwicklungsstufen von DALLE

dVAE: Diskreter Variational Autoencoder ** VAE: Variational Autoencoder

Weitere Forschung

OpenAI erforscht auch die besten Methoden, um Menschen dabei zu helfen, zu erkennen, wann ein Bild von KI erstellt wurde. Ein neues internes Werkzeug, der Provenance Classifier, wird erprobt, um zu erkennen, ob ein Bild von DALL-E 3 erzeugt wurde, und um besser zu verstehen, wie erzeugte Bilder verwendet werden könnten¹.

Schlussfolgerung

Die Einführung von DALL-E 3 markiert eine aufregende Phase in der Welt der digitalen Kunst und Kommunikation. Mit der Unterstützung von ChatGPT können Benutzer nun problemlos zwischen textuellen und visuellen Ausdrucksformen wechseln, um ihre kreativen Visionen zu verwirklichen.

Externe Quellen: