Künstliche Intelligenz zur Bildgenerierung – das neue DALLE 3 von OpenAI
Haben Sie sich jemals gefragt, wie es wäre, wenn Sie eine künstliche Intelligenz hätten, die Ihnen jedes Bild malen könnte, das Sie sich vorstellen können? Ob es sich um ein Porträt Ihres Lieblingsstars, eine Landschaft aus einem fernen Planeten oder eine Szene aus einem Buch handelt, die künstliche Intelligenz könnte es für Sie erschaffen. Klingt das nicht fantastisch?
Nun, das ist keine Science-Fiction mehr, sondern Realität. Denn OpenAI, eine der führenden Forschungsorganisationen im Bereich der künstlichen Intelligenz, hat kürzlich ein neues Modell namens DALLE 3 vorgestellt, das genau das kann. DALLE 3 ist eine Abkürzung für “Deep Autoregressive Language-Latent Image Model” und es ist eine Weiterentwicklung von DALLE, das Anfang 2021 veröffentlicht wurde.
Was ist DALLE und wie funktioniert es?
DALLE ist ein Modell, das Text und Bilder miteinander verbindet. Es kann aus einem Textbeschreibung ein passendes Bild generieren oder umgekehrt. Zum Beispiel kann es aus dem Satz “Ein blauer Vogel mit gelben Flügeln” ein Bild eines solchen Vogels malen oder aus einem Bild eines Hundes einen Text wie “Ein brauner Hund mit einem roten Halsband” erzeugen.
Das Modell basiert auf zwei Komponenten: einem Text-Encoder und einem Bild-Decoder. Der Text-Encoder wandelt den Text in eine numerische Darstellung um, die als Vektor bezeichnet wird. Der Bild-Decoder nimmt diesen Vektor als Eingabe und erzeugt daraus ein Bild Pixel für Pixel. Dabei lernt er aus Millionen von Text-Bild-Paaren, die im Internet gefunden wurden.
Es war bereits ein beeindruckendes Modell, das in der Lage war, Bilder zu erzeugen, die noch nie zuvor gesehen wurden. Es konnte zum Beispiel aus dem Satz “Ein Armadillo in einem Anzug” ein lustiges Bild malen oder aus dem Satz “Ein Hexagon mit einem Auge” ein abstraktes Kunstwerk erstellen.
Was ist neu an DALLE 3?
DALLE 3 ist eine Verbesserung von DALLE in mehreren Aspekten. Zum einen kann es größere und schärfere Bilder erzeugen, die bis zu 1024 x 1024 Pixel haben. Zum anderen kann es komplexere und vielfältigere Bilder erzeugen, die mehr Details und Variationen enthalten. Zum Beispiel kann es aus dem Satz “Ein Schloss auf einem Hügel bei Nacht” mehrere verschiedene Bilder malen, die jeweils unterschiedliche Architekturstile, Beleuchtungen und Perspektiven haben.
Nun kann DALLE 3 auch besser mit mehrdeutigen oder unvollständigen Textbeschreibungen umgehen. Es kann zum Beispiel aus dem Satz “Ein Tier” ein beliebiges Tier malen oder aus dem Satz “Eine Frau mit einer Blume” eine Frau mit einer Blume in verschiedenen Situationen darstellen.
Warum ist DALLE 3 wichtig?
DALLE 3 ist wichtig, weil es zeigt, wie weit die künstliche Intelligenz im Bereich der Bildgenerierung gekommen ist. Es eröffnet neue Möglichkeiten für Kreativität, Kommunikation und Unterhaltung. Es könnte zum Beispiel verwendet werden, um Illustrationen für Bücher, Comics oder Spiele zu erstellen, um personalisierte Kunstwerke zu schaffen oder um visuelle Geschichten zu erzählen.
Wichtig ist es aber auch, weil es eine Herausforderung für die Ethik und die Gesellschaft darstellt. Es wirft Fragen auf, wie zum Beispiel: Wer hat das Urheberrecht an den Bildern, die DALLE 3 erzeugt? Wie kann man sicherstellen, dass DALLE 3 keine unangemessenen oder schädlichen Bilder erzeugt? Wie kann man zwischen echten und künstlichen Bildern unterscheiden?
Am besten ist jedoch, man probiert es selber aus.