Stefan von Gagern

Kolumnist & B2B Tech Copywriter

Status quo KI-Bild-Generatoren: Bringen sie die Revolution in der visuellen Kommunikation?

06.12.2023

12 min

Design

Entdecke den Business Value deines Contents.

„Sicherlich einer der inhaltlich wertvollsten Newsletter, die ich bisher erhalten habe.“

Andreas Hoffmann
Head of Marketing @ OmniCult

Versand- & Datenschutzbestimmungen
Abmeldung ist jederzeit möglich.

Status quo KI-Bild-Generatoren: Midjourney, DALL-E und Adobe Firefly revolutionieren die visuelle Kommunikation, sind in der Bedienung aber noch ausbaufähig und lassen in puncto Urheberrecht noch Fragen offen.

Wenn wir über künstliche Intelligenz (KI) – ja besonders generative KI sprechen, denken alle an den üblichen Kandidaten: einen Textgenerator wie ChatGPT. Auch wenn angeblich wieder leicht sinkende Nutzerzahlen für das KI-Tool schlechthin gemeldet wurden, schaffte es Generative AI im Sommer 2023 dennoch locker an die Spitze des Gartner Hype Cycles – und das ist hauptsächlich ein Verdienst von ChatGPT.

Gartner Hype Cycle for AI 2023 — Generative AI ist an der Spitze des Gartner Hype Cycles 2023

Das simple Chat-Programm ist allen ohne Erklärung sofort vertraut und führt, wie Tesla-CEO Elon Musk es in einem Interview beschrieben hat, auf schockierende Weise jedem vor, wie weit die Entwicklung der KI inzwischen ist. chatGPT sorgte so für den „iPhone“-Moment der KI und beeindruckt seit seinem Erscheinen im Dezember 2022 viele von uns täglich durch seine Fähigkeit, menschenähnliche Dialoge oder Essays zu verfassen.

Adobe prognostizierte in seiner letzten Pressemitteilung zu generativer KI, dass der Bedarf an Content in den nächsten zwei Jahren auf das 5- bis 10-fache steigen wird. Die Frage ist: Wie sind Content Marketer in der Lage diesen Bedarf zu decken, wenn gleichzeitig an vielen Stellen Fachkräfte und erfahrene Content Marketer fehlen? Zudem garantieren zehn neue Team-Mitglieder nicht unbedingt die zehnfache Produktivität. KI kann hier die willkommene Lösung sein, die den Output der vorhandenen Content-Schaffenden erhöhen kann – und zwar nicht nur, wenn es um Textinhalte geht, sondern zunehmend auch für visuelle Formate.

Vielleicht interessieren dich auch:

Hilfe, wir haben keine Bilder!

Text ist nur eine Seite der Medaille. „Wo bekommen wir nur Bilder her?“, ist oft das Problem bei Blogartikeln und Social Media Posts, die schnell publiziert werden müssen, bevor sie veraltet sind. Stock-Anbieter können nicht immer helfen. Oft fehlt das Budget, gleichzeitig ist es schwierig passende Motive und genau die Bildidee in genau der Optik zu einem erschwinglichen Preis zu finden. Zudem wirken viele Stock-Bilder wie Stock-Bilder: Abgedroschen, altbacken und wenig originell. „Hab’ ich das Bild nicht schon mal irgendwo gesehen?“, macht es oft bei den Leser:innen im Kopf. Und tatsächlich, selten sind Stock-Bilder exklusiv – und wenn, dann sprengen Exklusiv-Bilder meist das Budget.

Echte Abhilfe können hier KI-Bildgeneratoren schaffen. Warum nicht einfach die Bildidee kurz per Text beschreiben und mit einer „Text to image“-Funktion das Bild einfach in wenigen Sekunden generieren lassen? Und wenn es nicht zur Idee passt, einfach in einer anderen Optik, mit einem leicht veränderten Prompt und anderer Perspektive erneut rendern lassen? So leicht geht in der Theorie das Bebildern mit Bildgeneratoren. Aber welche sind am besten – und was gibt es sonst noch zu beachten?

Mehr KI-Bilder generiert als Fotos in 150 Jahren

Wer hat nicht das virale Bild des „Papstes im weißen Anorak“ gesehen, das durch Social Media und das Web die Runde machte? Doch trotz der steigenden Popularität und der oft humorvollen oder schockierenden Darstellungen, die diese Bilder erzeugen können, haben noch verhältnismäßig wenige Menschen die Tools dafür selbst in die Hand genommen. Kein Wunder, denn zum Beispiel bei Midjourney liegt die Einstiegshürde deutlich höher als bei der Browser-App ChatGPT (dazu gleich mehr).

Bildgeneratoren wie Dall-E, Midjourney und Adobe Firefly öffnen neue Horizonte in der kreativen Welt und gehen weit über das hinaus, was bisher für möglich gehalten wurde. Laut den Zahlen von Everypixel hat KI 2023 schon mehr Bilder generiert, als Fotografen in 150 Jahren aufgenommen haben. KI-Bilder sind stark Plattform und Community-getrieben. So tummeln sich bei Midjourney die meisten User. Die meisten Bilder wurde mit der Open Source-Alternative Stable Diffusion generiert (rund 12,5 Milliarden) und Adobe Firefly hat in den drei Monaten seiner Betaphase mit einer Milliarde generierter Bilder das stärkste Wachstum hingelegt.

Infografik: Anzahl KI-generierter Bild (Stand 2023)

Bildgeneratoren wirkten noch vor nicht allzu langer Zeit wie ein Spielzeug für Nerds, weniger wie ernst zu nehmende Tools für Künstler:innen und Designer:innen. Sie sorgten oft mit verzerrten Porträts und bizarren Fehlern wie zu vielen Fingern an generierten Händen für Spott und Häme. Doch gerade Midjourney hat in der Version 5.1 und 5.2 einen enormen Qualitätssprung hingelegt. Gerade fotorealistische Darstellungen aus Midjourney wirken inzwischen so echt, als hätte ein Shooting mit Produkten, Models und echten Motiven, sowie aufwendiger Beleuchtung stattgefunden.

„Bildgeneratoren wurden vor nicht allzu langer Zeit wie ein Spielzeug belächelt – machen heute aber realen Fotoshootings Konkurrenz.“

Midjourney Ouput im Versionsvergleich — Midjourney hat in wenigen Jahren über 5 Versionen einen enormen Qualitätssprung hingelegt (Quelle: AI Tuts, https://aituts.com/midjourney-versions/)

Heute kann Midjourney Bilder generieren, die mit guten Prompts kaum noch von professionellen Fotos zu unterscheiden sind.

Der Kontext, in dem sich KI-generierte Bilder einsetzen lassen, ist vielfältig, wie:

Stockfotos, z. B. um Social Media Posts und Blogbeiträge zu bebildern
Food-Fotografie
Produktvisualisierung
Lifestyle-Fotos
Architektur-Visualisierungen
Kunst
Illustration
Infografiken
Porträts und Menschen
Natur & Landschaften
…

Person mit Smartphone (KI-generiert) — Von People bis Illustration: Midjourney kann inzwischen viele typische Bildthemen, bei denen sonst Stockfotos gefragt waren, abdecken. (Quelle: Midjourney, generiert von Stefan von Gagern)

Einfluss, aber keine Kontrolle

Midjourney hat aber trotz der großartigen, fotorealistischen Qualität auch einige Haken. Zunächst liegt die Einstiegshürde schon bei der Installation etwas höher, da Midjourney als Interface auf die überwiegend Gamern geläufige Chat-Software Discord setzt. Das ist zwar eigentlich praktisch, aber zum Loslegen und Ausprobieren nicht wirklich intuitiv. Zudem muss man direkt ein kostenpflichtiges Abo abschließen, bevor es losgeht. Das liegt aktuell etwa bei 12 Dollar pro Monat, kann aber auch jederzeit wieder gekündigt werden.

Zunächst kommt der Einsteiger auch mit simplen Prompts zu beeindruckenden Ergebnissen. Doch wer mehr Qualität herausholen möchte, benötigt neben Übung auch Kenntnisse über Lichtverhältnisse, Perspektiven, Stilrichtungen von Künstlern und Fotografen, Kameramodellen und Parametern wie Chaos, die steuern, wie hoch der Zufallsfaktor in den Bildern ausfällt.

Midjourney Prompts können so schnell komplex und kryptisch ausfallen. Beispiel gefällig?

Cool anime-style spaceship, medium: digital art, style: reminiscent of classic anime series like "Cowboy Bebop" and "Outlaw Star", lighting: radiant glow from the spaceship's thrusters illuminating the vastness of space, colours: vibrant blues, silvers, and neon highlights, composition: Canon EOS R5 camera, RF 24-70mm F2.8 L IS USM lens, resolution 45 megapixels, ISO sensitivity: 100, shutter speed 1/60 second, wide-angle shot capturing the spaceship soaring through a starry backdrop, depth-of-field focusing on the intricate details of the ship's design --ar 16:9 --v 5.1 --style raw --s 750

Screenshot: Midjourney Interface in Discord — Von Gamern geliebt – für den Rest eher verwirrend: die Steuerung von Midjourney per Chat-App Discord

Eine gute Hilfestellung liefert der Midjourney Prompt Helper, der im Baukasten-Prinzip beim Zusammenstellen der Textbefehle hilft (siehe Bild unten). Zudem gibt es ein kostenloses Plugin für ChatGPT namens “Photorealistic”, das mit einer vagen Bildidee wie “Prompt for a cool spaceship in anime style” als Antwort den oben genannten Prompt ausspuckt.

Screenshot: Midjourney Prompt Helper — Der Midjourney Prompt Helper liefert Hilfe mit visuellen Beispielen für die vielen Einstellmöglichkeiten beim Prompting. (Quelle: Midjourney)

Eine weitere Schwäche wird erst später, bei der ersten “Auftragsarbeit” mit Midjourney spürbar: Wer eine klare Bildidee von einem Kunden vorgegeben bekommt – auch wenn sie simpel ausfällt wie “Geld fällt vom Himmel in ein Loch” spürt schnell, dass er viele Anläufe benötigt, bis das Bild im Kopf mit der von Midjourney generierten Szene halbwegs übereinstimmt.

Midjourney ist eine Wundertüte, die beeindruckende Szenen zaubern kann – aber gleichzeitig auch ein Zufallsgenerator, der nur unscharfe Briefings erlaubt. Sonst kann es schnell zig Anläufe benötigen, bis der Kunde zufrieden ist.

„Schnell zeigt sich: Midjourney ist vorrangig eines: Eine Art visueller Zufallsgenerator, der Kreativen Einfluss erlaubt, aber keine Kontrolle.“

Die (nicht ganz einfache) Frage der Bildrechte

Midjourney wurde ähnlich wie ein Large Language Model (LLM) mit Input aus dem Web gefüttert – allerdings mit Bildern statt Texten. Das demonstriert eindrucksvoll Midlibrary.io. Dort liegen über 3.900 Stile und Zeichentechniken bereit, die sich mit sogenannten Style Modifiern in eigenen Prompts nutzen lassen.

Beispiel, um im Stil des Künstlers Arnold Böcklin ein Bild zu generieren:

Arnold Bocklin's painting depicting <your prompt>

Auf Midlibrary finden sich Vorschaubilder und Style Modifier für so gut wie alle bekannten Künstler und Grafiker von August Macke über H.R. Giger bis Pablo Picasso.

Screenshot: Style Modifier — Mit Style Modifiern ist es einfach die Stile bekannter Künstler nachzuahmen und enorm den Stil der Bilder zu beeinflussen (Quelle: Midlibrary.io)

Problem: Die Künstler wurden dabei weder gefragt noch werden sie entlohnt. Beim Generieren entstehen “Remixes” – oft im Stil bekannter Künstler und Illustratoren, ohne dass nur ein Cent bei ihnen auch bei kommerzieller Nutzung ankommt. Es steht zwar in den AGB von Midjourney, dass zahlende Abonnent:innen die Bilder unter bestimmten Regeln auch kommerziell einsetzen dürfen – das Urheberrecht bekommen Midjourney-Künstler:innen jedoch nie an den Bildern. So heißt es “Du darfst sie nutzen, aber sie gehören dir nicht”. Wer also geklärte Nutzungsrechte und saubere Entlohnung für Marketingzwecke wie bei Stock-Bildern erwartet, bleibt bei Midjourney mit einem mulmigen Gefühl zurück.

Problem auch beim kommerziellen Einsatz von Midjourney-Bildern: Exklusivrechte an Bildern sind praktisch unmöglich. Wer also ein Kampagnenbild von Midjourney nutzt, kann sich nicht davor schützen, dass es die Konkurrenz es ebenfalls nutzen könnte.

KI-generiert, aber rechtlich abgesichert – ist das möglich?

Genau dieses Manko möchten sich andere Anbieter zunutze machen. Enter Adobe mit seinem Bildgenerator Firefly, der im Frühjahr 2023 vorgestellt wurde und im Oktober bereits in die Version 2 ging. Firefly unterscheidet sich durch die Konkurrenz Midjourney in folgenden Punkten:

KI-Bilder ohne Risiko
Firefly wurde ausschließlich mit Bildern trainiert, an denen die Rechte geklärt sind. Sprich der Fundus von Adobe Stock. Die Künstler:innen und Fotograf:innen, die ihr Bildmaterial für das Training für Firefly freigeben, werden auch entsprechend entlohnt. Creative Cloud-Abonnent:innen finden dazu Folgendes auf der Website: „Adobe bekennt sich zu ethischen Prinzipien – auch und gerade im Umgang mit generativer KI. Damit die generierten Inhalte ohne Bedenken veröffentlicht und gewerblich genutzt werden können, verwenden wir für das Training der Modelle nur lizenziertes Adobe Stock-Material und gemeinfreie Inhalte, die nicht mehr urheberrechtlich geschützt sind“.
Mehr Einfluss auf die Optik
Firefly macht nicht nur das Prompting relativ einfach, sondern läuft ohne großen Aufwand direkt im Webbrowser (firefly.adobe.com). Durch den leichten Einstieg wurden seit der Veröffentlichung im März in wenigen Monaten mehr als drei Milliarden Bilder mit Firefly erzeugt. Ein Unterschied zu Midjourney ist die Bedienoberfläche: Nach dem Prompting ist es einfach für Benutzer, mit Menüs die Optik des Bildes gezielt zu steuern. Wer einen bestimmten Stil im Kopf hat, kann einfach ein Referenzbild als Vorlage hochladen – oder sich aus der Referenzgalerie bedienen.

Screenshot: Adobe Firefly — Adobe Firefly erlaubt die gezielte Steuerung der Bildoptik mit Bedienelementen (Quelle: Stefan von Gagern)

Kombination mit Photoshop und Illustrator
Der Bildgenerator Firefly wurde von Adobe auch direkt in die Tools Photoshop und Illustrator integriert. Dort lassen sich Hintergründe per KI im Kontext zum Motiv füllen. So werden zum Beispiel aus Hochformat-Bildern Querformate. Wer neue Motive ins Bild per Text-to-Image generiert – etwa ein UFO am Himmel, kann dies nicht nur mit den Photoshop-Funktionen bearbeiten – oft wird auch die Lichtsituation ins generierte Motiv eingerechnet. In Illustrator kann die KI Vektorgrafiken erzeugen (wenn auch über einen Trick, indem es erst ein Pixelbild erzeugt und dann per Tracing, also Nachzeichnen in Vektorkurven verwandelt).

Screenshot: Adobe Firefly in Photoshop — Firefly Text-to-image ist auch direkt in Photoshop verfügbar und lässt sich mit den Bildbearbeitungsfunktionen kombinieren

Fake bis Deepfakes: die dunkle Seite der KI-Bild-Generatoren

Die „dunkle Seite“ der KI-Bilder und Video-Generatoren und ihrer fotorealistischen Bildqualität ist es, dass es damit einfach ist, täuschend echten Fake-Content zu erstellen. Wie das anfangs erwähnte Bild vom Papst im Anorak oder die Fotos vom Treffen von Barack Obama und Angela Merkel am Strand – es ist leicht, Falschinformationen zu generieren und den abgebildeten, realen Personen Schaden zuzufügen, wie es das „Nachricht von Ella“-Video der Telekom auf schockierende Weise zeigt (siehe Video unten). Um Fake-Inhalte zu bekämpfen, wird aktuell auf EU-Ebene über eine Kennzeichnungspflicht für KI-generierte Bilder diskutiert.

Bereits früher entstand die von Adobe initiierte Content Authenticity Initiative – ursprünglich, um per Photoshop manipulierte Bilder transparent zu kennzeichnen. Seit 2019 sind auch KI-generierte Inhalte in der Vision der Initiative aus einem Firmenverbund, dem ARM, BBC, Intel und Microsoft angehört. Die Initiative stellt Tools bereit, mit denen Metadaten (sogenannte Content Credentials) eingefügt werden können, um Transparenz und Sicherheit für KI-generierten Content zu erhöhen. Die Konsumenten des Contents können über eine „Verify-Seite“ Bilder auf Manipulationen prüfen. Ein Standard für die Echtheit von Content wäre für Creators und Konsumenten sehr wünschenswert.

Und falls du die Episode unseres Podcasts „Taking Care of Content“ noch nicht angehört hast, dann empfehle ich dir zu diesem Thema unbedingt mein Gespräch mit Sven Doelle, Head of Innovation and Technology bei Adobe:

DALL-E 3: Bilder direkt in ChatGPT

Die ChatGPT-Macher OpenAI haben mit DALL-E einen hauseigenen Bildgenerator im Rennen. Version 2 war kaum zu gebrauchen und Platzhirsch Midjourney meilenweit unterlegen. Einziger Vorteil war die direkte Einbindung in Grafikprogramme wie Canva. Mit Version 3 hat DALL-E einen deutlichen Sprung nach vorn hingelegt und kann es im Hinblick auf Qualität annähernd mit Midjourney aufnehmen. Dazu hat DALL-E noch zwei Trümpfe im Ärmel:

Durch die Multimodalität von GPT-4 (GPT-4 kann Text und Bild lesen, sowie generieren) können sich Plus-User ohne Umwege in Konversationen Bilder generieren lassen. So können Social Media Manager:innen nicht nur um einen Themenplan mit Bildern für die nächste Woche bitten, sondern sich diese direkt in einer Konversation generieren lassen.
Komplexes Prompting nimmt DALL-E den Usern ab. Es verwandelt relativ simple Eingaben automatisch in komplexere Prompts und erlaubt das Verfeinern in weiteren Eingaben. So fällt es leicht, sich von ersten Bildideen immer weiter vorzuarbeiten. Zudem verspricht DALL-E 3 bessere Textdarstellung (funktioniert nicht immer, aber teilweise besser als bei Midjourney) und mehr auf Details eingehen zu können. Ferner kann ChatGPT Bildeingaben verwalten. So können einfach Referenzbilder oder Fotos als Bildprompt verwendet werden.

Screenshot: Bilder in chatGPT mit DALL-E generieren — DALL-E 3 funktioniert direkt in ChatGPT-Unterhaltungen und verträgt auch geknipste Fotos als Prompt (Quelle: Stefan von Gagern)

Ideogram: Bilder-Remix in der Community

Ein erfrischend einfacher und noch wenig bekannter Bildgenerator ist Ideogram. Ideogram ist nicht einfach nur ein weiterer Kandidat im Rennen um den besten KI-Bilderzeuger, sondern ein echter Geheimtipp, wenn es um stilistische Vielfalt, einfaches Prompting und zuverlässige Texterzeugung geht. Gegründet von Ex-Google Mitarbeitern liefert das Startup gleich auf seiner Startseite beliebte Bilder aus der Community statt ein leeres Prompt-Fenster. Eigene Bilder erzeugen läuft dann gern mit einer „Parent”-Vorlage, die man mit der Remix-Funktion dann an eigene Ideen anpasst. Das klappt dann über eigene Prompts, oder man nutzt den ursprünglichen und verändert einfach die Style-Eigenschaften wie „Cinematic“, “Photo“ und „3D render“. Mit „Lucky Stile“ wirft man auf gut Glück den Zufallsgenerator bei der Optik an. Die eigenen Kreationen werden automatisch in der starken Community veröffentlicht, die einander inspiriert. Ebenfalls stark: Kostenlos sind 25 Prompts pro Tag möglich und schon für 8 Dollar pro Monat ein starkes Pro Paket freigeschaltet. Ebenfalls stark: Das Generieren von Texten klappt hier mit hoher Treffsicherheit.

Screenshot: ideogram — Ideogram ist der Geheimtipp unter den Bildgeneratoren – mit starker Optik, einfacher Bedienung und sicherer Textgenerierung.

KI-Bilder, die laufen lernen

Der nächste Schritt nach per KI erzeugten digitalen Bildern sind Videos. Natürlich ist der Rechenaufwand und überhaupt der Aufwand für die KI ungleich höher. Entsprechend erzeugen aktuelle Video-Generatoren meist nur kurze bewegte Sequenzen von rund 4 Sekunden Länge.

Beim Marktführer in diesem Bereich Runway.ml ist es möglich auf Basis von Textinput oder hochgeladenen Bildern kurze Videosequenzen zu erzeugen. Neu ist der sogenannte Motion-Brush, mit dem auch das separate Animieren einzelner Bildbereiche möglich ist. Einfach über die zu animierenden Bildbereiche überpinseln und schon lernen sie laufen. Wie erwähnt, sind es nur ein paar Sekunden als Ergebnis, aber es ist schon ein magischer Moment, wenn zum ersten Mal ein hochgeladenes Bild zum Leben erweckt wird. Runway kann nicht nur direkt auf der Website bedient werden, es ist auch direkt in Layoutprogramme wie Canva integriert.

Screenshot: Canva Magic Media — Im Design-Tool Canva wird die Text-to-Video-Funktion mit der Technologie von Runway umgesetzt

Noch einen Schritt weiter will die Plattform Pika.art gehen. Pika will nicht nur längere Videos per Prompt generieren, es erlaubt auch Funktionen, die man von Photoshop mit generativen Funktionen bei Bildern kennt – etwa das Format eines Videos von 4:3 auf 16:9 umrechnen. Zudem sollen die User der noch im Beta-Stadium befindlichen Plattform mehr Kontrolle über die Animation der zu generierenden Videos erhalten – und längere Sequenzen erstellen können. Insgesamt wird es spannend, wie gut die Qualität mit Runway mithalten kann.

Pika Screenshot — Pika.art soll (bald) auch das separate Verändern von Elementen im Video und längere Sequenzen möglich machen

Fazit: KI-Bild-Generatoren werden Kreativität verändern

KI-Bild-Beneratoren stehen oft in der öffentlichen Wahrnehmung im Schatten von Large Language Models wie in GPT – haben aber tatsächlich eine unglaubliche Entwicklung hingelegt. In kürzester Zeit sind sie von einer Lachnummer zu Tools avanciert, die konservativen Fotograf:innen und Filmemacher:innen Angst einjagen. Progressive Kreative erkennen ihr Potenzial und nutzen die Tools schon heute, um Ideen schnell und ohne Budgeteinschränkungen umsetzen zu können. In puncto Qualität und Flexibilität werden die Tools sich KI-typisch exponentiell weiterentwickeln. So dürften längere KI-generierte Videos oder sogar Spielfilme bald möglich sein. Dann heißt es: Wer eine Idee hat, kann auch seine Geschichte verfilmen.

Möchtest du weiterhin investigative, inspirative und inhaltlich tiefgründige Fachartikel mit journalistischen Anspruch erhalten? Dann unterstütze mich dabei – jeder Beitrag, schon ab 1 Euro, ist eine wertvolle Hilfe, um die Zukunft von toushenne.de zu sichern.

via unterstützen

Stefan von Gagern

Stefan von Gagern arbeitet als Freelance Content Strategist und unterstützt B2B/B2C-Kunden wie Adobe, Amazon, Google, Enghouse, Sage, PayPal, konversionsKRAFT und Zavvy mit Content rund um Digitalisierung, Daten und Customer Experience. Komplizierte Themen aus dem Expertenjargon für die Zielgruppe einfach und lebendig zu machen, ist seine Spezialität – dass Content der wichtigste Motor für Kundenfreundlichkeit ist, sein Credo.