Wie erstelle ich diese Bilder?

In erster Linie möchte hier betonen, dass dies keine bezahlte Werbung darstellt.
Ich bekomme von keinen der genannten Firmen Geld oder werde sonst unterstützt. Das alles sind selbst erstellte private Arbeiten.

Ich nutze hier einige bekannte Programme wie z.B. Photoshop CS6 und Lightroom 6.14 und
„Set a Light 3D Studio“ unter anderem auch After Effects, Blender und Procreate.

Update Dezember 2023


Das ganze Prozedere wie ich nun Bilder erstelle, hat sich gerade 180 Grad gedreht. Ich nutze nicht mehr „Set a Light“ als Hauptool, weil es mich leider nicht mehr weiter bringt. Ich habe mich seit August 2022, mit der Erstellung von Bilder mit einer KI beschäftigt. Die ersten Ergebnisse waren nicht wirklich berauschend und auch nicht reif. Das hat sich mittlerweile schlagartig geändert. Ich würde sogar sagen, dass die Qualität der erstellten Bilder nun so weit ist, dass eine Erkennung, ob es sich um ein Foto oder doch ein gerendertes Bild handelt, nur noch sehr schwer erkennbar wird. Die KI tut sich mit Händen und Fingern leider sehr schwer. Was mittlerweile aber auch immer besser wird. Manchmal hat eine Figur plötzlich 6 oder 7 Finger. Oder der Arm verschwindet plötzlich am Hals. Das liegt aber dann an der unglaublichen Komplexität des Tools. Ich rede hier von StableDiffusion. Das ist das Tool schlecht hin für Bilderstellung/Retusche und andere fantastischen Dingen die man damit erstellen kann. Eine Retusche ala Photoshop ist damit Geschichte. Vorbei sind die Zeiten von Stempel und Clone Werkzeugen. https://de.wikipedia.org/wiki/Stable_Diffusion

Einen Erklärung wie das Tool funktioniert oder wie man es installiert, überlasse ich den Profis. Einfach danach im Netz suchen. Es gibt unglaublich viel Information mittlerweile im Netz dazu. In diesem Sinne, viel Spaß auf meiner Seite.

Der „Frauen-Cyborg“ wurde mit Stable Diffusion auf meinem Linux-System erstellt (Renderzeit ca.9 Min). Leider ist hierfür eine sehr schnelle Grafikkarte mit viel Speicher nötig, weil das System direkt am Rechner läuft. Es geht zwar auch mit kleineren bzw. älteren Grafikkarten, aber das dauert dann leider auch wie bei mir, dementsprechend lange. Die KI im allgemeinen kann aber noch mehr…Eine kleine Begrüßung des Cyborg gibt es hier. (demnächst hier mehr zum Thema) 🙂

Dies war noch der alte Ablauf über „Set a Light 3D“…

Die Schwebende Person (NEO) reflektiert sich z.B. in der Sonnenbrille von Morpheus. Stimmt das soweit, wird das Bild gerendert. Hier wird nur eine Vorschau angezeigt. Das Rendern dauert je nach Rechnerpower einige Minuten. Dieses Bild wird dann in meinem Fall in Lightroom geladen und dort werden die Kontraste, Tiefen, Klarheit, Dynamik, Sättigung und die Belichtung noch einmal bearbeitet.

Ist dies passiert, wird das Bild erneut exportiert. Diesmal in Photoshop.
Da mir die Hauttöne nicht immer passen, wird in PS weiter an den Farben gearbeitet. Der Vorteil ist hier, die unendliche Möglichkeit Layer über Layer zu legen und zu Multiplizieren oder andere Effekte mit einzubinden. Der Vorgang bis zum finalen Bild hatte dann schon mehrer Stunden gedauert.



Das fertige Bild in diesem Fall das 29. Bild im zweiten Buch in DIN A4 Größe.
In einem Buch werden die dunklen Bereiche oft zu dunkel gedruckt, deshalb habe ich
dieses Bild, dann auch etwas heller in der Software für das Buch gesetzt. Dies ist kein Fehler der Software, sondern eine Option die man setzten kann. Mit dem Ergebnis bin ich auch sehr zufrieden. Die Seiten sind sehr dick, fast eigentlich schon Karton Stärke.

Bücher Hardcover in DIN A4

Bis jetzt sind es schon 10 fertige Bücher, mit über 550 CGI-Bilder geworden. Das 11. Buch füllt sich langsam aber sicher.

Ich nutze jetzt meine erstellen Bilder, die ich mit dem traditionellen 3d Tool erstellte und übergebe diese Bilddaten an die KI und es kommen dann Fotos heraus, die einfach unglaublich sind.Die richtigen Einstellungen und der Prompt (txt2image) ist hier ausschlaggebend. Es kann genauso den Gesichtsausdruck, über einen Wert angegeben werden z.B. (smile.0.8). Hier gibt es nicht richtig oder falsch. Es muss einfach getestet werden ob das Bild passt, dass man so sehen möchte. Hat man ein Referenzbild erstellt, kann man dies nutzen und praktisch unendliche verschiedene Gesichter erstellen.

Auch wenn sie nicht 100% perfekt sind. Wirken die KI-Bilder doch schon realistischer als die ursprünglichen berechneten Bilder. Spaß mit der KI: Ich als Superheld…:-) Als Referenzbild für die KI erstellen Bilder, nutze ich nur ein einziges Bild von mir! Dieses Bild von mir hatte ich für die Berechnungen genutzt. Der Mund ist auf diesem Bild geschlossen, doch die KI macht auch ein Lächeln nicht unmöglich. Von den Haaren wollen wir erst garnicht anfangen…:-)))

Wie bei diesem Bild, dass ich anschließen in die KI exportiert habe, wurde ein Faceswap bei der Neuberechnung angewandt. Hier habe ich wiederum ein altes 3d Bild (geschlossenen Augen, offener Mund) das ich ursprünglich herkömmlich über Set a Light erstellt habe, um es dann auf die KI-Version zu rendern lassen. Dadurch ist dieses Bild absolut unrealistisch und nicht mit einer echten lebenden Person zu verwechseln, auch wenn es tatsächlich so wirkt.

Making of


Update Dezember 2023:

Im Moment nutze ich eine andere Möglichkeit, KI geränderte Bilder zu erzeugen.
Die Benutzeroberfläche, aber auch die Art und Weise wie man nun vorgeht, ist noch effektiver und schneller. Ich nutze ComfyUI in Verbindung mit Stable Diffusion (über Github) zu installieren. Diese GUI ist so effektiv und auch so komplex, dass man in der Tat erst einmal verstehen muss was hier passiert. Sie müssen sich vorstellen, sie haben eine Idee für ein Bild. Wie kann ich das einer KI vermitteln? Mit ComfyUI ist das möglich, in Echtzeit etwas zu skizzieren und (sofern die Grafikkarte schnell genug ist) dies auch fast in Echtzeit auf dem Bildschirm zu generieren. Das folgende Screenshot zeigt es deutlich:

Es ist eigentlich nicht zu glauben, dass die KI mein Gekritzel auch nur annähernd erkannt haben kann. Es müssen im Prompt erklärt werden was ich mit dem gekritzeltem Pizzagesicht sagen möchte. Das ganze geht im Moment bis 1024*1024. Optimal sind aber 512*512 Pixel.


Das ist aber kein Problem, weil es auch wiederum die Möglichkeit gibt das fertige Bild zu skalieren. Also nicht einfach hochziehen, weil dann würde es unscharf werden würde, sondern auf die Größe umzurechnen. Das dauert dann je nach Grafikkarte (GPU) 2-3 Minuten bis zu 30 Minuten! (CPU), aber dafür hat man dann ein Bild mit einer Kantenlänge von 2000*2000 Pixel. Die Qualität kann sich sehen lassen!


Dann fragte ich die KI nach der Möglichkeit, was wäre wenn Tesla auf dem Mars wäre. Wie würden denn die Autos auf dem Mars aussehen. Also skizzierte ich ein gekritzelte etwas mit einem passenden Prompt. Und heraus gekommen sind diese Auto, die von der KI dann in diversen Variationen hergestellt worden sind. Nur zum Verständnis, diese Bilder existieren so nicht!

(Die Bilder sind jetzt auch relativ stark komprimiert)

Update 27.12.2023

Das folgende Bild habe vor einigen Jahren traditionell mit einem 3d Programm (Set a Light 3d) erstellt. Dieses Bild habe ich StableDiffusion übergeben und analysieren lassen, wie die Figur auf diesem Bild positioniert ist.

Wenn die Vektoren über ControlNet so dargestellt werden wie im Bild unten, kann die KI aufgrund von Prompteingaben ein Bild erzeugen, dass eine Person erstellt, die dann die gleiche Pose einnehmen sollte. Bei der Darstellung sieht man, dass die Hand mit den Fingern nicht im ControlNet angezeigt wird. Könnte man natürlich, sieht man dann auch weiter unten was daraus resultiert.



Man sieht ganz klar, dass die KI nicht immer zu korrekten Ergebnissen führt. Selbst das letzte Bild bräuchte eine Nachbearbeitung der Position der Hand. Wenn man jetzt andere Bildgebende KIs mit dem gleichen Ausgangsbild füttert, kommen wieder ganz andere Fotos heraus. Beim den nächsten Bildern, habe ich DALL-E (unter ChatGPT) angefragt. Diese KI ist sehr eingeschränkt was das erstellen von Bildern betrifft. Zensur wird hier groß geschrieben. Natürlich für den Schutz… Die KI lernte und fischte Terabytes von Bilder aus dem Netz, die scheinbar auch einfach so verwerten worden sind. Diese Doppelmoral ist hier fehl am Platz. Je nachdem mit welchem Checkpoint man nutzt, kommen natürlich unterschiedliche Ergebnisse heraus. Comics, gerade auch im Manga-Stil sind stark vertreten. Seht selbst:

Oder auch im Comic-Stil (SFW-Version)

Thema ZENSUR ist bei allen Bildgebenden KI‘s Versionen die man als ABO mieten kann inklusive. Ich bin kein Freund davon. Da ich zwar ChatGPT4 mal zum testen gemietet hatte, konnte ich DALL-E hier inklusive mit nutzen. Aber mich hat diese Bildgebenden KI, bisher einfach nur Nerven gekostet. Wir werden mit Sicherheit keine Freunde mehr…

Freundlicherweise erstellte DALL-E mir ein ANTI-ZENSUR Bild…
Als die Stimme der Freiheit singt in chromatischen Wellen, wobei jedes Wort ein Farbton ist, der die Landschaft des Ausdrucks malt. Vielleicht sollte sich das DALL-E das zu Herzen nehmen…

Ich muss aufpassen, dass ich kein Schleudertrauma vom Kopfschütteln bekomme…Naja, lassen wir das.


Jedenfalls, hatte diesmal die KI einige ganz nette Bilder erzeugt. Weniger realistisch, aber künstlerich schon nett gemacht. Der dazugehörige Prompt sah so aus:
Eine stilvolle Frau in einer futuristischen Modeumgebung. Sie trägt einen schicken schwarzen, strukturierten Jumpsuit mit leuchtenden Mustern, die ihre Silhouette betonen. Ihr großer, eleganter Hut ist mit subtilen metallischen Akzenten versehen und ihre Sonnenbrille hat ein elegantes, modernes Design. Sie steht selbstbewusst da, mit einem zarten Hauch einer holografischen Blume auf ihrer Schulter, die dem Bild ein Sci-Fi-Element verleiht. Der Hintergrund ist eine raffinierte Mischung aus weichen Schatten und Licht, mit der Andeutung einer High-Tech-Stadtlandschaft weit hinter ihr. Die Gesamtfarben sollten einer schwarzen, beigen und roten Palette treu bleiben, um das hohe Konzept des Originalbildes beizubehalten und gleichzeitig kreative Erweiterungen einzuführen.“


Aber auch diese KI (DALL-E) kann keine Finger von Anfang an korrekt darzustellen. In StableDiffusion nimmt man dem „ADetailer“ und dann klappt das mit den Gliedmaßen. Nachdem ersten berechnen, überprüft die KI ob die Finger/Hände komplett sind und geht mit dem Tool über das gerenderte Bild und korrigiert dann falschen Werte. Bei StableDiffusion kann man auch sehr gut mit Styles arbeiten. (SDXL Styles)


Das bedeutet, dass ein und das gleiche Bild wird mit dem gleichen Seed, Modelhash, Sampler und Steps berechnet, haben aber alle unterschiedliche Kleidungsstile und andere Hintergründe die zum passenden Stil dann auch passen. (das ist nur eine sehr kleine Auswahl!) Es gibt hunderte von Stile, die man entweder über den Prompt direkt oder mit diversen Addons schafft. Dies erleichtert dann den Workflow ungemein. Ob man nun Automatic1111 oder ComfyUI als GUI nutzt ist einem selbst überlassen. Die Ergebnisse sind nicht schlechter, nur Möglichkeiten sind bei ComfyUI als GUI um Längen vielfältiger, aber für den Anfanger auch eventuell schwieriger. Wer Blender kennt und nutzt, kommt eher mit ComfyUI schneller besser zurecht.


Dann gibt es ganz aktuell eine App namens „SageBrush“ (Apfeluniversum). Mann musste sich für die Beta per Mail anmelden. Die App kann praktisch in Echtzeit, dass man auf dem iPad kritzelt, mit dem dazugehörigen Prompt ein passendes Bild erstellen. Hört sich spannend an. Die App selbst ist kostenlos, aber die Token, die man für das Bild braucht, werden einem natürlich in Rechnung gestellt. In diesem Fall 99 Cent für 225 Token, oder 4500 Token für 9.99€. Also für 99 Cent kann man nichts falsch machen. Wie sich das genau berechnet, kann ich nicht sagen, aber nach knapp 10 Minuten an Gekritzel, waren meine 225 Token verbraucht. Was verhältnismäßig schnell war. Die Ergebnisse waren für mich persönlich eher ernüchternd, wenn man sieht was die anderen Kandidaten können. Und dazu noch kostenlos!


Wenn ich jetzt diese App, die bei der Nutzung Geld kostet und ComfyUi miteinander vergleichen sollte, gibt es ein klaren Verlierer. Das Ergebnis ist nicht unbedingt das Problem, viel mehr die Zensur die einem schon nach den ersten Strichen entgegen springt. Ernsthaft jetzt? Dafür kann das Programm hier weniger. Die Restriktionen kommen aus dem Apfeluniversum. Immer wieder schön, wie man als erwachsener Mensch von diesen Systemen bevormundet wird. Halt die Fresse und zahle und wir sagen dir was du sehen darfst. Ganz speziell an das Apfeluniversum:

In einer Welt, wo Äpfel sprechen könnten,
sagt die Zensur: „Nur süß, kein Ferment!“
„Zahlt für die Freiheit“, lacht sie versteckt,
„Doch Fresse halten“, wird strengstens gecheckt.

Die Bevormundung sitzt in jedem Biss,
versüßt die Wahrheit, bis sie vergessen ist.
Ein Apfel pro Tag, Arzt bleibt fern,
doch bei der Wahrheit, da bleibt sie gern.

In diesem Sinne:

Kleiner Nachtrag…DALL-E hat massiv Probleme Texte auf Deutsch zu erstellen. Also das gibt Punktabzug in der B-Note!


Viel Spaß weiterhin auf meiner Page.
Wünscht euch Mario Palestini