Die heimlichen Schwächen von KI: Wenn Bilder nicht "echt" sind

Die Stolpersteine moderner Künstlicher Intelligenz beim Generieren von Bildern – ein genauer Blick auf die Probleme, welche KI haben, wenn sie Bilder erzeugen. Dabei sind vor allem die Trainingsdaten entscheidend. Trainingsdaten sind spezifische Datenmengen, die genutzt werden, um eine künstliche Intelligenz (KI) in ihrer Aufgabe zu schulen. Sie dienen als Lehrbuch für die Maschine, damit sie versteht, welche Muster und Eigenschaften in verschiedenen Situationen auftreten.

Wenn eine KI zum Beispiel darauf trainiert wird, Bilder zu generieren, verwendet man eine große Sammlung von Bildern als Trainingsdaten. Durch das Studieren dieser Bilder lernt die KI, wie verschiedene Objekte aussehen, welche Farben sie haben und wie Licht und Schatten interagieren. Je besser und vielfältiger die Trainingsdaten sind, desto besser kann die KI verschiedene Bildszenarien nachbilden. Wenn die Trainingsdaten jedoch eingeschränkt oder von schlechter Qualität sind, kann dies zu fehlerhaften oder unrealistischen Bildern führen.

Trainingsdaten sind also der Grundstein für die Leistungsfähigkeit einer KI. Sie liefern das notwendige Wissen, damit die KI ihre Aufgaben erfüllen und qualitativ hochwertige Ergebnisse liefern kann. Bei der Bildgenerierung beeinflusst die Qualität der Trainingsdaten direkt, wie authentisch und überzeugend die von der KI erzeugten Bilder sind. Dennoch gibt es wiederkehrende Indizien, anhand derer künstlich generierte Bilder erkannt werden können!

Das Paradoxon der unrealistischen Texturen

Künstliche Intelligenzen, geprägt durch immense Datenmengen und Algorithmen, entwickeln oft ein eigenwilliges Verständnis von Texturen und Mustern. Dies führt dazu, dass sie Bildkompositionen hervorbringen, die in der realen Welt kaum denkbar wären. Stellen Sie sich beispielsweise einen Dalmatiner vor, dessen charakteristische Punkte nicht rund sind, sondern eckig wie Quadrate.

Oder ein Flussbett, bei dem das fließende Wasser anmutet wie grob gewebte Wolle. Solche Abbildungen verdeutlichen, wie KIs den künstlerischen Raum neu interpretieren. Dabei ist es nicht immer leicht zu entscheiden, ob es sich um einen Ausdruck von innovativer Kreativität oder um eine Überoptimierung der Maschine handelt. Diese verschwimmenden Linien zwischen Realität und KI-Kreation können den Betrachter oft in fasziniertes Staunen versetzen.

Licht und Schatten im Chaos

In der Bildkunst geben Licht und Schatten den Bildern Leben. Sie vermitteln Gefühl, setzen Akzente und schaffen Perspektive. Doch künstliche Intelligenzen, trotz ihrer Fähigkeit, komplexe Visualisierungen zu generieren, zeigen in dieser Hinsicht bemerkenswerte Schwächen. Betrachten Sie etwa einen von KI generierten Sonnenuntergang:

Die Helligkeit des Himmels mag faszinieren, doch Schatten und Licht könnten seltsamerweise inkonsistent wirken. Wenn Schatten in die falsche Richtung fallen oder die Lichtquelle offensichtlich fehlplatziert ist, kann das die Authentizität eines Bildes erheblich beeinträchtigen. Anstelle eines realistischen Eindrucks erzeugen diese Details eine unpassende und manchmal unwirkliche Atmosphäre. Es wirkt, als würde die KI mit den Grundregeln der Lichtphysik spielen und dabei Bilder produzieren, die eher einer Traumwelt als unserer realen Umgebung entsprechen. Es offenbart, dass KIs, so fortgeschritten sie auch sein mögen, immer noch Mühe haben, die subtilen Nuancen und Regeln der natürlichen Welt korrekt zu interpretieren.

Unvorhergesehene Fusionen

In den unschuldigen Geisteswelten von Kindern kann die Vorstellung eines Elefanten, der mit den schimmernden Flügeln eines Schmetterlings ausgestattet ist, durchaus Sinn ergeben. Es ist ein Produkt purer Fantasie, wo das Unmögliche möglich wird und jedes zusammengesetzte Bild seinen eigenen Zauber besitzt.

Doch wenn solche Vorstellungen in die Hände künstlicher Intelligenz geraten, werden sie oft auf unerwartete Weise visualisiert. Die KI, die von Daten und Algorithmen angetrieben wird, generiert solche Zusammensetzungen ohne Rücksicht auf natürliche Gegebenheiten oder Kontext. Während für uns Menschen solche Fusionen Geschichten und Emotionen hervorrufen können, fehlt der KI dieser tiefgreifende Sinn. Das Endprodukt sind oft Bilder, die zwar detailgetreu sind, aber seltsam anmuten und von der Maschinenlogik zeugen, die sie hervorgebracht hat. Es handelt sich um eine seltsame Mischung, die zeigt, wie weit KI von einem echten Verständnis unserer Welt und unserer Vorstellungen entfernt ist. Es ist ein eindrückliches Beispiel dafür, dass reine Rechenkraft nicht immer zu sinnvollen oder verständlichen Ergebnissen führt.

Lesen Sie auch > Ist es eine Straftat, eine "Compact"-Zeitschrift zu besitzen?

Kontextuelle Kapriolen

Die natürliche Welt ordnet ihre Bewohner in sorgfältig abgestimmte Ökosysteme ein, wobei jedes Lebewesen einen bestimmten Platz in seiner Umgebung einnimmt. Im Kontrast dazu scheinen künstliche Intelligenzen, die mit der Fähigkeit ausgestattet sind, Unmengen von Bildinformationen zu verarbeiten, manchmal ihre Orientierung zu verlieren. Das Ergebnis? Ein Wal, der sich scheinbar verirrt und inmitten einer Wüstenlandschaft auftaucht oder Pinguine, die untypischerweise auf tropischen Baumästen Platz genommen haben.

Während diese digitalen Kreationen auf den ersten Blick beeindrucken können, offenbaren sie auch ein fundamentales Manko in der Verarbeitungsweise der KI. Obwohl die Technik dahinter in der Lage ist, Details mit Präzision darzustellen, mangelt es ihr an einem tieferen Verständnis für den Kontext und die natürlichen Beziehungen in der Umwelt. Diese Bilder, die eher an Fehler als an künstlerische Absicht erinnern, wirken oft deplatziert und surreal. Es zeigt sich, dass trotz ihrer Rechenkraft und ihrem analytischen Potenzial KIs immer noch Schwierigkeiten haben, die Komplexität und Nuancen der realen Welt vollständig zu erfassen.

Der Fall der verlorenen Körperteile

Innerhalb der Bilder, die von künstlichen Intelligenzen geschaffen werden, begegnen uns mitunter Darstellungen, die das menschliche Auge als unvollständig oder unproportional wahrnimmt. Ein häufiges Problem sind Figuren, deren Körperteile fehlen oder die in ihrer Proportionierung stark von dem abweichen, was wir als „normal“ ansehen würden. Es kann vorkommen, dass eine generierte Figur plötzlich ohne Augen dargestellt wird, was in der menschlichen Wahrnehmung zu einem beunruhigenden Eindruck führen kann. Ebenso sind Arme, die scheinbar ohne Ziel und Zweck in der Luft enden, nicht selten in von KI erzeugten Bildern zu finden.

Solche Darstellungen sind nicht bloß zufällige Ausrutscher oder kreative Abweichungen. Sie sind vielmehr Indikatoren für die Herausforderungen, mit denen KI-Systeme bei der Bildgenerierung konfrontiert sind. Das Fehlen von Körperteilen oder die falsche Anordnung derselben spiegelt die Schwierigkeiten wider, welche die Algorithmen bei der Interpretation und Synthese von komplexen, menschlichen oder lebensähnlichen Formen haben. Es ist ein eindrucksvoller Hinweis darauf, dass, trotz der beeindruckenden Fortschritte im Bereich der künstlichen Intelligenz, Algorithmen immer noch Schwierigkeiten haben, die Feinheiten und Nuancen zu erfassen, die in der natürlichen Welt und in der menschlichen Wahrnehmung verankert sind. Es betont, wie komplex und herausfordernd die Aufgabe ist, wirklichkeitsgetreue und fehlerfreie Darstellungen zu erschaffen, selbst für die fortschrittlichsten KI-Modelle.

Das Echo der Duplikate

Wenn es um die Erstellung von Bildern geht, haben künstliche Intelligenzsysteme ihre eigenen, oft vorhersehbaren Eigenheiten. Trotz ihres enormen Datensatzgedächtnisses und ihrer Rechenkapazität tendieren diese Systeme dazu, bestimmte Strukturen und Muster wiederholt zu verwenden. Das kann dazu führen, dass in unterschiedlichen Bildern ähnliche oder sogar identische Muster auftreten, die dem Betrachter vertraut vorkommen. Dieser Mangel an Vielfalt und Neuartigkeit kann das Gefühl eines Déjà-vus hervorrufen, bei dem man das Gefühl hat, das Gleiche schon einmal gesehen zu haben.

Lesen Sie auch > Kamala Harris und das Kokosnuss-Emoji: Ein Social Media Trend

Dieses Wiederholungsverhalten ist nicht nur eine Eigenheit oder Macke, sondern ein Ausdruck der Art und Weise, wie diese Algorithmen trainiert werden und arbeiten. KI-Modelle ziehen ihre „Inspiration“ aus den Daten, mit denen sie trainiert wurden. Wenn in diesen Daten bestimmte Muster oder Strukturen dominieren, wird die KI dazu neigen, diese Muster in ihren Kreationen zu favorisieren. Das kann dazu führen, dass das kreative Potential, das man sich von solchen fortschrittlichen Technologien erhofft, durch wiederholte und übermäßig vertraute Darstellungen eingeschränkt wird.

In praktischer Hinsicht bedeutet dies, dass trotz der schieren Menge an Bildern, die eine KI generieren kann, nicht notwendigerweise eine gleichwertige Vielfalt oder Originalität in den Ergebnissen gewährleistet ist. Es wirft auch Fragen nach der Qualität und Vielseitigkeit der Trainingsdaten auf, die zur Formung und Steuerung der kreativen Fähigkeiten der KI verwendet werden. Es ist ein lebendiger Beweis dafür, dass die Fähigkeiten einer KI, egal wie fortgeschritten sie auch sein mag, immer noch durch die Qualität und Diversität der Daten, mit denen sie gefüttert wird, begrenzt sind.

Ein verschwommenes Dilemma

In der Kunst ist Unschärfe oder das bewusste Auslassen von Details oft ein gezieltes Stilmittel, das vom Künstler eingesetzt wird, um bestimmte Emotionen hervorzurufen, den Fokus auf bestimmte Bereiche des Bildes zu lenken oder einfach eine bestimmte Ästhetik zu vermitteln. Künstler nutzen diese Technik, um dem Betrachter Spielraum für Interpretationen zu lassen oder eine bestimmte Stimmung zu erzeugen.

In den Produkten der künstlichen Intelligenz hingegen entsteht Unschärfe oft nicht durch eine bewusste Entscheidung. Stattdessen kann sie das Ergebnis von Limitierungen in den Algorithmen oder den zugrunde liegenden Daten sein. Während ein unscharfes Bild in der menschlichen Kunst das Produkt einer Absicht sein kann, deutet es in der von KI erzeugten Kunst häufig auf ein Problem im Generierungsprozess hin.

Ein unscharfes oder detailarmes Bild, das von einer KI erzeugt wurde, kann verschiedene Ursachen haben. Es könnte beispielsweise sein, dass der Algorithmus nicht über genügend Informationen verfügt, um ein bestimmtes Detail korrekt darzustellen. Oder der Algorithmus hat Schwierigkeiten, zwischen verschiedenen möglichen Darstellungen eines Objekts oder einer Szene zu entscheiden und wählt daher einen „Mittelweg“, der zu einer unscharfen Darstellung führt.

Solche Unschärfen oder das Fehlen von Details können den Wert eines Bildes erheblich mindern. In einer Welt, in der fotorealistische Darstellungen oft das angestrebte Ideal sind, kann ein unscharfes oder detailarmes Bild schnell als minderwertig oder fehlerhaft wahrgenommen werden. Es stellt sich die Frage, wie KI-Entwickler und KI-Künstler mit diesem Problem umgehen und ob zukünftige Generationen von KI-Algorithmen in der Lage sein werden, solche Makel zu überwinden.

Anatomische Anomalien: Lange Finger, gebogene Beine

Die Darstellung menschlicher Gliedmaßen, insbesondere von komplexen Strukturen wie Fingern, ist für KI-Systeme, die Bilder generieren, eine echte Herausforderung. Ein Hauptgrund dafür ist die inhärente Komplexität von Form und Bewegung unserer Hände und Finger. Die menschliche Hand kann eine unglaubliche Vielfalt von Positionen und Haltungen einnehmen, und dieses Spektrum an Bewegungen korrekt in einem generierten Bild einzufangen, erfordert ein tiefes Verständnis und eine umfangreiche Datenmenge.

Hinzu kommt, dass KI-Modelle aus den Daten lernen, die ihnen zur Verfügung stehen. Sollte eine Datenbank, mit der das Modell trainiert wurde, nur unzureichende oder unscharfe Bilder von Händen und Fingern enthalten, wird die KI wahrscheinlich Schwierigkeiten haben, sie korrekt wiederzugeben. Und dann gibt es noch das Phänomen der Übergeneralisierung: Anstatt eine spezifische Handhaltung oder Struktur zu lernen, könnte die KI versucht sein, eine Art „Durchschnittshand“ oder „Durchschnittsfinger“ zu erzeugen. Dabei kombiniert sie oft Elemente aus verschiedenen Bildern, was zu unrealistischen oder verzerrten Darstellungen führen kann.

Lesen Sie auch > OpenAI's SearchGPT: Angriff auf Googles Suchmaschinenmonopol

Kleinere Details, wie die in Fingern und ihren Gelenken, können auch in der KI-Bildgenerierung verloren gehen, insbesondere wenn das Modell nicht über die erforderliche Auflösung oder den notwendigen Detailgrad verfügt. Wenn der Prozess der Bildgenerierung dann beginnt, arbeiten diese Systeme oft schrittweise, wobei sie das Bild nach und nach aufbauen. Ein kleiner Fehler zu Beginn kann sich im Laufe dieses Prozesses vergrößern, was letztendlich zu deutlicheren Verzerrungen oder „gezogenen“ Darstellungen führt.

Dennoch ist zu erwarten, dass mit der Weiterentwicklung von KI-Technologien und besseren Trainingsdaten solche Probleme in Zukunft minimiert werden.

Genau hingeschaut, KI verstehen!

Künstliche Intelligenz-Systeme eröffnen neue Horizonte in der Bildgestaltung. Sie sind in der Lage, komplexe Landschaften zu erstellen, Porträts zu gestalten oder sogar ganz neue Kunstformen zu erzeugen. Ein erster Blick auf diese KI-generierten Bilder könnte den Betrachter zur Annahme verleiten, dass sie von einem menschlichen Künstler stammen könnten, so authentisch und detailliert wirken sie oft.

Aber genau hier beginnt das Paradoxon. Die Fähigkeit der KI, ein Bild zu konstruieren, basiert nicht auf Empfindung, Erfahrung oder Intuition, wie es bei einem menschlichen Künstler der Fall wäre, sondern auf Algorithmen, Datenmengen und maschinellem Lernen. Und obwohl diese Algorithmen fähig sind, unglaublich komplexe Aufgaben zu bewältigen, fehlt ihnen die Fähigkeit, das „Ganze“ im Kontext zu sehen oder die ungeschriebenen und oft subtilen Regeln der Kunst und Ästhetik zu interpretieren.

Das Ergebnis? Während viele Bilder, die von KI-Systemen erzeugt werden, auf den ersten Blick makellos erscheinen mögen, offenbaren sie bei genauerem Hinsehen oft merkwürdige Anomalien. Ein Charakter könnte unnatürlich proportionierte Gliedmaßen haben, ein Landschaftsbild könnte Elemente in einem unpassenden Kontext zeigen, oder Licht und Schatten könnten in einer Weise dargestellt werden, die physikalischen Gesetzen widerspricht.

Diese kleinen Unstimmigkeiten und Abweichungen sind mehr als nur einfache Fehler. Sie bieten Einblicke in die Arbeitsweise von KI-Systemen und legen die mechanischen und algorithmischen Prozesse offen, die hinter solchen Kunstwerken stehen. Es wird deutlich, dass trotz aller Fortschritte in der KI-Technologie, das Erzeugen von Kunst – sei es visuell, musikalisch oder literarisch – eine komplexe Angelegenheit bleibt, die sowohl Wissenschaft als auch Intuition erfordert. Während KI-Systeme die Welt der Kunst und Fotografie erweitern und bereichern können, mahnen diese kleinen Unvollkommenheiten und Inkonsistenzen zur Vorsicht und erinnern uns daran, stets wachsam und kritisch gegenüber dem zu bleiben, was uns diese Technologien präsentieren.

Mimikama.education kann durch gezielte Vorträge und Workshops Medienkompetenz vermitteln. Dabei können verschiedene Zielgruppen wie Schüler_innen, Lehrer_innen und Eltern erreicht und sensibilisiert werden.

Wie funktionieren Suchmaschinen? Wie kann ich Bilder suchen lassen? Diese Techniken sind besonders hilfreich, um Fakes, Hoaxes oder gefährliche Falschmeldungen zu entlarven.

NEU! Geoguessing-Workshops bei Mimikama! Verwandeln Sie die Wahrheitssuche in ein packendes Abenteuer mit unserem Geoguessing-Workshop!

Sehr spannend! Windkraft: Fakten entlarven CO₂-Mythen

Zur Startseite

Anmeldung zum Mimikama-Newsletter

Hinweise: 1) Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur Auseinandersetzung der Sache mit dem Thema.
2) Einzelne Beiträge entstanden durch den Einsatz von maschineller Hilfe und wurde vor der Publikation gewissenhaft von der Mimikama-Redaktion kontrolliert. (Begründung)