Copilot – Bilder und deren Beschreibung

Der Eiffelturm, aber wie war die Beschreibung?

Der Eiffelturm ist ja wirklich gut zu erkennen, aber ist das Bild auch so, wie es die Beschreibung gewünscht hat? Nein!

Gewünscht war ein Bild der Eifel, als typische deutsche Landschaft.

Wie kommt es zu diesem Fehler, der auch nicht durch Umformulieren zu beheben ist? Es liegt an den Daten, die der KI zugrunde liegen. Zum einen ist im Fall Dall-E, genau wie bei ChatGPT die Sprache englisch und andere Sprachen werden übersetzt, zum anderen werden auch die meisten Bild-Werke aus dem gleichen Sprachraum zugrunde liegen. Dall-E wurde in ChatGPT integriert und verwendet das gleiche Sprachsystem, zusätzlich verwendet ChatGPT die Daten der Suchmaschine Bing.

Das sagt die KI selbst dazu:

Copilot

Dall-E ist ein von OpenAI entwickeltes KI-System, das in der Lage ist, aus Textbeschreibungen 2D- und 3D-Bilder zu generieren. Hier sind einige Schlüsselaspekte, wie Dall-E funktioniert:

Text-zu-Bild-Kreation: Dall-E kann mithilfe von geschriebenen Anweisungen, sogenannten Prompts, Bilder kreieren. Je genauer die Textbeschreibung, desto präziser das Ergebnis.
Neuronales Netzwerk: Es verwendet ein komplexes neuronales Netzwerk, das mit einer Vielzahl von Bildern trainiert wurde, um neue Bilder zu generieren, die auf den Merkmalen und Mustern dieser Bilder basieren ¹.
Verbesserte Versionen: Dall-E 3 ist die neueste Version, die Textanfragen besser versteht und Bilder erzeugt, die genau dem eingetippten Text entsprechen ².
Integration mit ChatGPT: Dall-E 3 ist in ChatGPT integriert, was bedeutet, dass man es direkt im Gespräch mit ChatGPT nutzen kann, um Prompts zu verfeinern und bessere Ergebnisse zu erzielen ².

Diese Technologie wird in verschiedenen Bereichen wie Kunst, Architektur oder Design eingesetzt und ist besonders interessant für Designer und Kreative ³.

Weitere Informationen

1gruender.de 2chip.de 3praxistipps.chip.de 4praxistipps.chip.de