Die Zukunft ist jetzt: ChatGPT beherrscht nach wie vor die Schlagzeilen. Die Technologie der Open AI-Allzweckwaffe gehört zu einem aufstrebenden Zweig der Künstlichen Intelligenz, der Generativen Künstlichen Intelligenz. Dabei handelt es sich um Algorithmen zur Erzeugung von Text, Audio, Bildern, Videos, Simulationen und Computercodes. Wie funktioniert die Technologie, über die alle sprechen und welche konkurrierende Produkte gibt es auf dem Markt?
Willkommen im Zeitalter von maschinellen Texten, Bildern, Fotos, Musik und Videos. Spätestens jetzt mit dem Hype und der Verfügbarkeit von ChatGPT haben wir Zugang zu einer Fülle an digitalen Inhalten, die von künstlichen Intelligenzen erstellt werden. Von automatisierten Textgeneratoren bis hin zu künstlicher Intelligenz, die in der Lage ist, realistische Bilder, Musik und Videos zu erzeugen, gibt es eine Vielzahl von Technologien, die unser kreatives Potenzial erweitern. Es ist eine aufregende Zeit, in der die Grenzen zwischen dem, was von Menschen und was von Maschinen geschaffen wird, langsam verschwimmen.
ChatGPT und der synthetische Inhalt
Generative KI verwendet hierfür Techniken der künstlichen Intelligenz, die als maschinelles Lernen und Deep Learning bezeichnet werden, um Inhalte auf der Grundlage statistischer Vorhersagen von Wörtern, Tönen, Bildern und Videos zu erzeugen. Sie wird generativ genannt, weil sie etwas schafft, was vorher nicht existierte, von einfachen Befehlen in natürlicher Sprache wie „Zeichne ein Bild von einem Haus“ oder „Schreibe einen Text über ein kontroverses Thema“ bis hin zur Entwicklung eines Computercodes. Generative KI entwickelt Antworten auf der Grundlage von Statistiken und Wahrscheinlichkeiten, die aus einem riesigen Datenkorpus gelernt wurden, auf dem sie trainiert wurde.
Das wichtigste Ergebnis der generativen KI sind die sogenannten synthetischen Daten oder Inhalte, die von Maschinen (Anwendungen) in der digitalen Welt erzeugt werden. Dabei handelt es sich um Text-, Bild-, Audio- und Videoinhalte, die mit Hilfe statistischer Verfahren und aus den Eingabedaten gelernter Muster aus bereits vorhandenen Daten generiert werden. Eine generative KI-Anwendung kann darauf trainiert worden sein, Tausende von Artikeln über Politik zu lesen, um neue Fragen zu diesem Thema stellen oder beantworten zu können. Eine andere Anwendung kann aus der Assoziation von Datenpaaren mit Text und Bild impressionistische Gemälde erstellen, nachdem sie mit Hunderten von Bildern impressionistischer Maler trainiert wurde. Das Endergebnis der Generierung synthetischer Inhalte ist im Idealfall so gut, dass wir – je nach Reifegrad der Anwendung – nicht unterscheiden können, ob es von Maschinen oder Menschen produziert wurde.
Generative KI und ihre Anwendungsgebiete
Das alles macht generative KI zu einem ultimativen Werkzeug, das in den verschiedensten Szenarien eingesetzt werden kann. Sie kann unterschiedliche Inhalte produzieren, wie beispielsweise:
Texte: Artikel, Gedichte, Nachrichten, Skripte, Präsentationen, Übersetzungen, Computercode
Bilder: Landschaften, Gesichter, Gemälde, Avatare, virtuelle Umgebungen, Videos
Audio: Musik, Soundeffekte, Voiceover, Konvertierung von Videos oder Audio in Text
Befehle über Prompts
Das Spannende dabei ist die Tatsache, dass Produkte der Generativen Künstlichen Intelligenz Antworten auf Fragen geben, die der Nutzer an einen Computer-Prompt stellt, also einer leeren Zeile, um die Fragen zu erhalten, ähnlich wie bei Chatbots. Nutzer können Anwendungen wie ChatGPT bitten, einen Produkttext zu schreiben, oder DALL-E, ein passendes Bild zu generieren.
ChatGPT, könntest du einen Artikel über ein kontroverses Thema schreiben?
DALL-E, könntest du ein impressionistisches Gemälde über die Umwelt anfertigen?
Problemfelder
ChatGPT, der neu veröffentlichte Chatbot von Open AI, hat seit seiner Einführung immense Popularität erlangt, zeigt aber wo noch große Probleme mit der Technologie herrschen. Der Chatbot kann zwar verschiedene Aufgaben ausführen, wie das Schreiben von Texten, das Beantworten von Fragen, das Erstellen von Aufsätzen oder das Übersetzen von Texten usw. Doch wie jede andere Anwendung hat auch ChatGPT einige Einschränkungen. Jene EInschränkungen gelten sicherlich nicht für jede Anwendung der generativen KI.
1. ChatGPT kann nicht auf das Internet zugreifen
ChatGPT kann sich nicht mit dem Internet verbinden. Das bedeutet, dass es seinen Benutzern keine Echtzeitinformationen zur Verfügung stellen kann. Wenn Nutzer ChatGPT zum Beispiel nach der Wettervorhersage oder dem aktuellen Goldpreis fragen, kann es keine genauen Daten liefern. Diese spezielle KI ist daher aktuell kein Ersatz für die großen Suchmaschinen.
2. Es kann unsinnige Daten produzieren
ChatGPT kann wie ein Mensch interagieren, aber macht oftmals eklatante Fehler. Der Chatbot antwortet nur auf Fragen, die direkt und wie im System definiert sind. Manchmal wird die Antwort irrelevant und unsinnig sein. Anwender müssen also auf ungenaue Ergebnisse vorbereit sein, wenn sie den Chatbot benutzen.
3. Es bietet keine detaillierten Informationen
ChatGPT kann zwar auf fast alle Fragen antworten, aber es wurde beobachtet, dass er oftmals keine detaillierten, sondern generische Informationen liefert. Es gibt kurze Antworten oder eine Zusammenfassung des Themas.
4. Es fehlt an Ausdrücken
ChatGPT kann Fragen beantworten, aber oftmals nicht so ausdrucksstark, wie es ein schreib-versierter Mensch tun würden. Der Chatbot ist eine Maschine und verfügt über keine ausdrucksstarke Sprache.
5. Deepfake-Videos
Ein weiteres Beispiel für den Einsatz von generativer AI ist die Erstellung von Deepfake-Videos. Damit hat ChatGPT aktuell noch recht wenig zu tun, andere Softwares sind hier schon seit Längerem umtriebig. Diese Deepfake-Videos werden ebenfalls mithilfe von generativer AI erstellt und können dazu verwendet werden, Personen zu verleumden oder fehlerhafte Informationen zu verbreiten. Es besteht die Gefahr, dass diese Technologie missbraucht wird, um politische Desinformation und andere schädliche Inhalte zu verbreiten.
Wie geschieht dies? Dazu werden generative AI-Modelle, wie zum Beispiel GANs (Generative Adversarial Networks), für die Deepfake-Video-Produktion erstellt. Der Prozess der Erstellung eines Deepfake-Videos beginnt in der Regel mit der Auswahl von Daten, die als Trainingsdaten für das GAN-Modell verwendet werden. Diese Daten können aus einer Vielzahl von Quellen stammen, einschließlich vorhandener Videos und Fotos der betroffenen Personen. Das GAN-Modell wird dann darauf trainiert, diese Daten zu analysieren und neue Bilder oder Videos zu generieren, die den Personen ähnlich sehen. Ein typisches GAN-Modell besteht aus zwei Komponenten: einem Generator und einem Diskriminator. Der Generator erstellt neue Bilder oder Videos, während der Diskriminator diese Bilder oder Videos darauf überprüft, ob sie realistisch genug aussehen. Das Modell wird solange trainiert, bis der Diskriminator nicht mehr zwischen den generierten Bildern oder Videos und realen Aufnahmen unterscheiden kann. Deepfake-Videos haben in der Vergangenheit Besorgnis erregt, da sie dazu verwendet werden können, um Personen zu schaden.
Was sind die gängigsten Tools der generativen KI?
Derzeit schießen KI-Produkte reihenweise aus dem Boden. Neben den großen Big Tech-Konzernen springen auch andere Unternehmen auf den Zug auf und bringen, zum Großteil auf der Schnitstelle von GPT aufbauend, eigene Produkte auf den Markt. it-daily.net stellt einige davon vor:
ChatGPT
ChatGPT-4 ist die verbesserte Version des bekannten Chatbot-Systems ChatGPT, das auf dem bahnbrechenden GPT-4-Modell basiert. Das GPT-4-Modell ist eine Weiterentwicklung des GPT-3-Modells und bietet eine höhere Genauigkeit und bessere Leistung im Bereich der natürlichen Sprachverarbeitung.
ChatGPT-4 ist ein fortschrittliches System, das auf maschinellem Lernen und künstlicher Intelligenz basiert und in der Lage ist, menschenähnliche Konversationen zu führen. Es kann eine Vielzahl von Aufgaben erledigen, wie z.B. Fragen beantworten, Empfehlungen geben, Smalltalk führen und sogar komplexe Aufgaben wie Übersetzungen und Spracherkennung durchführen.
Die Verbesserungen von ChatGPT-4 umfassen eine verbesserte Kontextualisierung, eine höhere Fähigkeit, Sprache zu verstehen, sowie eine verbesserte Fähigkeit, auf Eingaben zu reagieren. Diese Verbesserungen machen ChatGPT-4 zu einem der fortschrittlichsten Chatbot-Systeme auf dem Markt.
ChatGPT-4 bietet auch eine bessere Personalisierung und Anpassung an den Benutzer. Es kann auf individuelle Vorlieben und Interessen eingehen und somit ein noch natürlicheres Gesprächsverhalten erreichen. Außerdem kann es aufgrund seines verbesserten Modells und seiner höheren Leistungsfähigkeit eine größere Bandbreite an Themen und Konversationen abdecken.
Bard wurde am 6. Februar von Sundar Pichai, CEO von Google und Alphabet, vorgestellt. Der KI-Chatdienst basiert auf Googles Sprachmodell für Dialoganwendungen (LaMDA), das vor zwei Jahren vorgestellt wurde. LaMDA basiert wiederum auf Transformer, Googles neuronaler Netzwerkarchitektur, die das Unternehmen 2017 entwickelt und veröffentlicht hat.
Die erste Version von Bard verwendet eine leichtgewichtige Modellversion von LaMDA, da diese weniger Rechenleistung benötigt und für mehr Nutzer skaliert werden kann. Zusätzlich zu LaMDA wird Bard auf alle Informationen aus dem Internet zurückgreifen, um Antworten zu liefern.
Googles Bard hatte einen holprigen Start, da eine Demo ungenaue Informationen über das James Webb Space Telescope (JWST) lieferte.
Google Bard greift auf Informationen aus dem Internet zurück, um die neuesten Antworten zu liefern. Dies verschafft ihm einen Vorteil gegenüber Chat-GPT, dessen Datenbestand nur bis 2021 reicht.
Anwender können sich jetzt anmelden, um in ausgewählten Ländern frühzeitig Zugang zu Google Bard AI zu erhalten. Google hat sich noch nicht zu seinen Plänen geäußert, Bard in die Suchmaschine des Unternehmens zu integrieren, aber das Unternehmen plant, neue KI-gestützte Funktionen in die Google-Suche zu integrieren.
Chatsonic ist eine der neuesten und ziemlich weitreichenden ChatGPT-Alternativen, die in letzter Zeit die Runde gemacht hat. Es wurde auf ChatGPT aufgebaut und erbt daher dessen großes Potenzial. Dieser KI-Chatbot verfügt jedoch über mehr Funktionen und ein breiteres Wissen, da er auf das Internet zugreifen kann – etwas, was ChatGPT noch nicht kann.
Die Fähigkeit, Antworten auf der Grundlage von Internet-Ergebnissen auszugeben, gibt Chatsonic die Möglichkeit, korrekte Informationen zu verbreiten, was es etwas weniger fehleranfällig macht. Der KI-Chatbot erinnert sich auch an Unterhaltungen und greift auf diese zurück, um den Gesprächsfluss fortzusetzen. Er verfügt sogar über 16 verschiedene Personas, vom Buchhalter bis zum Dichter, für den Fall, dass der Anwender sich mit verschiedenen Personen unterhalten möchten.
Jasper ist bereits seit einiger Zeit im Bereich der KI-Inhaltserstellung tätig und wird von den Nutzern gut angenommen. Neben den Funktionen zur Erstellung von Inhalten und anderen Diensten bietet Jasper jedoch auch einen relativ neuen Chatbot an. Diese ChatGPT-Alternative mit dem Namen Jasper Chat basiert ebenfalls auf GPT, verfügt über weitere Sprachmodelle und hat OpenAI als Partner. Im Gegensatz zu ChatGPT, das tatsächlich von jedermann genutzt werden kann, wurde JasperChat jedoch für Unternehmen, die auf Werbung, Marketing und dergleichen spezialisiert sind, entwickelt.
Perplexity AI ist eine ChatGPT-Alternative, die ebenfalls auf der API von OpenAI trainiert wurde und als solche gute Antworten liefert. Die Website selbst ist minimalistisch verpackt und einfach zu bedienen. Das Tool bietet eine ChatGPT-ähnliche Funktionalität, einschließlich der Möglichkeit, Unterhaltungen zu führen und einfache bis differenzierte Antworten zu geben. Im Gegensatz zu ChatGPT gibt Perplexity jedoch die Quellen an, die es zur Beantwortung Ihrer Fragen verwendet.
Auch Grammarly, der beliebte Rechtschreib- und Grammatikprüfer, wirft seinen Hut in den Ring der generativen KI. Anfang März kündigte das Unternehmen für Kommunikationshilfen GrammarlyGO an, ein neues Tool, das das Modell der künstlichen Intelligenz von ChatGPT zur Generierung von Texten nutzt. Mit GrammarlyGO können Benutzer innerhalb der Anwendungen, in denen sie arbeiten, Dokumente entwerfen, E-Mails verfassen und beantworten, Texte auf Tonfall, Klarheit und Länge bearbeiten und Konzepte oder Skizzen für ein Projekt entwerfen. Laut der Ankündigung stützt sich GrammarlyGO auf „persönlichen, organisatorischen und situativen Kontext“, um Vorschläge für den eigenen Schreibstil und Kommunikation zu machen.
KI-Bildgeneratoren
Generative Bild-KIs sind eine weitere spannende Entwicklung im Bereich der künstlichen Intelligenz. Diese Technologie ermöglicht es Computern, komplexe Bilder und visuelle Inhalte zu erstellen, die im Idealfall von menschlichen Designern kaum zu unterscheiden sind.
Im Kern nutzt auch die Generative Bild-KI ein sogenanntes neuronales Netzwerk, das auf maschinellem Lernen basiert. Dieses Netzwerk ist in der Lage, aus einer Vielzahl von Bilddaten zu lernen und Muster zu erkennen, umselbständig zu reproduzieren und zu erweitern.
Einer der wichtigsten Anwendungsbereiche der Generative Bild-KI ist die Erstellung von Kunstwerken. Künstler und Designer nutzen diese Technologie, um komplexe und ansprechende Bilder zu erstellen, die von der KI selbst entworfen wurden. Auch im Bereich der Medienproduktion wird Generative Bild-KI zunehmend eingesetzt. Hier können Medienunternehmen mithilfe von KI-Systemen Bilder und Grafiken erstellen, die eine höhere Qualität und Komplexität aufweisen als manuelle Designs. Darüber hinaus können Unternehmen mithilfe von Generative Bild-KI auch automatisierte Bildgenerierungslösungen entwickeln, die es ihnen ermöglichen, große Mengen an Bildern in kurzer Zeit zu erstellen.
Welche KI-Bildgeneratoren gibt es?
Was mit Wörtern und Texten gelingt, klappt auch mit Bildern. Viele KI-Bildgeneratoren sind zwar teilweise noch unausgereift, können aber auch mit den richtigen Befehlen ansprechende Ergebnisse erzielen.
Das sind die bekanntesten KI-Bildgeneratoren:
MidJourney ist ein bekannter Generative Bild-KI-Generator, der von dem digitalen Künstler Mike Tyka entwickelt wurde. Diese Technologie verwendet ein sogenanntes Conditional GAN, das in der Lage ist, Bilder auf der Grundlage von bestimmten Parametern und Bedingungen zu generieren. MidJourney ist bekannt für seine Fähigkeit, abstrakte und surrealistische Bilder zu erstellen, die oft eine stark narrative Komponente aufweisen. Die Technologie nutzt auch eine spezielle Technik namens „Deep Dreaming“, die es ermöglicht, Bilder aus einer Vielzahl von Quellen und Einflüssen zu generieren. MidJourney wurde in zahlreichen Kunstausstellungen und -veranstaltungen gezeigt und hat auch in der Welt der Mode und der Werbung Anwendung gefunden. Für die Anwendung benötigen Nutzer allerdings die Instant Messaging Social Platform Discord.
DALL-E ist eine der bekannesten Generative Bild-KIs, die von OpenAI entwickelt wurde. Im Gegensatz zu anderen Bildgeneratoren kann DALL-E jedoch nicht nur Bilder generieren, sondern auch Text in Bilder umwandeln. DALL-E verwendet ein GAN-Netzwerk, das aus Textbeschreibungen lernt und dann in der Lage ist, Bilder zu erstellen, die diese Beschreibungen widerspiegeln.
DreamStudio (Stable Diffusion)
Im Gegensatz zu DALL-E 2 und Midjourney ist Stable Diffusion Open Source. Das bedeutet, dass jeder, der über die erforderlichen technischen Kenntnisse verfügt, es herunterladen und lokal auf seinem eigenen Computer ausführen kann. Es bedeutet auch, dass Anwender das Modell für bestimmte Zwecke trainieren und feinabstimmen können. Fast alle Dienste, die künstliche Intelligenz zur Erstellung von künstlerischen Porträts, historischen Porträts, architektonischen Renderings und vielem mehr einsetzen, verwenden Stable Diffusion auf diese Weise.
Stable Diffusion ist aber auch in einer leistungsstarken öffentlichen Anwendung namens DreamStudio verfügbar, die von den Entwicklern von Stability AI entwickelt wurde. DreamStudio gibt eine enorme Kontrolle über die verschiedenen Aspekte der Bilderstellung mit AI. Bei der Eingabe der Eingabeaufforderung gibt es Schieberegler, mit denen bestimmt werden kann, wie groß das endgültige Bild ist, wie genau es der Eingabeaufforderung entspricht, wie viele Schritte das Diffusionsmodell benötigt und wie viele Bilder erzeugt werden.
Ein Blick in die Zukunft
Generative künstliche Intelligenz hat in den letzten Jahren erstaunliche Fortschritte gemacht und wird auch in Zukunft eine immer größere Rolle spielen. Wir können davon ausgehen, dass in den kommenden Jahren generative KI-Technologien weiter verbessert werden, um noch menschenähnlicher zu sein. Dazu gehört auch eine bessere Kontrolle über die Ausgabe von generativen Modellen, um sicherzustellen, dass die generierten Ergebnisse sicher, fair und ethisch vertretbar sind.
Ein weiterer wichtiger Fortschritt wird die Fähigkeit der generativen KI sein, verschiedene Arten von Daten wie Text, Audio und Bilder zu kombinieren, um noch leistungsfähigere Modelle zu schaffen. Diese Modelle werden in der Lage sein, noch komplexere Aufgaben, wie beispielsweise die Erstellung von realistischen virtuellen Welten, zu bewältigen. Dazu beitragen wird sicherlich auch der Konkurrenzkampf zwischen den großen Tech-Unternehmen, die um die Vorherrschaft in der Entwicklung von generativer künstlicher Intelligenz kämpfen. Es ist zu erwarten, dass Unternehmen wie Google und Microsoft weiterhin große Investitionen in Forschung und Entwicklung tätigen werden, um immer fortschrittlichere Modelle zu schaffen. Gleichzeitig wird es auch Raum für kleinere Unternehmen geben, die auf Nischenanwendungen spezialisiert sind und ihre eigenen innovativen Lösungen entwickeln.