Christoph Burnicki

Künstliche Intelligenz im Unternehmen: Was du wissen musst, um mitreden zu können

Christoph Burnicki — Fri, 04 Apr 2025 14:38:20 GMT

Dieser Artikel richtet sich vor allem an Personen, die mehr darüber erfahren wollen, welche Möglichkeiten es gibt um KI im eigenen Unternehmen oder der eigenen Organisation einzusetzen. Der Text richtet sich an Personen, die an der Schnittstelle zwischen fachlichen und technischen Anforderungen arbeiten.

Du brauchst kein technisches Vorwissen, um dem Artikel zu folgen - aber am Ende solltest du in der Lage sein, mit Ingenieuren und Entwicklern fundiert über das Thema zu sprechen.

Hier lernst du:

Welche Möglichkeiten es gibt, KI-Systeme in Unternehmen und Organisationen sinnvoll einzusetzen.

Die wichtigsten Konzepte und Begriffe, um mit Fachleuten auf Augenhöhe kommunizieren zu können.

Den Unterschied zwischen offenen und geschlossenen KI-Systemen - und warum das für den Datenschutz entscheidend ist.
Wie man eine KI so steuert, dass sie sich an bestimmte Vorgaben hält.
Wie man KI-Systeme sicher mit Unternehmensdaten verknüpft, ohne die Datensicherheit zu gefährden.
Welche fertigen Lösungen dein Team nutzen kann, um leistungsfähige und sichere KI-Assistenten zu erstellen.
Welche Ressourcen dir helfen, KI-gestützte Workflow-Automatisierung erfolgreich zu implementieren.

Hier gehe ich vor allem auf das Thema Einsatz von KI ein. Für eine Erklärung darüber, wie KI grundlegend funktioniert, sowie der wichtigsten Grundbegriffe zum Thema KI allgemein, empfehle ich dir, vorher diesen Artikel zu lesen: Wie funktioniert Künstliche Intelligenz?

Wie können KI-Modelle in Firmen und Organisationen eingesetzt werden?

Viele Menschen nutzen bereits Tools wie ChatGPT für ihre tägliche Arbeit. Dies ist jedoch oft nicht unproblematisch: Datenschutzstandards werden häufig nicht eingehalten, wenn Inhalte über das Web an KI-Betreiber gesendet werden. Zudem ist die KI der Wahl oft nur sehr eingeschränkt hilfreich, da sie den Unternehmenskontext nicht kennt und beispielsweise keinen Zugriff auf (vertrauliche) Daten des Unternehmens oder der Organisation hat.

Hier soll zunächst vorgestellt werden, wie KI aktuell überhaupt in einem solchen vertraulichen Umfeld genutzt werden kann und welche Grenzen es (aktuell noch) gibt.

Offene Modelle und Datensicherheit

Geschlossene Modelle: Leistungsfähig und unkompliziert

KI-Anwendungen wie ChatGPT, die über das Internet erreichbar sind laufen auf Webservern. Also auf Computern (bzw. riesigen Rechenzentren), die im Besitzt oder unter der Kontrolle des Anbieters oder eines Partnerbetreibers stehen. Beispielsweise werden die meisten Anwendungen von OpenAI in einem Microsoft-Rechenzentrum ausgeführt.

Der Vorteil hiervon ist zum Einen, dass die Modelle automatisch aktualisiert und bereitgestellt werden. Der wichtigere Grund ist allerdings, dass für den Betrieb der meisten LLMs besonders spezielle und leistungsstarke Hardware erforderlich ist. ChatGPT wäre im Grunde auf keinem heimischen Rechner ausführbar, selbst wenn der Code dafür frei verfügbar wäre.

Das birgt allerdings auch einen Nachteil: Der Öffentlichkeit ist oft nicht bekannt, was mit den Daten passiert, die an eine solche KI auf einem fremden Webserver gesendet werden. Es ist allerdings davon auszugehen, dass der Betreiber die Daten zumindest speichert, auswertet und für weiteres Training nutzt.

Insbesondere für deutsche Unternehmen und Behörden, die sich an Datenschutzerklärungen halten müssen, stellt das ein großes Hindernis dar.

Offene Modelle: Kontrolle über Daten und Betriebsgeheimnisse

Eine weitere Sorge war anfangs, dass der enorme Ressourcenverbrauch von KI-Modellen bedeutet, dass deren Training und Ausführung in großen Rechenzentren quasi alternativlos ist. Mittlerweile wissen wir aber: Viele leistungsstarke Modelle lassen sich auch mit eigener Hardware betreiben, teilweise sogar auf Laptops.

Das erste offene Modell war eigentlich ein Unfall: Ein Datenleck beim Facebook Mutterkonzern Meta hat dazu geführt, dass das Model und die Gewichte, also das Ergebnis des aufwändigen Trainings, öffentlich zugänglich waren. Das Meta-Model namens Llama wurde umgehend Open Source (also als öffentlicher Quellcode) zur Verfügung gestellt. Open Source bedeutet, dass jeder den Programmiercode einsehen, anpassen oder weiterentwickeln kann.

Seitdem sind viele neue OpenSource Modelle veröffentlicht worden. Waren die Modelle anfangs noch recht langsam und fehleranfällig, können einige von ihnen heute fast mit den großen geschlossenen Modellen mithalten. Dadurch ist eine Entwicklung angestoßen worden, die dazu geführt hat, dass auch immer mehr Unternehmen ihre Modelle und Gewichte veröffentlichen, zuletzt z.B. auch das chinesische DeepSeek.

Datensicherheit und Einsatz offener Modelle

Mittlerweile gibt es eine Vielzahl offener Modelle, die sich frei aus dem Internet herunterladen und installieren lassen. Viele offene, relativ leistungsstarke LLMs lassen sich bereits auf einem modernen MacBook flüssig ausführen. Ist ein solches Modell auf der eigenen Hardware installiert, wird es vollständig dort ausgeführt. Es werden keine Daten mehr über das Internet versendet. Dies bietet Unternehmen und Organisationen die Möglichkeit KI zu nutzen ohne dass Daten den eigenen Rechner oder das eigene Rechenzentrum verlassen müssen.

Das wichtigste:

Geschlossenes Model (Closed Source): Ein Model bei dem der Quellcode (= Programmiercode) oder die Gewichte nicht öffentlich bekannt sind. Diese Modelle werden in Rechenzentren der Betreiber ausgeführt. Nutzer haben keine Hoheit über eingegebene Daten.
Offenes Model (Open Source) : Ein Model, bei dem sowohl der Quellcode als auch die Gewichte frei verfügbar sind. Offene Modelle können frei aus dem Internet heruntergeladen und auf eigenen Rechnern ausgeführt werden, ohne dass dabei Daten über das Internet versendet werden.
Sind Leistung und Intelligenz gefragt, sind offene Modelle in der Cloud häufig eine gute Wahl
Ist Datensicherheit ein Muss, kommt man an geschlossenen selbst-gehosteten Modellen kaum vorbei.
In der Praxis wird oft eine Mischung aus beiden eingesetzt

Wie kann eine KI für ein Unternehmen oder eine Organisation angepasst werden?

Grundsätzlich ist das Allgemeinwissen eines KI-Models über die Welt in dessen Parametern gespeichert, wie hier beschrieben.

Damit eine KI aber in einem Unternehmen oder einer Organisation sinnvoll eingesetzt werden kann, braucht sie meist zusätzlich spezifischen Kontext, Fachwissen oder Zugriff auf interne Informationen, Dokumente und Abläufe.

Es gibt verschiedene Möglichkeiten, das zu erreichen.

Mit der Systemprompt kann bestimmt werden, wie sich die KI verhält

Die Eingabe, die wir beispielsweise über ein Chat-Interface an eine KI senden, wird imm allgemeinen Prompt genannt. Genauer genommen handelt es sich hierbei allerdings um die User-Prompt, die nur einen kleinen Teil der finalen Prompt darstellt, die letztendlich an die KI gesendet wird.

Im Hintergrund wird die Benutzereingabe durch die sogenannte System-Prompt und Kontextinformationen ergänzt. Alles zusammen wird dann als finale Prompt in das Model gegeben.

Die System-Prompt ist für Nutzer meist unsichtbar und dient der grundlegenden Konfiguration der KI. Sie legt fest, in welchem Tonfall oder Format die KI antwortet und kann Informationen wie das aktuelle Datum oder das Cut-Off-Datum der Trainingsdaten enthalten. So wird z.B. versucht sicherzustellen, dass die KI keine Daten vorgibt, die sie nicht besitzt.

Bereits während des Trainings wird das System darauf optimiert, keine falschen oder gefährlichen Informationen auszugeben, nicht zu halluzinieren und sich respektvoll zu verhalten. Diese grundlegenden Weichenstellungen sind von Anfang an Teil des Trainingsprozesses.

Darüber hinaus kann die System-Prompt gezielt genutzt werden, um die KI beispielsweise anzuweisen, einen bestimmten Stil beizubehalten, einem festen Frage-Antwort-Schema zu folgen oder bei fehlenden Informationen Rückfragen zu stellen. Sie hilft auch, die KI auf ein bestimmtes Thema zu fokussieren und Ablenkungen zu vermeiden.

Beim Einsatz einer KI in der eigenen Organisation kann die Systemprompt nach Belieben vorgegeben werden.

Kontext-Informationen in der Prompt

Alle weiteren Informationen, die der KI zur Bearbeitung einer Anfrage zur Verfügung gestellt werden, müssen ebenfalls als Kontext in den finalen Prompt eingefügt werden. Dazu gehört z.B. die Chat-Historie, damit die KI den Gesprächsverlauf berücksichtigen kann.

Wenn die KI Fragen zu einem bestimmten Dokument beantworten soll, wird entweder das gesamte Dokument oder die relevanten Abschnitte als Klartext an die finale Eingabeaufforderung angehängt. Darüber hinaus wird das Modell in der System-Prompt häufig angewiesen, zur Beantwortung der Fragen keine Informationen heranzuziehen, die nicht explizit Teil des gegebenen Kontextes waren.

Kontext-Limitierung, Context-Window

Bei jeder einzelnen Anfrage wird die gesamte finale Prompt einschließlich des Kontextes vom KI-Modell verarbeitet. Aktuelle Modelle können jedoch nur eine begrenzte Menge an Kontextinformationen verarbeiten. Diese Begrenzung wird als Context-Window bezeichnet. Obwohl die Context-Windows neuerer Modelle immer größer werden, sind sie in der Regel zu klein, um komplette, umfangreiche Dokumente zu erfassen. Es ist daher nicht praktikabel, einfach alle internen Dokumente und Informationen in den Prompt-Kontext einzufügen und an das Modell zu senden. Außerdem würde eine zu große Datenmenge die Leistung der KI stark beeinträchtigen.

In der Praxis wird dieses Problem mit einem Ansatz namens RAG gelöst.

Was ist RAG?

Retrieval-Augmented Generation, kurz RAG, ist ein Ansatz um den aktuell kaum ein in einer Organisation eingesetztes KI-System drumherum kommt, wenn es in der Lage sein soll auf Informationen oder Dokumente der Organisation zuzugreifen.

In einem RAG-System werden für jede Anfrage an die KI zunächst relevante Informationen gesucht (retrieval). Anschließend wird die finale Prompt im Hintergrund um die gefundenen Informationen ergänzt (augmented) und eine Antwort der KI generiert (generation).

Mittlerweile gibt es leistungsfähige, fertige RAG-Systeme, die relativ einfach in Organisationen eingesetzt werden können um beispielsweise einen Chatbot zu implementieren, der Fragen zu Dokumenten und Daten des Unternehmens beantworten kann.

Wie gut RAG-Systeme in der Praxis funktionieren hängt allerdings von vielen Faktoren ab: Dem Format und der Komplexität der hinterlegten Dokumente, der Auswahl und Leistungsfähigkeit der eingesetzten offenen oder geschlossenen LLMs und einer Vielzahl von Konfigurationsparametern. Damit ein RAG-System zuverlässig gute Antworten liefern kann, bedarf es oft genauer Konfiguration und intensiver, umfangreicher Tests und Anpassungen.

Training und Fine-Tuning

Das grundlegende Training eines LLMs ist extrem komplex und bedarf enormer Ressourcen. Es wird daher in der Regel von darauf spezialisierten Unternehmen oder Organisationen wie OpenAI, Anthropic, Google oder DeepSeek unternommen.

Angepasst werden kann das LLM im Anschluss durch das sogenannte Fine-Tuning: Einer Art zweiten Trainingsrunde bei der weitaus weniger Ressourcen benötigt werden und das Verhalten des LLMs in bestimmten, Situationen angepasst werden kann.

Ein verbreiteter Irrglaube ist, dass ein LLM für den Einsatz in einem Unternehmen oder einer Organisation speziell dafür trainiert oder durch Fine-Tuning angepasst werden muss. In den allermeisten Fällen ist das nicht notwendig. Zum Einen sind leistungsfähige Models zu ambivalent, dass sie mittels passender Systemprompt bereits dazu bewegt werden können, sich auf eine bestimmte Art und Weise zu verhalten. Zum Anderen gibt es eine stetig wachsende Menge von KI-Modellen die bereits für die verschiedensten Zwecke angepasst wurden und von Organisationen genutzt werden können.

Fertige KI-Lösungen für den Einsatz in Unternehmen und Organisationen

Das Ökosystem rund um offene KI-Systeme wächst aktuell rasant und hier sollen kurz einige interessante Beispiellösungen vorgestellt werden, um einen Eindruck davon zu vermitteln, was bereits relativ problemlos machbar ist.

Open WebUI für eigene KI-Assistenten

Open WebUI ist eine ursprünglich von einem Studenten erdachten aber mittlerweile von einer großen Community entwickelte OpenSource-Platform für alle möglichen offenen und geschlossenen KI-Modelle.

Open WebUI ermöglicht es, beliebige offene oder geschlossene KI-Modelle als Basis zu verwenden und um nahezu jede denkbare Funktionalität zu erweitern. So können KI-Agenten erstellt werden, die genau auf bestimmte Aufgaben zugeschnitten sind. Durch die Integration von Werkzeugen wie Websuche, Daten- oder Bildanalyse und Zugriff auf Datenbanken kann das Basismodell gezielt ergänzt werden. Die fertigen Agenten stehen dann über eine benutzerfreundliche Oberfläche im Stil von ChatGPT zur Verfügung.

Bereits heute nutzen viele Menschen ChatGPT in ihrer täglichen Arbeit. Mit Open WebUI können Unternehmen ihren Mitarbeitenden eine ähnliche Lösung anbieten - entweder auf Basis der OpenAI-KI oder aus Datenschutzgründen als selbst gehostete Alternative. Dabei lässt sich das System individuell anpassen, so dass es nicht nur optimal auf den jeweiligen Aufgabenbereich abgestimmt ist, sondern auch gezielt auf unternehmensinterne Daten und Funktionen zugreifen kann.

Desweiteren stehen für Open WebUI bereits viele von der Community genutzte Tools und Models zur Verfügung.

Onyx für KI-gestützte Suche

Onyx ist ein weitere leistungsfähiges OpenSource-System mit dem sich KI-gestützt organisationsinterne Daten und Dokumente durchsuchen lassen. Allgemein lassen sich ähnlich wie mit der KI-Suchmaschine PerplexityAI unstrukturierte Fragen stellen, auf die das KI-System dann eine konkrete, auf den ausgewählten Inhalten beruhende Antwort liefert.

Ein Onyx-Assistent könnte beispielsweise in einer Behörde eingesetzt werden, um zu prüfen, ob eine Person mit bestimmten Merkmalen Anspruch auf bestimmte Leistungen hat. Dabei würde er die Frage gezielt beantworten und relevante Passagen aus hinterlegten Verordnungen oder Gesetzestexten zitieren, so dass die Antwort transparent und nachvollziehbar bleibt.

Im Hintergrund nutzt Onyx dazu das bereits vorgestellte RAG-System - allerdings in einer besonders ausgefeilten Form.

Dank verschiedener Adapter kann Onyx Daten aus den unterschiedlichsten Quellen innerhalb einer Organisation einlesen und indexieren, darunter Datenbanken, Google Drive, lokale Festplatten und vieles mehr. Ähnlich wie bei Open WebUI kann je nach Anforderungen an Performance und Datenschutz ein geeignetes internes oder externes KI-Modell ausgewählt werden, um spezifische Fragen zu den hinterlegten Dokumenten zu beantworten.

Während Onyx in der Praxis relativ einfach zu installieren und zu integrieren ist, erfordert die Auswahl geeigneter KI-Modelle, System-Prompts und die genaue Konfiguration des RAG-Systems je nach Art und Umfang der hinterlegten Daten eine kontinuierliche Optimierung.

Wie bei allen RAG-Systemen gilt: Sie liefern oft präzise Antworten, aber die Technologie ist noch jung - und Halluzinationen sind nach wie vor ein häufiges Problem. Daher sollten die in den Antworten zitierten Quellen immer sorgfältig geprüft werden!

KI-gestützte Workflow-Automatisierung

Viele Arbeitsabläufe können bereits heute ohne den Einsatz von KI automatisiert werden. Moderne KI-Modelle ermöglichen es aber auch, Aufgaben in Arbeitsprozessen zu automatisieren, die bisher als zu komplex galten - etwa weil sie keiner festen Regelstruktur folgen. Dazu gehören beispielsweise das Analysieren, Zusammenfassen oder Erstellen von E-Mails und Texten, das Vergleichen von Dokumenten, das Bewerten von Vorgängen oder das Skizzieren von Lösungen. Einfache Entscheidungsprozesse können inzwischen von KI-Agenten übernommen werden.

Viele Anbieter stellen Lösungen bereit, mit denen KI-gestützte Workflows flexibel zusammengestellt werden können. Dabei können bestehende Automatisierungen mit einer Vielzahl vordefinierter Werkzeuge und Prozessschritte kombiniert und durch KI-Agenten oder andere KI-gestützte Werkzeuge erweitert werden.

Viele No-Code-Tools ermöglichen Automatisierung ohne Programmierkenntnisse – wie beispielsweise AutomationAnywhere, Gumloop oder LindyAI. Komplexere Lösungen lassen sich direkt in bestehende Software integrieren – etwa mit dem deutschen Workflow-Automation-Tool N8N.

Wie funktioniert Künstliche Intelligenz?

Christoph Burnicki — Fri, 28 Feb 2025 06:20:37 GMT

Dieser Artikel bietet eine verständliche Einführung in die Welt der Künstlichen Intelligenz - ganz ohne technische oder mathematische Vorkenntnisse. Ich erkläre die grundlegenden Konzepte und wichtigsten Begriffe, damit du ein besseres Gefühl dafür bekommst, wie KI funktioniert. Und falls beim Lesen Fragen auftauchen: KI-Tools wie ChatGPT sind eine gute Möglichkeit, sich Dinge direkt und einfach erklären zu lassen.

Was ist der Unterschied zwischen KI und klassischer Software?

Klassische Software wird dort eingesetzt, wo klare Regeln in ein Programm geschrieben werden können. Beispiel Flugbuchung: Nach Eingabe von Abflug- und Zielort wird die Datenbank nach Angeboten durchsucht. Hat der Passagier einen Flug ausgewählt, seine Daten eingegeben und bezahlt, wird die Buchung durchgeführt und eine E-Mail verschickt. In der Realität ist eine solche Buchung natürlich wesentlich komplexer. Aber: Sie folgt einem klaren Muster, das Programmierer*innen in eine Software schreiben können. Wir wollen uns außerdem darauf verlassen können, dass wir genau verstehen, was bei einer Buchung unter welchen Umständen genau passiert.

Es gibt aber auch Aufgaben für einen Computer, bei denen es viel schwieriger ist, klare Regeln zu definieren. Ein einfaches Beispiel: Das Programm soll entscheiden, ob auf einem Bild eine Katze zu sehen ist oder nicht. Für den Menschen ist das eine einfache Aufgabe. Der Computer sieht aber zunächst nur eine lange Reihe von Millionen Bildpunkten in verschiedenen Farben, die er nacheinander abarbeitet. Wie soll er anhand einzelner Regeln entscheiden, ob diese Punkte in ihrer Gesamtheit eine Katze darstellen? Noch komplizierter wird es, wenn wir den Computer ganz allgemein fragen wollen, was auf dem Bild zu sehen ist. Hier gibt es unzählige Möglichkeiten!

Wie funktioniert eine KI?

In der folgenden Grafik ist sehr vereinfacht dargestellt, wie eine KI entscheidet, was auf einem Bild zu sehen ist: Die verschiedenfarbigen Bildpunkte sind als Kugeln dargestellt, die ein Labyrinth aus Hindernissen durchlaufen. Die Hindernisse sind so angeordnet, dass die Bildpunkte die bei Katzenbildern häufiger zu finden sind, rechts herausfallen, wohingegen solche, die bei Katzenbildern weniger häufig auftreten, links herausfallen. Am Ende muss der Computer nur die beiden Kugelhaufen vergleichen um zu bewerten ob es sich bei dem Bild wahrscheinlich um eine Katze handelt oder nicht.

In der Realität ist ein solches KI-Modell natürlich etwas komplexer: Statt ein Labyrinth mit verschieden großen Hindernissen zu durchlaufen, werden die Eingangsdaten in eine große, mathematische Rechnung gegeben, in der sie hintereinander mit einer großen Menge verschiedener Zahlenwerte multipliziert werden.
Die Rechnung selbst, das sogenannte Model (aus dem Englischen) ist ein vergleichsweise einfaches, von Menschen geschriebenes Computerprogramm. In dem Bild oben entspräche das Model etwa einem einfachen Brett mit vielen Steckplätzen, an denen die verschiedenen Hindernisse angebracht werden können. Entscheidend dafür, dass die KI richtig funktioniert ist die Größe und genaue Anordnung der Hindernisse in diesen Steckplätzen. Diese werden nicht vom Menschen festgelegt, sondern durch ein Training von der KI gelernt, dazu gleich mehr. In einem echten KI-Modell gibt es statt etlicher unterschiedlich großer Hindernisse eine riesige Anzahl unterschiedlich großer Zahlenwerte, die sogenannten Gewichte (Weights) oder Parameter des Modells, die durch das Training bestimmt werden. In einer echten KI gibt es von diesen Zahlenwerten (bzw. Hindernissen) meist einige Millionen bis hin zu Billiarden.

Die Hindernisse und ihre Position und Größe sind eigentlich Zahlenwerte, mit denen die Eingangsdaten multipliziert werden um am Ende einen Wert zu erhalten, der auf eine Katze hindeutet (z.B. näher an einer Eins) oder darauf, dass es keine Katze ist (z.B. näher an der Null). Die Kugeln, die sich durch das Labyrinth bewegen und klassifiziert werden, repräsentieren auch nicht immer nur einzelne Bildpunkte, sondern z.B. auch Gruppen von Bildpunkten, Abstände zwischen bestimmten Punkten oder eine Vielzahl anderer abstrakter Eigenschaften des Bildes.

In einem echten Model werden auch nicht nur einzelne Bildpunkte durch das Model verarbeitet, sondern beispielsweise auch Gruppen von Bildpunkten, Abstände zwischen Bildpunkten und eine Vielzahl anderer abstrakter Eigenschaften des Bildes. Anschaulich hätten die Kugeln selbst also unterschiedliche Formen und Größen, die zusätzlich einen Einfluss auf den Output des Models hätten.

Eine KI besteht also im Wesentlichen aus zwei Bestandteilen:

Dem Model: Einem einfachen von Menschen geschriebenen Computerprogramm.
Den Model-Parametern (und Gewichten)*, einer gigantischen Menge von Zahlenwerten, die im Training erlernt* werden müssen und dann in das Model eingesetzt werden.

Wie wird eine KI trainiert?

Die Magie einer KI liegt also in ihren Parametern. Eine Kombination aus Milliarden von Zahlenwerten, die alle Entscheidungsregeln der KI enthalten, die für Menschen zu kompliziert zu verstehen oder zu definieren sind. Stellen wir uns im obigen Bild vor, das Labyrinth bestünde aus Milliarden verschiedener, aber genau ausgewählter Hindernisse, die darüber entscheiden, welchen Weg die Kugeln nehmen. Ein Blick auf dieses Labyrinth reicht nicht aus, um das Verhalten des Modells zu verstehen. Wie es genau funktioniert, kann man nur herausfinden, wenn man am Anfang viele Kugeln hineinwirft und dann beobachtet, wo sie am Ende wieder herauskommen.

Genau nach diesem Prinzip läuft auch das Training ab: Eine KI wird trainiert, indem sie mit einer großen Menge an Trainingsdaten versorgt wird. Im Beispiel der Bilderkennung von Katzen erhält die KI viele Bilder von Katzen und allen möglichen anderen Dingen zusammen mit der Information, ob eine Katze darauf zu sehen ist oder nicht. Anfangs trifft das Model zufällige Entscheidungen, aber durch einen Lernprozess wird es immer besser. Jedes Bild wird vom Model verarbeitet und das Ergebnis mit der richtigen Antwort verglichen. Wenn das Model Fehler macht, werden seine internen Parameter durch einen mathematischen Optimierungsprozess geringfügig angepasst.

Dieser Prozess wird Millionen oder sogar Milliarden Mal wiederholt, bis das Model zuverlässig richtige Vorhersagen trifft. Dieser Prozess ist extrem rechenintensiv und erfordert für leistungsfähige KI-Modelle riesige Rechenzentren und sehr spezielle Hardware. Daher sind in der Regel nur große Unternehmen und Organisationen in der Lage, eine KI von Grund auf zu trainieren.

In der Praxis wird jedoch nicht jede KI von Grund auf neu trainiert. So ist es zum Beispiel möglich, aus leistungsfähigen Bilderkennungsmodellen bestimmte Teile zu extrahieren und in speziellere Modelle einzufügen, so dass diese nicht mehr von Grund auf neu trainiert werden müssen. Auch beim Training von Sprachmodellen ist dies üblich: Es gibt so genannte Foundation-Models, die von großen Unternehmen trainiert werden und dann mit deutlich weniger zusätzlichem Training, dem so genannten Fine-Tuning, an speziellere Anwendungsbereiche angepasst werden können.

Unsupervised Training und Reinforcement Learning

Bisher haben wir eine Art des Trainings betrachtet, bei der die KI anhand von Trainingsdaten lernt, die von Menschen erstellt wurden - zum Beispiel Bilder mit beschreibenden Texten. Dieses Verfahren wird als supervised Training bezeichnet. Oft ist es aber eine andere Trainingsmethode, die einer KI den entscheidenden Intelligenzsprung ermöglicht: das Unsupervised Training. Dabei werden keine klassischen, von Menschen kuratierten Trainingsdaten mehr benötigt - stattdessen lernt die KI aus unstrukturierten Daten.

Eine weitere Art des autonomen Lernen ist das Reinforcement Learning. Ein bekanntes Beispiel hierfür ist AlphaGo Zero, eine KI, die für das Spiel Go entwickelt wurde. Ihr Vorgänger AlphaGo wurde noch mit menschlichen Spieldaten trainiert und konnte bereits Weltklassespieler wie Lee Sedol schlagen. AlphaGo Zero ging aber noch einen Schritt weiter: Es nutzte Reinforcement Learning, eine Methode, bei der die KI nur durch Spiele gegen sich selbst lernt. Ohne menschliche Spieldaten wurde sie innerhalb kürzester Zeit besser als alle menschlichen Go-Spieler und sogar besser als ihr Vorgänger AlphaGo.

Viele Experten gehen davon aus, dass auch die generative KI in Zukunft in der Lage sein wird, sich selbstständig zu verbessern, indem sie ihre eigene Leistung analysiert und bewertet. Erste Ansätze gibt es bereits, z.B. durch Reasoning Models (mehr dazu weiter unten), die ihr eigenes „Denken“ reflektieren können. Allerdings sind heutige Modelle noch nicht vollständig in der Lage, sich selbst zu trainieren oder zu optimieren .

Generative KI und Sprachmodelle

Bei der KI, die wir bisher kennengelernt haben handelt es sich um klassifizierende KI. Sie wird schon seit Jahrzehnten eingesetzt und der Begriff “Intelligenz” wurde in der Vergangenheit eher vorsichtig eingesetzt, weil die Technologie oft eher als eine Art statistisches Optimierungsverfahren gilt.

Generative KI ist komplexer und geht einen Schritt weiter: Auch hier bekommt das Model einen Input: Meist ist dieser ein Text, die sogenannte Prompt. Auch diese KI produziert anhand des Inputs und gelernter Parameter ein Ergebnis. Während das Ergebnis bei klassifizierender KI für dieselben Eingaben immer identisch ist, nutzen generative Modelle oft Wahrscheinlichkeitsberechnungen oder eine Zufallskomponente, um variierende, neu generierte Ergebnisse zu erzeugen.

Im obigen Bild ist zu sehen, wie eine Reihe von sogenannten Input-Tokens (“Hallo”, “wie”, und “geht’s”) das Model durchlaufen und am Ende eine Reihe Output-Tokens (“Danke”, “mir”, “geht’s” und “gut”) generiert werden. Tokens stellen die Grundbestandteile unserer Sprache dar. Sie können z.B. einzelne Worte, Teile von Worten oder auch einzelne Buchstaben sein.

Dieser Ansatz klingt zunächst erstmal nicht nach sonderlich viel Intelligenz und in der Praxis waren die Ergebnisse lange Zeit auch nicht besonders beeindruckend.

Das änderte sich, als Google im Jahr 2017 das sogenannte Transformer Model vorstellte, das zum Beispiel erstaunlich gut darin war Texte zu übersetzen, also aus der Eingabe eines Textes in einer Sprache einen Text in einer anderen Sprache zu generieren. Diese Transformer-Modelle sind eine komplexere Weiterentwicklung generativer Sprachmodelle, bei denen es einen eingebauten Aufmerksamkeitsmechranismus gibt. Sie basieren letztendlich aber immer noch auf dem Prinzip, dass aus gelernten Daten und zufälligen Einflüssen neue Daten generiert werden. Bis heute sind Transformer-Modelle die Grundlage aktueller KI.

OpenAI hat mit ChatGPT (GPT steht für Generative Pre-trained Transformer) zwar nicht die Transformer-Architektur erfunden. Der Geniestreich bestand aber darin, ein besonders mächtiges Model besonders gekonnt zu trainieren und es dem ganzen Internet in Form eines Chats zur Verfügung zu stellen. Die ständigen Konversationen mit Menschen ermöglichten es dem Model dabei auch immer besser zu werden.

Das Chat-Format ermöglichte nicht nur einen viel einfacheren Zugang zu den Modellen. Die Möglichkeit mit einer KI eine Konversation zu führen, führte auch dazu, dass schnell vermutet wurde, dass diese Modelle möglicherweise zu einer Art komplexen Denken in der Lage sein könnten.

Nicht alle generativen Modelle sind Sprachmodelle. Beispielsweise werden in der Biologie generative Modelle benutzt um neue Molekülstrukturen zu entdecken.

Large Language Models (LLMs)

Large Language Models gehören zu den generativen KI, da sie Sprache generieren. Beispiele hierfür sind OpenAI’s GPT-Modelle oder Anthropic’s Claude Modelle. Sie wurden anhand riesiger Mengen menschlicher Sprache und Programmiercode trainiert und sind deshalb exzellent im Umgang mit natürlicher Sprache und Programmiersprachen. LLMs sind aktuell auch die Modelle, von denen angenommen wird, dass sie zu intelligenten Schlussfolgerungen fähig sind.

Reasoning Models

Eine der neuesten und mächtigsten Entwicklungen in der KI sind Reasoning Modelle. Klassische Sprachmodelle produzieren einen Output, haben aber keine Möglichkeit, diesen zu überprüfen. Bei Reasoning Models wird der Output in das Model zurückgegeben, so dass es die Möglichkeit hat, diesen selbst zu überprüfen. So kann es in mehreren Runden eines Denkprozesses sicherstellen, dass die Antwort Sinn macht. Die Entwicklung von Reasoning-Modellen bedeutete beispielsweise eine wesentliche Verbesserung in einem Bereich, der bisher für KI-Modelle schwer zu beherrschen war: das mathematische Denken. In einem Reasoning Model kann die KI ihre eigenen Antworten und Rechenschritte kritisch überprüfen und verbessern.

Diffusion Models für die Audio-, Bild- und Videogenerierung

Diffusion Models werden genutzt, um Bild-, Video- oder Audiomaterial zu erzeugen. Am einfachsten lässt sich das mit der Bilderzeugung erklären: Die KI startet mit einem Bild, das nur aus zufälligem Rauschen besteht – ähnlich wie ein verschwommenes Foto. In vielen kleinen Schritten entfernt sie gezielt das Rauschen und rekonstruiert dabei immer mehr Details, bis schließlich ein fertiges Bild entsteht. Dabei entscheidet das Modell auf Basis seiner trainierten Parameter, welche Bildpunkte am wahrscheinlichsten zum eingegebenen Prompt passen.

Diffusion Models werden aber für viele weitere generative Zwecke genutzt, beispielsweise in der Biologie um Baupläne für neue Moleküle zu erzeugen.

Multimodale Modelle

Multi-Models vereinen mehrere Funktionen in einem Modell. Einige Models von OpenAI, Anthropic oder anderer Anbieter sind nicht nur in der Lage Sprache zu verstehen und zu generieren, sondern können beispielsweise auch Bild- und Audiodaten verarbeiten und erzeugen. Dies ist in vielen Anwendungsfällen besonders praktisch, z.B. wenn das Modell ein Diagramm auswerten soll.

Was “wissen” Sprachmodelle und wo ist dieses Wissen gespeichert?

Fragt man eine KI wie ChatGPT nach etwas, antwortet sie selbstbewusst. Mittlerweile sind die Antworten auch meist richtig. Sogenannte Halluzinationen, bei denen das System einfach oder nur schwer erkennbare Unwahrheiten als faktisches Wissen präsentiert, sind seltener geworden, kommen aber immer noch vor.

Wo aber ist all dieses Wissen gespeichert? Man würde vielleicht annehmen, dass die KI auf eine riesige Datenbank zugreift, in der alles gespeichert ist: Wer der 40. Präsident der Vereinigten Staaten war, woran man einen Leoparden von einen Geparden unterscheidet, oder wie man einen guten Pizzateig zubereitet. Die Menge möglicher Fragen ist schier unendlich und die KI hat immer eine Antwort (richtig oder falsch).

Das Wissen der KI ist in den Parametern gespeichert

Tatsächlich steckt all dieses Wissen in den Parametern, bzw. Gewichten des Models, also in einer (gigantisch großen) Menge von Zahlenwerten. Aber wie kann das sein?

Der Blick auf das obige Bild mit den Murmeln hilft, das Prinzip zu verstehen: Durch die komplexe Anordnung der Hindernisse, die die Parameter des Modells darstellen, wird für jeden Input mit einer gewissen Wahrscheinlichkeit ein gewisser Output produziert: Enthält die Eingabe beispielsweise die Token “40”, “President” und “USA”, so wird das Modell mit hoher Wahrscheinlichkeit eine Antwort produzieren, die die Token “Ronald” und “Reagan” enthält.

Allerdings ist auf diese Antworten nicht immer Verlass: Wenn bereits in den Trainingsdaten Fehler enthalten sind (ein sogenannter Bias), dann ist auch die Wahrscheinlichkeit hoch, dass das Model später falsch liegt. Grundsätzlich gilt: Je spezifischer und ungenau die Frage, desto weniger verlässlich ist die Antwort. Insbesondere bei Fragen nach konkreten Zahlenwerten, Jahreszahlen oder anderen faktischen Größen ist die Gefahr von Halluzinationen groß. Und wie das Murmelmodell zeigt, wird die KI immer eine Antwort produzieren, auch wenn sie das Ergebnis faktisch nicht kennt.

Wer dennoch KI einsetzen will, um Faktenwissen abzufragen, sollte eine Anwendung wählen, die im Hintergrund tatsächlich auf das Internet zugreift und Quellen zitiert, z.B. Perplexity AI.

Die wichtigsten Begriffe

Künstliche Intelligenz (KI): Bezeichnet im allgemeinen Softwaresysteme, bei denen die Ausführungslogik nicht von Menschen festgelegt, sondern durch die Software selbst anhand von Trainingsdaten erlernt wird.
Model: Das (oft relativ einfache), von Menschen geschriebene Computerprogramm, in das die gelernten Gewichte und Parameter gegeben werden. Das Model verrechnet den Input mit den Parametern und erzeugt so einen Output. Zusammen mit den Parametern stellt es die KI dar.
Gewichte und Parameter: Eine riesige Anzahl (oft Milliarden) von Zahlenwerten, die aufwändig durch ein Training bestimmt und angepasst werden und das Verhalten des KI-Models bestimmen
Training: Der rechenintensive Prozess, in dem die Model-Parameter und Gewichte bestimmt werden.
Pre-Training und Foundation Model: Ein grundlegendes Training das zum Ziel hat, grundlegende Modelle zu erstellen, die dann weiter verfeinert werden können.
Fine-Tuning: Ein weniger aufwändiger Trainingsprozess, bei dem das Verhalten bereits trainierter Modelle weiter angepasst wird.
Prompt: Die Eingabe, die ein generatives KI-Modell nutzt, um eine Ausgabe (z.B. eine Antwort oder ein Bild) zu erzeugen.
Input-Token und Output Token: Die kleinsten Bestandteile einer Prompt oder Antwort, die von der KI verarbeitet werden. Token können beispielsweise einzelne Wörter, Teile von Worten oder auch Buchstaben sein.
Klassifizierende KI: KI-Modelle, die trainiert sind um einordnende Entscheidungen zu treffen. Sie werden beispielsweise zur Bildanalyse in der Medizin genutzt: Ist auf einem Bild ein Tumor zu sehen oder nicht?
Generative KI: Modelle, die genutzt werden um neuen Output zu generieren, z.B. Chat-Antworten, Übersetzungen oder in der Biologie auch Beschreibungen von langen Molekülketten.
Sprachmodelle und Large Language Models (LLMs): Generative Modelle, die speziell für die Generierung von Sprache entwickelt und trainiert wurden (menschliche Sprache, aber auch Programmiersprachen).
Multimodale Modelle: KI-Modelle, die mehrere Typen von Daten und Medien verarbeiten oder generieren können (z.B. aus einer Audionachricht ein Bild generieren können).
Reasoning Models: Modelle, die nicht nur einfache Antworten generieren, sondern auch ihr eigenes Denken reflektieren können.