1.2 KI-Agenten · KI ePortfolio

Worum geht’s

Bis hierhin hat das Modul „KI” als eine Sammlung von Verfahren betrachtet — Suchen, Schließen, Lernen. Dieses Kapitel dreht die Perspektive um und fragt nicht was rechnet die KI, sondern wer handelt. Der Agent ist die Klammer, unter der sich all diese Verfahren einordnen lassen: etwas, das eine Umgebung über Sensoren wahrnimmt und über Aktuatoren auf sie zurückwirkt. Ein Suchalgorithmus, ein Schachprogramm, ein Thermostat, ein Sprachmodell mit Werkzeugzugriff — sie alle sind Agenten, sobald man sie in dieser Schleife aus Wahrnehmen und Handeln liest.

Mich überzeugt an diesem Rahmen, dass er den Anspruch radikal verschiebt. Die spannende Frage ist nicht „denkt die Maschine?”, sondern „handelt sie vernünftig?” — tut sie, gemessen an einem klaren Maßstab, das jeweils Beste mit dem, was sie weiß. Diese Verschiebung ist die Grundlage, auf der das ganze Modul steht, und sie führt in einer geraden Linie bis zu den LLM-Agenten von Kapitel 1.3, die nichts anderes sind als eine besonders mächtige Realisierung derselben Schleife.

Kernkonzepte

Die Agent-Umgebung-Schleife

Die Folien fassen den Agenten als „rationaler autonomer Agent” — ein (natürliches oder künstliches) Wesen, das seine Umwelt permanent wahrnimmt und in ihr selbstständig (autonom) agiert. Charakterisiert wird er über vier Bestimmungsstücke, die die Folien als PAGE zusammenfassen: Percepts (Wahrnehmungen in realen oder digitalen Habitaten), Actions (Aktionen), Goals (Ziele) und Environment (Umgebung). Das Verhalten läuft in einer Schleife aus Sense → Think → Act ab.

Formal lässt sich dieses Verhalten (so Russell & Norvig) als Funktion von Wahrnehmungsfolgen auf Aktionen fassen: Bezeichne $P$ die Menge der Perzepte und $A$ die der Aktionen, so ist die Agentenfunktion $f: P^* \to A$ , die jeder bisher gesehenen Folge $p_1 p_2 \dots p_t$ die nächste Aktion zuordnet. Diese Funktion ist eine mathematische Idealisierung; im Rechner realisiert sie ein Agentenprogramm, das auf einer Architektur (Hardware plus Laufzeit) ausgeführt wird.

Die Aufgabe sauber stellen: PAGE und PEAS

Bevor man einen Agenten baut, muss man seine Aufgabe festlegen. Die Folien tun das über PAGE (Percepts, Actions, Goals, Environment); Russell & Norvig fügen dem zur Bewertung noch ein explizites Leistungsmaß hinzu und reden dann von PEAS: Performance (woran messe ich Erfolg?), Environment (worin handelt der Agent?), Actuators (womit wirkt er?), Sensors (womit nimmt er wahr?). Für die unten implementierte Staubsaugerwelt etwa: Performance = saubere Felder über die Zeit minus Energieaufwand; Environment = zwei Felder mit Schmutz; Actuators = Saugen, Bewegen; Sensors = aktueller Ort und dessen Sauberkeit. Erst dieser Rahmen macht „gutes Verhalten” überhaupt beurteilbar.

Rationalität

Wichtig sind die Einschränkungen in dieser Definition. Rationalität heißt nicht Allwissenheit (der Agent kennt die Zukunft nicht) und nicht Perfektion (er kann nur das Erwartete optimieren). Sie ist relativ zum Leistungsmaß, zum Vorwissen, zu den möglichen Aktionen und zur bisherigen Wahrnehmungsfolge. Genau deshalb kann derselbe Code in der einen Umgebung rational und in einer anderen töricht sein — ein Punkt, den die Praxis unten konkret macht.

Eine Leiter von Agententypen

Die Folien führen die Agententypen als eine Reihe von Metaphern ein, geordnet nach der Komplexität ihrer internen Verarbeitung. Der Kern davon deckt sich mit der klassischen Leiter aus Russell & Norvig — jede Stufe behebt eine konkrete Schwäche der vorigen:

SatzAgententypen (Folien-Metaphern)

Reflex-Agent — rein reaktives Wesen; wählt die Aktion allein aus der aktuellen Wahrnehmung (Wenn-Dann-Regeln). Setzt sich keine Ziele und macht sich keine „Gedanken” über die Auswirkung seiner Handlungen. Kein Gedächtnis.
Zielorientierter Agent — hat explizite Ziele und plant Handlungen, um wünschenswerte Zielzustände zu erreichen; setzt voraus, die Wirkung von Handlungen antizipieren zu können. Hier setzt die Suche aus Kapitel 2 an. 3. Nutzen-orientierter Agent — hat konkurrierende Ziele und maximiert den Gesamtnutzen seines Handelns; wägt Kosten und Nutzen gegeneinander ab. 4. Lernfähiger Agent — verbessert sich aus früheren Erfahrungen im „Gedächtnis” (zusehen/erinnern/nachmachen; Trial-and-Error + Gedächtnis). Das ist genau das Reinforcement Learning aus 6.1.

Die Folien gehen aber über diese klassische Leiter hinaus und ergänzen weitere Metaphern, die in R&N so nicht stehen: den selbst-reflektierenden Agenten (er kann seine Handlungsauswahl reflektieren und für Menschen verständlich erklären — indem die Schritte des Entscheidungsprozesses protokolliert, strukturiert und sprachlich formuliert werden), den sozialen/emotionalen Agenten (rationales Denken kombiniert mit simulierten „Bauchentscheidungen”; Beispiele Jibo, Navel — mit dem Befund: soziale Interaktion ist schwer), den kreativen Agenten (neue, nicht vorgegebene Lösungswege via Combinatorial Creativity / Conceptual Blending) sowie die kooperativen Agenten (mehrere Agenten lösen gemeinsam komplexe Aufgaben — „verteilte KI” bzw. Multi-Agenten-System, Stichwort RoboCup).

Modellbasiert vs. zustandslos ist dabei der folgenreichste Sprung und steht im Zentrum der Praxis: Ein modellbasierter Reflex-Agent führt einen inneren Zustand und kommt so mit nur teilweise beobachtbaren Umgebungen zurecht, während ein zustandsloser Reflex-Agent strukturell nicht erkennen kann, dass er fertig ist.

Umgebungseigenschaften

Wie schwer eine Aufgabe ist, hängt weniger am Agenten als an seiner Umgebung. Sechs Dimensionen klassifizieren sie:

vollständig vs. teilweise beobachtbar — sehen die Sensoren den ganzen relevanten Zustand, oder nur einen Ausschnitt? Teilweise Beobachtbarkeit ist der eigentliche Grund, interne Zustände zu führen.
deterministisch vs. stochastisch — legt der aktuelle Zustand plus Aktion den Folgezustand eindeutig fest?
episodisch vs. sequenziell — ist jede Entscheidung in sich abgeschlossen, oder zahlen frühere Aktionen in spätere ein?
statisch vs. dynamisch — verändert sich die Welt, während der Agent nachdenkt?
diskret vs. stetig — endlich viele Zustände/Aktionen oder ein Kontinuum?
Einzel- vs. Multi-Agent — handelt der Agent allein, oder mit/gegen andere, deren Verhalten er mitberücksichtigen muss?

Die Staubsaugerwelt unten ist lokal vollständig beobachtbar (der Agent sieht sein aktuelles Feld), global aber teilweise beobachtbar, weil er den Zustand des anderen Feldes nicht direkt wahrnimmt. Sie ist außerdem deterministisch, sequenziell, statisch, diskret und Einzel-Agent — die freundliche Ecke des Spektrums, und gerade deshalb gut geeignet, einen Effekt isoliert zu zeigen.

Werkzeug, Assistent, Agent — und Agentic AI

Die Folien rahmen das Thema mit einer Begriffstrias: das KI-Werkzeug (Spezialwerkzeug; ein Problem wird mit speziellen KI-Techniken und Tools gelöst), der KI-Assistent (universeller, LLM-basierter Helfer — man formuliert Prompts, um Lösungen zu erhalten; auf Hugging Face liegen inzwischen ~1,5 Mio Modelle) und der KI-Agent. Assistent und Agent sind seit den 1990ern als Metapher in Gebrauch und ihre Abgrenzung ist verwischt — Assistenten weisen Agenten-Merkmale auf und umgekehrt. Eine zeitgemäße Abgrenzung (so die Folien u.a. nach Google): ein Assistent kommuniziert i.d.R. in Sprache/Text, ein Agent eher formalisiert; ob ein LLM Tools nutzen kann, hängt vom Training ab. Vom Bot (auf eine Aufgabe spezialisiertes Programm, z.B. ein Web-Crawler als Dämon) ist der Agent ebenfalls abzugrenzen. Die Beispielgeschichte der Folien reicht von MS „Bob” (1994), „Clippy” (2000), Siri (2011) und Alexa (2014) über GPT-4o (2024, multimodaler Chat mit unterbrechbaren Redebeiträgen, „barge-in”) bis Sora (Text-to-Video).

Den Bogen schließen die Folien mit Agentic AI: Das in den 1990ern entstandene Teilgebiet der Multi-Agentensysteme (MAS) — ein „Heer” gekapselter, autonom arbeitender, über standardisierte Protokolle kommunizierender Programme — wird heute wieder aufgegriffen, wobei typischerweise ein LLM als User-Schnittstelle und zur Koordination dient. Der LLM-Assistent extrahiert aus einem Prompt Aufgaben, delegiert sie an spezialisierte Agenten, sammelt deren Ergebnisse ein und reicht sie ggf. weiter (Orchestration). MAS versprach softwaretechnisch bessere Skalierbarkeit, Anpassbarkeit, geringere Komplexität je Einzelagent und Laufzeitvorteile durch Verteilung. Das Folien-Beispiel für einen nützlichen Assistenten ist die Kombination ChatGPT + Wolfram Alpha: Das LLM formuliert den Beweisschritt („Wegen A mache ich B”), die Maschine führt den formalen Beweis $A \wedge (A \Rightarrow B) \wedge (B \Rightarrow C) \vdash (A \Rightarrow C)$ aus.

Mehrere Agenten, die miteinander reden

Sobald ein zweiter Agent dazukommt, wird die Umgebung Multi-Agent: Der Erfolg des einen hängt vom Verhalten des anderen ab. Das kann gegnerisch sein (Spiele, Kapitel 2) oder kooperativ. Kooperation erfordert laut Folien mehr als bloße Koexistenz — die Modellierung kooperativer Verhaltensstrategien und Intentionserkennung („was will der andere?”), notfalls ohne explizite Kommunikation (Stichworte der Folien: RoboCup, Power Trading Agent Competition). Eine besonders aktuelle Variante des kooperativen Falls habe ich mit der „Chatting Agents”-Demo von camel-ai ausprobiert: Zwei LLM-Agenten bekommen eine Rollenzuweisung (etwa „KI-Entwickler” und „Produktmanager”) und eine gemeinsame Aufgabe und verhandeln die Lösung dann in einem Dialog untereinander, ohne dass ein Mensch jeden Schritt vorgibt. Bemerkenswert ist daran, wie aus zwei einfachen Sprach-Agenten durch das Protokoll allein eine Art Arbeitsteilung entsteht — Rollen, Rückfragen, Teilziele. Genauso bemerkenswert ist die Kehrseite: Die Dialoge driften ohne Abbruchbedingung leicht in Höflichkeits- und Wiederholungsschleifen ab (camel-ai fängt das mit einem expliziten <CAMEL_TASK_DONE>-Token ab — der Multi-Agenten-Variante des „NoOp” aus der Praxis). Hier schließt sich der Kreis zu Kapitel 1.3.

Praxis

Um den Wert von internem Zustand greifbar zu machen, habe ich die Staubsaugerwelt aus Russell & Norvig (Kap. 2) in reinem Python nachgebaut: zwei Felder $A$ und $B$ , jedes sauber oder schmutzig, ein Agent, der nur sein aktuelles Feld und dessen Sauberkeit wahrnimmt. Verglichen werden die ersten beiden Agententypen von oben.

Der einfache Reflex-Agent ist exakt die Tabelle aus R&N (Abb. 2.8) — eine reine Funktion der aktuellen Wahrnehmung, ohne jedes Gedächtnis:

def einfacher_reflex_agent(perzept):
    ort, schmutzig = perzept
    if schmutzig:
        return SAUGEN
    return RECHTS if ort == A else LINKS   # kein Halten moeglich

Der modellbasierte Agent führt ein winziges Weltmodell — für jedes Feld merkt er sich, ob er es schon sauber gesehen hat — und kann daraus den Zustand „alles sauber” ableiten und anhalten (NoOp):

def handeln(self, perzept):
    ort, schmutzig = perzept
    self.modell[ort] = not schmutzig          # Wahrnehmung ins Modell schreiben
    if schmutzig:
        self.modell[ort] = True
        return SAUGEN
    if all(self.modell[f] is True for f in (A, B)):
        return NOOP                            # beide Felder sicher sauber
    return RECHTS if ort == A else LINKS

Beide laufen über $12$ Schritte auf derselben Startwelt (Start in $A$ , beide Felder schmutzig — der ungünstigste Fall). Die Leistung folgt im Kern R&N (saubere Felder pro Zeitschritt); den Abzug von $0{,}5$ je physischer Aktion (Saugen oder Bewegen) ergänze ich selbst, damit „sauberes Pendeln” bestraft wird. Das vollständige Skript liegt in python/src/eport_figures/praxis/p_1_2_agenten.py. Seine Ausgabe:

Staubsaugerwelt: 2 Felder, Start in A, beide schmutzig.
Horizont: 12 Schritte. Aufwand pro physischer Aktion: 1.

Einfacher Reflex-Agent
  saubere Felder je Schritt: 011222222222
  Gesamtaufwand (Aktionen):  12
  kumulierte Leistung:       +14.0

Modellbasierter Agent
  saubere Felder je Schritt: 011222222222
  Gesamtaufwand (Aktionen):  3
  kumulierte Leistung:       +18.5

Beobachtung:
  Reflex-Agent saugt einmal beide Felder sauber, pendelt dann aber
    weiter und verbraucht in 12 Schritten 12 Aktionen — er *weiss* nie, dass alles sauber ist.
  Modellbasierter Agent halt an (nur 3 Aktionen) und sammelt dadurch
    mehr Leistung: +18.5 gegen +14.0.

Der entscheidende Befund steckt in der ersten Zahlenzeile: beide Agenten reinigen die Welt identisch (011222222222 — ab Schritt 3 sind dauerhaft beide Felder sauber). Sie unterscheiden sich erst danach. Der Reflex-Agent kann den Zustand „fertig” nicht repräsentieren, weil seine Wahrnehmung „hier ist sauber” in $A$ und in $B$ identisch aussieht — also pendelt er für immer weiter und verbrennt in $12$ Schritten $12$ Aktionen. Der modellbasierte Agent leitet aus zwei sauberen Beobachtungen „alles sauber” ab, hält nach $3$ Aktionen an und gewinnt dadurch $+18{,}5$ gegen $+14{,}0$ Leistung.

Kumulierte Leistung beider Agenten über zwölf Zeitschritte; die modellbasierte Kurve steigt nach dem Anhalten steiler. — Kumulierte Leistung über die Zeit. Bis Schritt 3 verlaufen beide Kurven identisch (gleiche Reinigung). Sobald der modellbasierte Agent anhält, fällt bei ihm der Aufwandsabzug weg — seine Kurve zieht davon, während der Reflex-Agent für jeden weiteren Pendelschritt bezahlt.

Balkendiagramm des Energieverbrauchs je Schritt; der modellbasierte Agent verbraucht ab Schritt 4 nichts mehr. — Energieverbrauch je Schritt. Der einfache Reflex-Agent (Maroon) handelt in jedem Schritt; der modellbasierte Agent (Blau) verstummt ab Schritt 4 — genau der Moment, in dem sein Modell „alles sauber” sagt.

Die Schlussfolgerung ist allgemeiner als das Spielzeugbeispiel: Ein Agent, der nur reagiert, kann eine Eigenschaft der Welt, die sich nicht in einer einzelnen Wahrnehmung spiegelt, prinzipiell nicht erfassen. „Alles sauber” ist eine Aussage über beide Felder gleichzeitig; sie existiert nur im Modell, nie im aktuellen Perzept. Das ist im Kleinen genau der Grund, warum teilweise beobachtbare Umgebungen nach internem Zustand verlangen.

Querbezüge

1.3 (LLMs & Prompting): Ein Sprachmodell mit Werkzeugen ist ein Agent im exakten Sinn dieses Kapitels — der Prompt-Kontext ist seine Wahrnehmungsfolge, die Tool-Aufrufe seine Aktuatoren. Die camel-ai-Demo oben ist die Multi-Agenten-Steigerung davon, und das <CAMEL_TASK_DONE>-Token ist das direkte Gegenstück zum NoOp, mit dem mein modellbasierter Agent „fertig” signalisiert.
2.x (Suche): Der zielbasierte Agent ist nichts anderes als ein Agent, dem man eine Suche oder Planung als Entscheidungsverfahren einsetzt. Wo mein Reflex-Agent fest verdrahtet pendelt, würde ein zielbasierter Agent das Ziel „beide Felder sauber” formulieren und einen Plan dorthin suchen.
6.1 (Q-Learning / RL): Der lernende Agent ist die fünfte Stufe der Leiter. Reinforcement Learning ist genau der Mechanismus, mit dem ein Agent seine Agentenfunktion aus dem Leistungssignal (Reward) selbst verbessert, statt sie wie hier von Hand zu verdrahten.
Software-Engineering: Die Trennung von Agentenfunktion (Verhalten), Agentenprogramm (Implementierung) und Architektur (Laufzeitumgebung) ist dieselbe Schichtung wie Interface, Implementierung und Plattform — und der innere Zustand des modellbasierten Agenten ist ein klassisches Kapselungsmuster.
Theoretische Informatik / Automaten: Ein einfacher Reflex-Agent ist eine zustandslose Abbildung, ein modellbasierter Agent ein endlicher Automat mit innerem Zustand. Die Praxis zeigt im Kleinen den Mächtigkeitsunterschied zwischen beiden.
Stochastik: Sobald die Umgebung stochastisch wird, ist „erwarteter Wert des Leistungsmaßes” in der Rationalitätsdefinition ein echter Erwartungswert über Wahrscheinlichkeitsverteilungen — die Brücke zu nutzenbasierten Agenten und zur Entscheidungstheorie.

Quellen

Foliensatz _130_AI_Agents.pdf — Grundlage für die Begriffstrias (Werkzeug/Assistent/Agent), die PAGE-Charakterisierung des rationalen autonomen Agenten, die Sense-Think-Act-Schleife, den Metaphern-Katalog der Agententypen (bis hin zu selbst-reflektierenden, sozialen, kreativen und kooperativen Agenten) sowie Multi-Agentensysteme / Agentic AI. Die Folien überschneiden sich teilweise mit Kapitel 2 von Russell & Norvig, gehen aber darüber hinaus; ich habe ihre Gliederung als Leitfaden genommen, das formale Gerüst (Agentenfunktion, PEAS) und die Staubsaugerwelt aber aus R&N ergänzt und durch meine eigene Simulation statt einer abgemalten Abbildung belegt.
Russell & Norvig, Artificial Intelligence: A Modern Approach, Kapitel 2 — die kanonische Quelle für Agent, Rationalität und die Staubsaugerwelt. Insbesondere die Reflexregel (Abb. 2.8) und die fünf Agententypen habe ich hieran abgeglichen, um die Folienkürze aufzufüllen.
camel-ai „Chatting Agents”-Demo (github.com/camel-ai/camel) — selbst ausprobiert, um Multi-Agenten-Kooperation jenseits der Theorie zu sehen. Stark als Anschauung für emergente Rollenverteilung; kritisch zu sehen ist die Neigung zu Endlos-Höflichkeitsschleifen ohne klare Abbruchbedingung, was den Wert eines expliziten „fertig”-Signals unterstreicht.

Worum geht’s#

Kernkonzepte#

Die Agent-Umgebung-Schleife#

Die Aufgabe sauber stellen: PAGE und PEAS#

Rationalität#

Eine Leiter von Agententypen#

Umgebungseigenschaften#

Werkzeug, Assistent, Agent — und Agentic AI#

Mehrere Agenten, die miteinander reden#

Praxis#

Querbezüge#

Quellen#