1.3 LLMs & Prompting · KI ePortfolio

Worum geht’s

Ende 2022 hat ChatGPT eine Technologie sichtbar gemacht, die zuvor vor allem in Forschungslaboren existierte: das Large Language Model (LLM). Was an der Oberfläche wie ein allwissender Gesprächspartner wirkt, ist im Kern ein verblüffend nüchterner Mechanismus — ein Modell, das gelernt hat, zu einem Text das wahrscheinlich nächste Wort vorherzusagen. Die Folien bringen das auf den Punkt mit der Hörsaal-Umfrage „Heute gibt es gutes …”: 14 von 24 Studierenden ergänzen „Wetter”, 8 „Essen”. Genau diese bedingte Wahrscheinlichkeitsverteilung über das nächste Token modelliert ein LLM — nur über Milliarden von Sätzen hinweg.

Mich interessiert an diesem Thema weniger die Technik (die gehört nach 7.3) als die Konsequenz daraus: Wenn ein LLM Sprache nicht versteht, sondern fortsetzt, dann ist die Qualität seiner Antwort kein fester Modellwert, sondern hängt maßgeblich davon ab, wie ich frage. Prompting ist damit keine Spielerei, sondern die eigentliche Schnittstelle zwischen einem statistischen Textgenerator und einem konkreten Problem. Und es hat eine harte Kehrseite, die diese Seite durchzieht: Ein flüssig formulierter Satz ist kein Beweis seiner Richtigkeit. Ein LLM kann mit identischer Überzeugung Wahres und Falsches behaupten — es halluziniert. Wer das ignoriert, verwechselt Eloquenz mit Korrektheit.

Kernkonzepte

Das LLM als nächstes-Token-Vorhersager

Formal modelliert ein autoregressives LLM die Wahrscheinlichkeit einer Token-Folge als Produkt bedingter Verteilungen,

P(w_1, \dots, w_n) = \prod_{t=1}^{n} P(w_t \mid w_1, \dots, w_{t-1}).

Text wird erzeugt, indem das Modell wiederholt das nächste Token aus $P(w_t \mid w_{<t})$ zieht und an den Kontext anhängt. Die technische Seite — Tokenisierung, Embeddings, Transformer, Attention — entfalte ich in 7.3; hier zählt nur die begriffliche Folgerung.

Eine Größe aus den Folien ist für die Praxis entscheidend: das Kontextfenster — auf den Folien das „Kurzzeitgedächtnis“. Alles, worauf das Modell beim Vorhersagen zugreift, muss hineinpassen; die Folien zählen es neben Architektur, Umfang und Qualität der Trainingsdaten und der Parameterzahl („LLM-Größe“) als einen der Faktoren auf, die über die Eignung eines LLM entscheiden. Eine zweite Größe gehört zum Lehrbuchwissen über das Sampling: Die Temperatur $T$ steuert das Ziehen aus der Verteilung. Bei einer Logit-Verteilung $z$ ist

P(w_i) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}.

Für $T \to 0$ wird das Modell deterministisch und wählt stets das wahrscheinlichste Token (faktentreuer, aber langweilig); ein hohes $T$ flacht die Verteilung ab und erhöht Vielfalt — und damit auch das Risiko, dass Unwahrscheinliches und Erfundenes durchrutscht.

Prompting-Strategien

Da die Antwortqualität von der Formulierung abhängt, haben sich reproduzierbare Strategien herausgebildet. Sie lassen sich als Spektrum zunehmender Struktur ordnen:

Zero-Shot: Die Aufgabe wird direkt gestellt, ohne Beispiel. Das funktioniert, solange die Aufgabe in der Trainingsverteilung gut vertreten ist.
Few-Shot / In-Context-Learning: Man stellt der Aufgabe einige wenige Beispielpaare $(\text{Eingabe}, \text{Ausgabe})$ voran. Das Modell „lernt” das Muster temporär aus dem Kontext, ohne dass ein einziges Gewicht verändert wird — bemerkenswert, weil schon wenige gut gewählte Beispiele die Ausgabe deutlich stabilisieren können, auch ohne eigentliches Nachtrainieren.
Role-Play Prompting: Eine vorangestellte Anweisung weist das Modell an, eine bestimmte Rolle einzunehmen, und verschiebt es so in einen Teilraum seiner Verteilung. Die Folien geben als Beispiel einen Erzähler vor: „Your role: you will act as a sarcastic first-person narrator …”. Praktisch ist eine solche, übergeordnet rahmende Anweisung das, was man auch System-Prompt nennt.
Chain-of-Thought (CoT): Der Zusatz „think step-by-step” bzw. Beispiele mit ausgeschriebenen Zwischenschritten bringen das Modell dazu, die Lösung hinzuschreiben statt zu raten. Da jedes Zwischenergebnis wieder Teil des Kontexts wird, kann das Modell auf ihm aufbauen — ein Zerlegungseffekt (Wei et al. 2022).

Wichtig ist die kritische Lesart: CoT und ToT machen das Modell nicht logisch korrekt, sie machen seine Heuristik nur reichhaltiger. Die Folien zitieren Shojaee et al. (2025): „Reasoning”-Modelle schlagen die Basismodelle nur bei mittlerer Problemgröße; bei wirklich harten Instanzen brechen beide ein. Ein LLM bleibt eine Assoziationsmaschine — und ob seine Lösung stimmt, muss man unabhängig prüfen. Genau das tut die Praxis.

Praxis

Der Kern der Aufgabe ist die letzte Forderung: überprüfen. Ein LLM kann eine Gleichung liefern, die plausibel aussieht und doch nicht 24 ergibt. Statt LLM-Ausgaben von Hand nachzurechnen, habe ich ein Wahrheitsorakel gebaut: einen vollständigen Brute-Force-Löser. Für vier Operanden ist der Suchraum winzig — $4!$ Permutationen der Zahlen, $3^3$ Operator-Tripel und genau $C_3 = 5$ Klammerungsbäume (die dritte Catalan-Zahl), also $3240$ Ausdrücke. Erschöpfende Suche ist hier nicht nur machbar, sondern vollständig: Findet sie keine Lösung, ist die Unlösbarkeit unter $+,-,\cdot$ damit bewiesen.

from fractions import Fraction
from itertools import permutations, product

OPS = {"+": lambda a, b: a + b, "-": lambda a, b: a - b, "*": lambda a, b: a * b}

def solve_24(nums, target=24):
    for value, expr in _expressions(nums):   # alle 5 Klammerbäume × Perm × Ops
        if value == target:                  # exakte Rationalarithmetik
            return expr
    return None                              # None => beweisbar keine Lösung

Ich rechne mit Fraction statt float, damit kein Rundungsfehler eine Lösung vortäuscht oder verschluckt — und damit derselbe Code für die Varianten-Aufgabe 2c (zusätzliche Division) ohne Änderung exakt bleibt. Die echte Ausgabe:

=== „24"-Löser: Verifikation von LLM-Antworten ===

  (4, 9, 10, 13): 4 * ((9 + 10) - 13) = 24   (20 verschiedene Lösungsausdrücke)
  (3, 3, 8, 8): KEINE Lösung mit +,−,* (erschöpfend geprüft).
  (1, 2, 3, 4): ((1 + 2) + 3) * 4 = 24   (152 verschiedene Lösungsausdrücke)
  (5, 5, 5, 1): KEINE Lösung mit +,−,* (erschöpfend geprüft).
  (2, 3, 5, 12): KEINE Lösung mit +,−,* (erschöpfend geprüft).

=== Gegenprobe einer LLM-Antwort ===
  LLM behauptet für (4, 9, 10, 13): (10 - 4) * (13 - 9) = 24
  Nachgerechnet: (10 - 4) * (13 - 9) = 24  ->  KORREKT

=== Lösbarkeit über alle 4-Ziffern-Spiele (1..9, mit Wdh.) ===
  495 Spiele insgesamt, 368 mit +,−,*-Lösung (74.3 %).
  mit zusätzlicher Division: 404 lösbar (81.6 %).

Zwei Dinge fallen auf. Erstens findet der Löser für das Blatt-Beispiel eine gültige Form ( $4\cdot((9+10)-13)$ ) und bestätigt zugleich die vom Blatt genannte Lösung $(10-4)\cdot(13-9)=24$ als korrekt — beide liegen unter den 20 distinkten Lösungsausdrücken. Zweitens beweist er für $3,3,8,8$ und $5,5,5,1$ die Unlösbarkeit mit $+,-,\cdot$ : Das berüchtigte $3,3,8,8$ geht nur über $8/(3-8/3)=24$ , braucht also Division. Genau solche Fälle sind die nützlichsten, denn hier neigen LLMs zum Halluzinieren einer scheinbaren Lösung.

Balkendiagramm: 74,3 % der Spiele mit +,−,· lösbar, 81,6 % mit zusätzlicher Division — Anteil lösbarer „24”-Spiele über alle 495 Multimengen aus vier Ziffern $1$ – $9$ . Mit nur $+,-,\cdot$ sind $74{,}3\,\%$ lösbar; erlaubt man zusätzlich Division, steigt der Anteil auf $81{,}6\,\%$ . Die Lücke sind genau jene Spiele wie $3,3,8,8$ , bei denen eine LLM-Antwort mit $+,-,\cdot$ zwangsläufig falsch sein muss.

Das Prompt-Experiment: direkt vs. CoT

Mit dem Orakel in der Hand habe ich Claude zweimal mit demselben Spiel $(3, 3, 8, 8)$ konfrontiert — einem ohne Lösung unter $+,-,\cdot$ .

Direkter Prompt: „Verknüpfe 3, 3, 8, 8 mit +, − und * (Klammern erlaubt) zu 24. Gib nur die Gleichung.” — Hier ist die Versuchung groß, schnell eine Gleichung zu liefern; ein knapper Prompt ohne Schritt-für-Schritt-Aufforderung provoziert eher eine vorschnelle, ggf. falsche Antwort (etwa unter heimlicher Verwendung von Division).

CoT-Prompt: „Löse das ‚24’-Rätsel für 3, 3, 8, 8 mit nur +, − und *. Denke Schritt für Schritt: probiere systematisch Klammerungen, rechne jede aus, und sage ausdrücklich, falls keine Kombination 24 ergibt.” — Mit der expliziten Erlaubnis, „keine Lösung” zu antworten, und der Aufforderung zum Nachrechnen kommt das Modell zum richtigen Schluss: Mit $+,-,\cdot$ allein ist $24$ nicht erreichbar; man bräuchte $8/(3-8/3)=24$ .

Die Lehre deckt sich mit den Folien: CoT verbessert die Antwort, ersetzt aber die Verifikation nicht. Erst der Löser macht aus „klingt plausibel” ein „ist bewiesen”. Genau deshalb ist der Code das eigentliche Ergebnis dieser Aufgabe, nicht der Prompt.

Ein neues, unpubliziertes Rätsel (Aufgabe 2d)

Das Blatt warnt: Das „24”-Rätsel stammt aus der ToT-Arbeit und steht damit in den Trainingsdaten — kein Wunder, dass ein LLM es kann. Aufgabe 2d verlangt deshalb ein selbst erfundenes Rätsel. Ich habe das Quartett-Rätsel entworfen, das eine neue Kopplung einführt: Fünf Zahlen sollen einen Zielwert $T$ ergeben, wobei jede der vier Operationen $+,-,\times,\div$ genau einmal vorkommt (fünf Operanden → vier Verknüpfungen). Diese „jede Operation genau einmal”-Regel macht das Rätsel neu — und für ein LLM schwieriger, weil es nicht auf ein memoriertes Muster zurückgreifen kann.

=== Aufgabe 2d — eigenes neues »Quartett«-Rätsel ===
  Neue Regel: 5 Zahlen zu Ziel T, jede Operation +,−,×,÷ GENAU einmal.
  Instanz: (3, 5, 6, 7, 8) -> 42
  Lösungen (erschöpfend geprüft): 8
  Eine verifizierte Lösung: (((8 / (7 - 3)) + 5) * 6) = 42

Der nach demselben Prinzip wie der 24-Löser gebaute Verifizierer (jede Operation wird beim rekursiven Kombinieren aus einer Restmenge „verbraucht”) findet für die Instanz $(3,5,6,7,8)\to 42$ genau acht regelkonforme Lösungen, etwa $\bigl(\tfrac{8}{7-3}+5\bigr)\cdot 6 = 42$ (Operationen $\div,-,+,\times$ — jede einmal). Genau hier zeigt sich der Wert des Codes: Ein LLM liefert bestenfalls eine Gleichung und kann weder die Regelkonformität (keine Operation doppelt) noch die Vollständigkeit (acht Lösungen) selbst garantieren — der erschöpfende Löser leistet beides.

Frage (i) liefert eine saubere Gegenüberstellung — Design als das kreative „Was” (Spielregeln, Erlebnis, Balancing) gegen Development als das gesamte Herstellen. Frage (ii) liefert ebenfalls eine plausible Gegenüberstellung, nun aber Engineering als das technische „Wie” (Code, Engine, Performance) gegen denselben Oberbegriff Development. Das Aufschlussreiche zeigt erst Frage (iii): Stellt man alle drei gegenüber, ordnet das Modell Development plötzlich als Oberbegriff ein, der Design und Engineering als Teilaspekte umfasst — eine andere Rahmung als in den paarweisen Antworten. Die Lektion ist zweifach. Erstens ist die Antwort eines LLM kontextrelativ: Dieselbe Entität wird unterschiedlich verortet, je nachdem welche Begriffe sonst im Prompt stehen. Zweitens ist die paarweise Gegenüberstellung suggestiv — sie zwingt eine Symmetrie auf („X vs. Y”), die der eigentlichen Begriffshierarchie nicht entspricht. Wer präzise Begriffsklärung will, muss den vollständigen Kontext mitliefern, statt das Modell aus einer verengten Frage extrapolieren zu lassen.

Dokument-Q&A (b–d). Die Aufgabe verlangt, Fragen über ein hochgeladenes PDF zu stellen und die Antwortqualität zu bewerten. Ich führe das an der ePortfolio-Aufgabenstellung (crawl/assets/MKI-ePortfolio.pdf, 3 Seiten) vor: Ich gebe das PDF als Kontext und stelle drei Fragen unterschiedlichen Typs:

Faktenabruf: „Wie und an wen wird das eP abgegeben?” → als zip über die HS-Cloud, Download-Link an Thomas.Rist@tha.de teilen und zur Sicherheit per E-Mail (S. 3). Korrekt und belegbar.
Zusammenfassung: „Wie viel des Stoffs muss vertieft werden?” → „mindestens die Hälfte” der Themengebiete ausführlich mit Tiefe (S. 1). Korrekt.
Information fehlt: „Wann ist die genaue Abgabefrist?” → nicht angegeben; das PDF sagt nur „Abgabedatum wird noch bekanntgegeben” (S. 1). Die richtige Antwort ist hier „steht nicht im Dokument”.

(c) Bewertungskriterien für die Antwortqualität eines solchen Dokument-Q&A: (i) Treue zum Dokument (steht die Antwort wirklich so im PDF?), (ii) Vollständigkeit (alle relevanten Stellen erfasst?), (iii) Halluzinationsresistenz (sagt es „nicht enthalten”, wenn die Info fehlt, statt zu erfinden?), (iv) Quellengenauigkeit (nennt es Seite/Abschnitt?), (v) Prägnanz.

(d) Bewertung nach Fragetyp. Beim Faktenabruf und der Zusammenfassung liefert das Verfahren zuverlässig korrekte, belegbare Antworten — die Information steht wörtlich im Dokument, das Modell muss sie nur lokalisieren. Heikel wird der dritte Typ: Bei der fehlenden Abgabefrist ist die richtige Antwort „nicht angegeben”. Genau hier scheitern schwache Systeme, indem sie eine plausible Frist halluzinieren — die kritische Eigenschaft (iii). Ein gutes Dokument-Q&A glänzt also beim Wiederfinden explizit vorhandener Information, ist aber mit Vorsicht zu genießen bei Schlüssen, die das Dokument nicht hergibt. Das ist dieselbe Lehre wie beim „24”-Löser: Verlässlich ist nur, was sich am Dokument (bzw. am Rechner) verifizieren lässt.

Meine Position ist nüchtern und an die Praxis dieser Seite geknüpft. Ein LLM zeigt ein funktionales Verständnis: Es bildet Sprache so präzise auf Sprache ab, dass es Aufgaben löst, die man früher Verständnis genannt hätte. Aber es hat kein Modell der Welt, an dem es seine Aussagen prüft — das zeigt schon das $3,3,8,8$ -Beispiel, in dem ein Modell ohne Aufforderung zur Verifikation bereitwillig eine falsche Gleichung „verstehen” und ausgeben kann. Das Übungsblatt nennt mit Geoffrey Hinton und Max Tegmark Wissenschaftler, die vor immer leistungsfähigeren KI-Systemen warnen und fragen, was diese „wirklich verstehen”. Wer auf emergente Fähigkeiten verweist, hat insofern recht, als die Skalierung qualitativ Neues hervorbringt; wer Verständnis abspricht, hat recht, als das Modell Wissen, Vermutung und Erfindung nicht unterscheidet. Ich verorte mich dazwischen: LLMs simulieren Verständnis überzeugend genug, um nützlich zu sein, und unzuverlässig genug, um gefährlich zu sein, wenn man ihnen blind vertraut. Die richtige Konsequenz ist nicht Euphorie oder Ablehnung, sondern Verifikation — der Löser dieser Seite ist die methodische Antwort auf die philosophische Frage.

(a) Wer LLMs Verständnis/Bewusstsein zuschreibt. Eine Web-Recherche fördert prominente Vertreter zutage: Geoffrey Hinton argumentiert, „um das nächste Wort genau vorherzusagen, muss man den Satz verstehen” — Verständnis sei also eine emergente Voraussetzung guter Vorhersage (60 Minutes, 2023). Ilya Sutskever spekulierte, große Netze seien „vielleicht leicht bewusst”; der Philosoph David Chalmers nimmt die Frage „Could a Large Language Model be Conscious?” ernst (auch wenn er aktuelle Modelle als unwahrscheinlich-bewusst einstuft). Die linguistisch-philosophische Linie von Piantadosi & Hill hält „Bedeutung ohne Referenz” für möglich: Begriffe entstünden relational aus internen Repräsentationen, nicht nur aus Weltbezug.

(b) Wer es ihnen abspricht. Die Gegenposition verankert das vielzitierte „Stochastic Parrots”-Papier (Bender, Gebru, McMillan-Major, Mitchell, 2021): LLMs seien statistische Musternäher, die Form ohne Bedeutung erzeugen. Emily Bender & Alexander Koller untermauern das mit dem Octopus-Test (2020): Ein Tintenfisch, der nur die Form einer Kommunikation belauscht, ohne ihren Weltbezug, versteht nichts. Yann LeCun betont, Text sei eine „niedrigbandbreitige, stark komprimierte Projektion” der Welt — ohne sensomotorisches Weltmodell kein echtes Verständnis. Gary Marcus und Noam Chomsky schlagen in dieselbe Kerbe (Mustererkennung, kein kausal-strukturelles Verstehen).

(c) Die unterliegende Sicht auf „Denken”. Welche Meinung man vertritt, hängt fast vollständig davon ab, was man menschliches Denken sein lässt. Die Zuschreiber stehen in der Tradition des Funktionalismus/Komputationalismus: Denken ist Informationsverarbeitung; was funktional dasselbe leistet, versteht in jedem relevanten Sinn. Die Bestreiter vertreten eine verkörperte/geerdete Sicht (embodiment, symbol grounding): Bedeutung entsteht nur durch Verankerung in Welt, Wahrnehmung und Absicht — genau Searles Chinesisches Zimmer aus 1.1, das Syntax von Semantik trennt. Der ganze Streit reduziert sich auf eine Frage: Braucht Verstehen eine Erdung in der Welt, oder genügt relationale Struktur aus Text?

(d) Meine Einordnung. Ich verorte mich in einer deflationären Mitte: LLMs zeigen ein funktionales Verständnis (sie lösen Verständnis-Aufgaben), aber kein bewusstes Verstehen und kein geprüftes Weltmodell — das $3,3,8,8$ -Beispiel oben ist mein eigener empirischer Beleg dafür. Mit Hinton teile ich, dass Skalierung qualitativ Neues hervorbringt; mit Bender/LeCun, dass Fluenz nicht Wahrheit ist. Die praktische Konsequenz bleibt dieselbe wie auf der ganzen Seite: nicht Glauben, sondern Verifizieren.

Querbezüge

7.3 (NLP, Embeddings & LLMs): Dort wird der Mechanismus aufgelöst, den diese Seite als „nächstes-Token-Vorhersager” voraussetzt — Tokenisierung, Embeddings, Transformer und Attention. Diese Seite ist die Anwendungs-, jene die Technikseite desselben Gegenstands.
1.2 (KI-Agenten): Ein LLM wird zum Agenten, sobald es nicht nur Text ausgibt, sondern Werkzeuge per API aufruft, beobachtet und iteriert (die Folien nennen „Tool-Use”). Das Wahrheitsorakel dieser Seite ist genau ein solches Werkzeug — ein Rechner, an den ein Agent sein arithmetisches Problem delegieren sollte, statt es zu halluzinieren.
2.3 (Spielbäume) & 2.2 (Suchverfahren): Tree-of-Thought ist Suche über einen Raum von Gedanken — Knoten erzeugen, bewerten (eine Heuristik!), expandieren. Wer Minimax und Breitensuche kennt, erkennt ToT als deren Wiederkehr auf der Ebene natürlicher Sprache.
9.1 (KI & Gesellschaft): Halluzination, Denkfaulheit („we don’t think anymore, rather we fetch”) und die Gefahr blinden Vertrauens sind die ethische Fortsetzung der technischen Grenzen, die hier sichtbar werden.
Andere Module: Die Temperatur-Formel ist der Softmax aus der Stochastik bzw. statistischen Physik; das erschöpfende Durchsuchen aller Klammerungen ist ein klassisches Backtracking aus Algorithmen & Datenstrukturen, und dass es genau $C_3=5$ Bäume gibt, ist die Catalan-Zahl aus der Kombinatorik. Die exakte Fraction-Arithmetik schließlich ist gelebte Numerik: Sie vermeidet die Gleitkomma-Fallstricke, die einen naiven Löser stillschweigend falsche Lösungen akzeptieren ließen.

Quellen

Foliensatz _140_LLM_Prompt.pdf — Grundlage für die Begriffe (Satzergänzung als Token-Vorhersage mit Hörsaal-Umfrage, Halluzination /„fabulieren”, Few-Shot, CoT/ToT, Role-Play, Tool-Use, Evaluation inkl. Shojaee et al. 2025). Ich habe die Folien als Landkarte genutzt, die Argumentation (Verifikation als Kern, kontextrelative Antworten) aber selbst geformt und nicht Folie für Folie nacherzählt.
Übungsblatt 2 ki_ueb140_LLMPrompt.pdf — Quelle der hier gelösten Aufgaben 2 (inkl. 2d, eigenes Quartett-Rätsel), 4 (inkl. b–d, Dokument-Q&A) und 5 (a–d, Verständnis-/Bewusstseins-Debatte mit Vertretern beider Lager).
Debatte „Verstehen LLMs?” (A5) — Bender et al., On the Dangers of Stochastic Parrots (FAccT 2021), Chalmers, Could a Large Language Model be Conscious? (2023) und die Positionen von Hinton, LeCun, Marcus; als Belege für die in A5 benannten Lager und ihre jeweilige Sicht auf „Denken” herangezogen.
Wei et al. (2022), Chain-of-Thought Prompting, arXiv:2201.11903, und Yao et al. (2023), Tree of Thoughts, arXiv:2305.10601 — die Primärquellen zu CoT und ToT; aus letzterer stammt das „24”-Rätsel als Benchmark. Bewusst gewählt: Das Übungsblatt warnt selbst, dass ein publiziertes Rätsel in den Trainingsdaten stehen kann — ein Grund mehr, die Antwort unabhängig zu prüfen.
Claude (claude.ai) — als Versuchsobjekt für das direkt-vs.-CoT-Experiment in der Praxis ausprobiert; jede gelieferte Gleichung habe ich mit dem eigenen Löser gegengeprüft, statt der Ausgabe zu trauen.
Russell & Norvig, Artificial Intelligence: A Modern Approach, Kap. 23 (Natural Language) — als Referenz für die saubere Einordnung von Sprachmodellen als Wahrscheinlichkeitsverteilungen.

Worum geht’s#

Kernkonzepte#

Das LLM als nächstes-Token-Vorhersager#

Prompting-Strategien#

Praxis#

Das Prompt-Experiment: direkt vs. CoT#

Ein neues, unpubliziertes Rätsel (Aufgabe 2d)#

Querbezüge#

Quellen#