Anatomie eines RAG-Bots · von der Bibliothek-Metapher zur technischen Wahrheit

Ein RAG-Bot ist im Kern eine Bibliothek mit einem klugen Bibliothekar. Wer diese Metapher im Kopf hat, versteht seinen Anbieter, statt ihm ausgeliefert zu sein. Dieser Artikel führt Sie von der Metapher bis zur technischen Wahrheit, ohne dass Sie eine Zeile Code lesen müssen.

1 · Das Dilemma: Alle reden von RAG, kaum jemand erklärt es

Kaum ein Angebot kommt derzeit ohne das Kürzel RAG aus. Anbieter werben damit als Standard, als wäre die Sache selbsterklärend. Doch fragen Sie in einem Termin nach, was im Kasten tatsächlich passiert, wird es oft still. Die drei Bausteine, aus denen jedes solche System besteht, werden selten benannt. Geschäftsführungen unterschreiben Angebote, ohne diese eine Frage gestellt zu haben.

Das ist kein Vorwurf an die Käuferseite. Die Erklärungen sind entweder Werbung oder reine Technikersprache, dazwischen liegt eine Lücke. Genau diese Lücke schließt eine einfache Metapher: die Bibliothek mit dem klugen Bibliothekar. Sie ist nicht naiv, sondern präzise genug, um die richtigen Fragen zu stellen. Wer den Bot versteht, verhandelt anders. Das ist der Kern dieses Artikels.

2 · Die kurze Antwort: Bibliothek, Bibliothekar, Antwortschreiber

Bevor wir in die Tiefe gehen, hier die kurze Antwort. Sie passt in drei Schritte, und diese drei Schritte sollten Sie sich merken.

Der Kern in drei Schritten

Schritt eins: Die Bibliothek ist Ihr Wissen, zerlegt in einzelne Karteikarten. Schritt zwei: Der Bibliothekar hört Ihre Frage und holt die passenden Karten aus dem Regal. Schritt drei: Der Antwortschreiber liest die Karten und formuliert daraus eine saubere Antwort. Drei Schritte, drei Verantwortlichkeiten, drei Stellschrauben in jedem Anbieter-Gespräch.

Diese Dreiteilung ist mehr als ein Bild. Sie sagt Ihnen, an welcher Stelle ein System schwächeln kann. Eine schlechte Bibliothek liefert falsche Karten. Ein schwacher Bibliothekar findet die richtigen nicht. Ein undisziplinierter Antwortschreiber schmückt aus, was nicht auf den Karten steht. Halten Sie diese drei Rollen auseinander, dann hören Sie in jedem Termin genau hin.

3 · Was ein RAG-Bot wirklich ist

RAG steht für Retrieval Augmented Generation, also abrufgestützte Texterzeugung. Der Begriff ist sperrig, die Idee ist einfach. Ein Sprachmodell erfindet seine Antwort nicht aus dem Bauch heraus. Es bekommt zuerst die passenden Stellen aus Ihrem eigenen Wissen vorgelegt und zitiert dann daraus. Das Modell wird also angereichert, bevor es schreibt. Genau das meint das Wort augmented.

Ohne diesen Abruf-Schritt hätten Sie nur einen Chatbot mit allgemeinem Trainingswissen. Der weiß viel über die Welt, aber nichts über Ihre Tarife, Ihre Handbücher, Ihre Normen. Die entscheidende Architektur-Entscheidung ist deshalb die Trennung von Wissen und Sprache. Das Wissen bleibt in Ihrer Bibliothek, und Sie pflegen es. Die Sprache kommt vom Modell. Wer diese Trennung versteht, weiß auch, warum die Qualität der Antworten zuerst von Ihren Dokumenten abhängt, nicht vom Modell.

4 · Die technische Anatomie in zwei Absätzen

Jetzt die technische Wahrheit hinter der Metapher, damit Sie in einem Termin mit der IT nicht als naiv durchgehen. Jede Karteikarte bekommt einen Zahlen-Fingerabdruck, fachlich ein Embedding. Dieser Fingerabdruck kodiert die Bedeutung der Karte als lange Zahlenreihe. Alle Fingerabdrücke zusammen spannen einen Vektorraum auf. In diesem Raum liegen Karten mit ähnlicher Bedeutung nah beieinander, auch wenn die Worte verschieden sind. Stellt jemand eine Frage, bekommt auch die Frage einen Fingerabdruck. Der Bibliothekar sucht dann die Karten, die im Raum am dichtesten an der Frage liegen.

Zwei Begriffe fehlen noch. Lange Dokumente werden vorab in handliche Stücke zerlegt, das nennt man Chunking. Ohne diese Zerlegung wären die Karten zu groß und der Bibliothekar fände nichts Gezieltes. Und nach der ersten Suche schaltet sich oft eine zweite Prüfstufe ein, das Re-Ranking. Sie sortiert die gefundenen Treffer noch einmal nach echter Relevanz, nicht nur nach grober Ähnlichkeit. Embedding, Vektorraum, Chunking, Re-Ranking: diese vier Begriffe reichen aus, um in einem Anbieter-Termin nicht abgehängt zu werden.

Die Pipeline in einem Satz

Beim Einrichten wandelt das Embedding jede Karte in Zahlen, die im Vektorspeicher landen. Stellt ein Mitarbeiter eine Frage, sucht der Abruf die passenden Karten heraus. Die Texterzeugung formt aus diesen Karten die fertige Antwort. Drei Stationen, eine gerade Linie, kein Code nötig, um den Weg zu verstehen.

5 · Die drei Stellschrauben in jedem RAG-System

Aus den drei Rollen ergeben sich drei Stellschrauben. An jeder können Sie drehen, und jede ist im Anbieter-Vertrag verhandelbar, wenn Sie sie kennen.

Bibliotheks-Qualität: Welche Dokumente kommen hinein, in welcher Aktualität, in welcher Struktur. Müll hinein bedeutet Müll heraus, daran ändert kein Modell etwas.
Bibliothekar-Klugheit: Wie gut findet das System die richtigen Karten, auch wenn die Frage anders formuliert ist als das Dokument. Hier entscheiden Embedding-Wahl und Re-Ranking.
Antwortschreiber-Disziplin: Schreibt das Modell nur, was auf den Karten steht, oder schmückt es aus. Eine strenge Anweisung und Quellen-Pflicht halten den Schreiber an der Leine.

6 · Wann ein RAG-Bot passt

Wiederkehrende Fragen zu festem Wissensstand

Es gibt einen definierten Dokumentenstand, etwa ein Handbuch, eine Tarifsammlung oder eine Norm. Dieselben Fragen kommen immer wieder. Hier spielt ein RAG-Bot seine Stärke aus, weil die Bibliothek stabil und die Antworten belegbar sind.

Onboarding und interne Auskunft

Das Wissen ist im Haus vorhanden, aber verstreut über Laufwerke, Wikis und Köpfe. Neue Mitarbeitende suchen lange, erfahrene werden ständig unterbrochen. Ein Bot bündelt das verstreute Wissen und gibt schnelle, nachvollziehbare Auskunft.

Kunden-Support auf eigener Wissensbasis

Der Support beantwortet Fragen zu Ihren Produkten und Prozessen. Eine erfundene Antwort wäre teuer, weil sie Vertrauen kostet. Ein RAG-Bot mit Quellen-Beleg gibt nur das aus, was wirklich in Ihrer Wissensbasis steht.

Im ersten Quartal hat der Bot rund vierzig Prozent der wiederkehrenden internen Anfragen aufgefangen. Unsere Servicetechniker bekommen ihre Antwort jetzt in Sekunden statt nach einem Rückruf. Wichtig war uns, dass jede Antwort die Quelle nennt.
IT-Leitung, mittelständischer Maschinenbau-Zulieferer, 220 Mitarbeitende

7 · Wann ein RAG-Bot nicht passt

Ehrlich bleibt nur, wer auch die Gegenfälle benennt. In diesen drei Lagen stiftet ein RAG-Bot mehr Verwirrung als Nutzen.

Die Wissensbasis ist veraltet oder widersprüchlich

Liegen in der Bibliothek alte und neue Versionen nebeneinander, zieht der Bibliothekar mal die eine, mal die andere Karte. Das Ergebnis ist Schein-Präzision: eine flüssige Antwort, die schlicht falsch sein kann. Erst die Bibliothek aufräumen, dann den Bot.

Die Aufgabe braucht Rechnen oder Planen, nicht Nachschlagen

Soll das System kalkulieren, Termine planen oder Werkzeuge ansteuern, ist reines Nachschlagen das falsche Werkzeug. RAG findet Karten, es rechnet nicht. Solche Fälle brauchen andere Bausteine, oft einen gebauten Workflow um das Modell herum.

Die Antwort muss rechtsverbindlich sein

Wo eine Auskunft haftungsrelevant ist, reicht kein Bot allein. Dann braucht es einen Menschen mit Bot: das System liefert den Entwurf samt Quelle, ein Fachmensch gibt frei. Wer einen dieser drei Fälle hat, sollte das Angebot zurückstellen oder den Zuschnitt ändern.

8 · Der Entscheidungsbaum: drei Fragen vor dem Kauf

Bevor Sie überhaupt in Anbieter-Termine gehen, klären Sie drei Fragen für sich selbst. Sie führen Sie in wenigen Minuten zu einem ehrlichen Ja oder Nein.

Ist Ihr Wissen sauber und stabil? Lautet die Antwort Nein, räumen Sie zuerst die Bibliothek auf. Vorher lohnt kein Bot.
Geht es um Nachschlagen, nicht um Rechnen oder Planen? Lautet die Antwort Nein, brauchen Sie andere Bausteine als reines RAG.
Darf die Antwort einen Menschen in der Schleife haben? Lautet die Antwort Nein, weil es rein automatisch und haftungsfrei laufen muss, ist RAG das falsche Versprechen.

Dreimal Ja heißt: Ein RAG-Bot passt, gehen Sie in die Anbieter-Gespräche. Ein einziges Nein heißt: erst die Vorarbeit, dann der Kauf.

9 · Fünf Fragen an jeden RAG-Anbieter

Mit der Bibliothek-Metapher im Kopf werden aus diffusen Bedenken konkrete Fragen. Stellen Sie in jedem Anbieter-Termin diese fünf, und Sie hören sofort, ob Ihr Gegenüber das Handwerk beherrscht.

Wie wird unsere Bibliothek aktualisiert, und wer pflegt die Karten im laufenden Betrieb?
Welches Embedding-Modell nutzen Sie, und wo genau laufen unsere Vektoren?
Wie zeigt der Bot für jede Antwort den Quellen-Beleg an?
Was passiert, wenn der Bibliothekar nichts Passendes findet, gibt es eine ehrliche Fehlanzeige?
Wie kommen wir an unsere Bibliothek heran, wenn wir den Anbieter wechseln wollen?

Auf jede dieser Fragen gibt es eine gute und eine ausweichende Antwort. Die ausweichende ist Ihr Warnsignal. Und damit Sie die Größenordnung einschätzen können, folgt zum Schluss ein ehrlicher Kosten-Rahmen.

Kosten-Realismus

Zahlen schwanken stark, deshalb hier ehrliche Spannen statt schöner Wunschwerte. Sie ersetzen kein Angebot, geben Ihnen aber ein Gefühl für die Größenordnung.

Pilot mit 500 bis 5.000 Dokumenten: 3.000 bis 12.000 EUR einmalig, je nach Aufbereitungs-Aufwand der Bibliothek.
Laufender Betrieb für rund 50 Mitarbeitende: 200 bis 800 EUR pro Monat für Modell- und Infrastruktur-Nutzung.
Pflege der Bibliothek: ein bis zwei Personentage pro Monat im Haus, denn die Karten veralten von selbst.
Versteckte Kosten: Wird das Embedding-Modell gewechselt, müssen alle Karten neu berechnet werden. Dieser Posten wird regelmäßig unterschätzt.

Fazit · Verstehen, was im Kasten passiert

Wer die Bibliothek-Metapher im Kopf trägt, hört in jedem Anbieter-Termin die richtigen Lücken heraus. Aus drei Rollen werden drei Stellschrauben, aus drei Stellschrauben werden fünf Fragen. Das ist kein Technikwissen, das ist Einkaufs-Kompetenz.

Persönliche KI-Kompetenz im Arbeitsalltag heißt nicht, selbst Code zu schreiben. Sie heißt, eine Architektur lesen zu können, bevor Sie sie kaufen. Genau dann entsteht Output statt Output-Theater: nicht eine schicke Demo im Termin, sondern ein System, von dem Sie wissen, was es einkauft und warum.

Im AIM bauen die Teilnehmenden einen eigenen RAG-Bot, der nach sechs Wochen ohne uns weiterläuft. Das ist KI-Infrastruktur, im Haus gebaut, nicht eingekauft und gehofft. Wenn Sie diesen Artikel verstanden haben, haben Sie den ersten Schritt bereits getan.

Anatomie eines RAG-Bots · Von der Bibliothek-Metapher zur technischen Wahrheit