DeepScroll und Recursive Language Models — Warum 10M+ Kontext bei großen Codebases praktisch Gold wert ist

Grzegorz Olszowka•16. April 2026•7 Min. Lesezeit

KIKI für KMULLMOpen SourceClaude CodeRecursive Language ModelsSoftwareentwicklunggroße Codebases

DeepScroll als Open-Source-Werkzeug für rekursive Kontextnavigation: Warum 10M+ Tokens bei großen Codebases nicht an Fenstergröße, sondern an Architektur hängen.

Aquarellhafte Pfade durch eine komplexe Stadt symbolisieren DeepScroll und Recursive Language Models als Orientierungshilfe für große Codebases mit 10M+ Kontext.

Auf einen Blick

1 Mio. Tokens Kontext sind stark — bei großen Repositories reicht Fenstergröße allein aber nicht, wenn die relevanten Stellen über tausende Dateien verstreut sind.
Recursive Language Models navigieren rekursiv durch große Wissensräume: lokalisieren, verdichten, tiefer gehen — statt alles gleichzeitig laden.
DeepScroll ist ein unabhängiges Open-Source-Repro des MIT-Ansatzes, läuft in Claude Code + Opus 4.7. Repo: github.com/grzgrzgrzgrzgrz/deepscroll
Der Hebel liegt in der Navigation, nicht in der Fenstergröße — bessere Kontextauswahl, gezieltere Antworten, geringere Token-Kosten.
Für KMU mit gewachsener Software: 30–50% weniger Orientierungszeit bei Legacy-Analyse, Onboarding, Fehlersuche über Modulgrenzen.

Der Punkt ist nicht größer um jeden Preis. Der Punkt ist klüger.

Kürzlich an einer typischen Mittelstands-Codebasis: historisch gewachsen, mehrere Services, drei Benennungslogiken, Dokumentation lückenhaft. Realität eben. Und genau da wird die Debatte über Kontextfenster verkürzt: 128k, 1 Mio. — immer größer. Bei echten großen Repos ist das aber nicht die richtige Frage. Relevanter: Wie bewegt sich ein Modell praktisch durch einen Wissensraum, der größer ist als sein Arbeitsfenster?

Aus dieser Frage heraus habe ich DeepScroll gebaut — ein kleines Open-Source-Tool, das ich selbst im Alltag nutze. Basis ist ein MIT-Paper zu Recursive Language Models. Die Idee: Ein Modell muss nicht alles gleichzeitig im Kontext haben. Es kann sich iterativ durch Material bewegen, fokussieren, verdichten, rekursiv tiefer gehen — und daraus eine belastbare Antwort zusammensetzen.

Repo + Paper: github.com/grzgrzgrzgrzgrz/deepscroll · arxiv.org/abs/2512.24601

Warum 1 Mio. Tokens Kontextfenster nicht reichen

1 Mio. Tokens klingt komfortabel. Für Verträge, Projektdoku, mittlere Repos: absolut genug. Aber große Codebases funktionieren nicht wie ein langes PDF. Sie sind geschichtet: ein Service hier, eine Konfiguration dort, der fachliche Kontext in einem veralteten ADR. Relevanz ist verteilt, nicht linear.

Das Paradox: Je größer das Fenster, desto stärker die Versuchung, einfach mehr reinzukippen — Repo, README, Tickets, Confluence, Slack. Und zu hoffen, dass das Modell den Sweet Spot findet. Manchmal klappt das. Aber nicht zuverlässig. Jeder zusätzliche Token konkurriert um Fokus. Die Antwort wird diffus, zu breit, unscharf.

Wirtschaftlich: Ein großes Kontextfenster ohne Leitsystem ist wie eine Lagerhalle ohne Schilder. Kapazität ohne Geschwindigkeit. Unternehmen gewinnen nicht automatisch Produktivität, nur weil das Modell theoretisch mehr sieht.

Konkret für KMU: Bei 500.000 bis 10 Mio.+ Tokens Gesamtmaterial entscheidet nicht mehr das Modell, sondern welche 30.000 oder 100.000 Tokens im richtigen Moment sichtbar werden.

Eine grobe Beispielrechnung: Bei 8 Entwicklern à 90–120k € Vollkosten ist jede Stunde Suchzeit teuer. Wenn ein besserer Workflow rund 30% Orientierungszeit spart, kann das — je nach Team und Ausgangslage — freigeschaufelte Kapazität in der Größenordnung von 70–100k € pro Jahr bedeuten. Das ist eine Überschlagsrechnung, keine Garantie.

Wie Recursive Language Models funktionieren

Die Idee ist so einfach wie mächtig: Ein Modell konsumiert den Wissensraum nicht in einem Schritt. Es erschließt ihn iterativ — ähnlich wie ein Mensch bei komplexen Fragen.

Drei Phasen, die sich rekursiv wiederholen:

Lokalisieren: Welche Dateien, Module, Abschnitte sind überhaupt relevant?
Verdichten: Was ist die essentielle Information aus dem Teilraum, ohne Noise?
Vertiefen: Welche Teile rechtfertigen einen zweiten, genaueren Blick?

Das Modell bewegt sich also nicht nur durch Text, sondern durch Abstraktionsebenen: Datei → Modul → Service → Geschäftslogik. Wer diesen Ebenenwechsel orchestriert, bekommt bessere Antworten aus kleineren Arbeitskontexten.

„Infinite context" ist kommunikativ stark, operativ aber missverständlich. In der Praxis gibt es weiterhin Kosten, Latenz, Rauschen. Entscheidend ist nicht Unendlichkeit, sondern Komposition: aus vielen Teilansichten eine stabile Gesamtsicht bauen.

Verzweigte Arbeitsnotizen zeigen, warum große Kontextfenster allein komplexe Codebases ohne gezielte Navigation nicht beherrschbar machen.

DeepScroll im Alltag: Was es konkret tut

DeepScroll ist ein CLI-Werkzeug. Du richtest es auf ein Repository, stellst eine Frage — und es arbeitet sich rekursiv durch den Code, um Antworten mit verifizierten Quellen zu liefern.

Features im Überblick

Rekursive Repository-Navigation — lokalisiert relevante Dateien per semantischer Suche, verdichtet sie, spielt nur den Sweet Spot in den Premium-Kontext.
Zwischenrepräsentationen — baut bei jedem Schritt eine kompakte Struktur-Map, die über mehrere Aufrufe wiederverwendbar bleibt.
Claude Code + Opus 4.7 Integration — läuft direkt in Claude Codes CLI-Umgebung, nutzt Opus 4.7 für die rekursiven Pässe.
Token-Budgeting — pro Rekursionsebene konfigurierbar, damit Kosten nicht durch die Decke gehen.
Quellen-Annotation — jede Antwort verweist auf konkrete Dateien/Zeilen im Repo, statt halluzinierter Pfade.
Git-aware — berücksichtigt Branch, History und Commit-Messages als Signal für Relevanz.
Lokal, ohne Vendor-Lock-in — Open Source unter MIT, läuft gegen jede OpenAI-/Anthropic-kompatible API.

Drei operative Effekte, die Teams sofort spüren:

Schnellere Erstorientierung — bei einer Frage scrollt das System durch Abhängigkeiten, statt nur oberste Dateien zu sehen.
Bessere Hypothesenbildung — Fehleranalyse und Refactoring starten mit dem richtigen Denkrahmen, nicht mit einer Vermutung.
Gezieltere Nutzung des Premium-Kontexts — der teure Arbeitskontext wird mit verdichtetem, relevantem Material bestückt.

Als grobe Einschätzung aus der Projektpraxis: Ein erheblicher Teil der Analysezeit fließt in vielen Engineering-Teams in Lokalisierung — nicht in Problemlösung, bei Legacy-Lastigkeit noch deutlich mehr. Ein rekursiver Workflow, der davon ein Drittel einspart, kann überschlägig 7–15% Gesamtproduktivitätsgewinn im Entwicklungsprozess bringen — die tatsächliche Wirkung hängt stark von Codebasis und Team ab.

PDF

Dieses Thema vertiefen? 32 KI-Workflows mit Aufwand und Sprint-Check als kostenloses PDF.

PDF holen

Gestaffelte lokale Arbeitsumgebung symbolisiert Recursive Language Models, bei denen relevanter Kontext selektiv statt vollständig eingebunden wird.

10M+ Tokens: Warum die Zahl allein nicht ausreicht

10 Millionen Tokens klingen spektakulär. Aber die Metrik ist nicht der Wert. Die Frage ist: Was machst du operativ mit diesem Wissensraum?

Bei 10M+ sprichst du typischerweise über: große Repos, historische Architekturdiskussionen, Spezifikationen, Runbooks, Tickets, Migrations-Notes. Also ein Bedeutungsökosystem, nicht „mehr Text". In so einem Raum reicht lineares Retrieval selten. Du brauchst Pfade, Verdichtung, Zwischenrepräsentation.

Der Kniff: Die bestehende 1-Mio.-Kontextkapazität wird durch 10M+ nicht ersetzt, sondern strategisch besser gespeist. Das größere Reservoir macht den kleineren Premium-Kontext wertvoller. Ein Modell mit 1 Mio. Kontext und gut kuratiertem Material schlägt häufig ein Modell mit nominell größerem Zugriff, das semantisch schlecht sortiert wurde.

Praxisbeispiel: ERP-nahes System, 6 Entwickler

Mittelstand, 120 Mitarbeiter, 6 interne Entwickler. Kern in PHP, neue Services in TypeScript, ERP-Schnittstellen, Import-Skripte. Dokumentation lückenhaft.

Bereichsübergreifende Fehleranalyse dauerte bisher 2–6 Stunden. Mit rekursiver Kontextnavigation realistisch 30–50% weniger. Zusätzlicher Effekt: bessere Onboarding-Kurve, weniger Abhängigkeit von „Code-Orakeln" im Team.

Wo DeepScroll stark ist — und wo nicht

Reality-Check. DeepScroll löst nicht jedes Kontextproblem. Wenn eine Codebasis semantisch chaotisch ist, Domänenwissen fehlt, Dateinamen irreführend sind — bleibt die Aufgabe schwierig. Ein rekursiver Ansatz verbessert Navigation, ersetzt keine Architekturdisziplin.

Auch technisch gibt es Grenzen: rekursive Workflows erzeugen zusätzliche Calls, zusätzliche Latenz. Fehler in frühen Verdichtungen können akkumulieren. Und es braucht Setup-Kompetenz. Wer glaubt, man installiert das Tool und hat ein Orakel, wird ernüchtert.

Stark bei:

Analyse großer, gewachsener Code-Repositories
Onboarding neuer Entwickler in bestehende Systeme
Fehlerursachen-Suche über Modulgrenzen hinweg
Vorbereitung von Refactorings und Migrationen
Arbeit mit großen technischen Dokumenträumen

Vorsicht bei:

Fehlendem Domänenwissen in der Dokumentation
Teams, die Zwischenergebnisse nicht validieren
Unklaren Governance-/Datenschutz-Regeln
Erwartungshaltung „autonomer Entscheidungsersatz"

Open Source ist hier besonders relevant: Unternehmen mit proprietären Repos oder Sicherheitsanforderungen können den Ansatz sehen, prüfen, anpassen — statt einen weiteren schwarzen Kasten in den Stack zu integrieren.

Strukturierte technische Arbeitsfläche steht für DeepScroll in Claude Code und Opus 4.7 als praktischen Fortschritt.

Pragmatischer Einstieg

Wenn du eigene Software als Wertschöpfungsfaktor hast, lohnt sich der Test. Vier Fragen zur Selbstdiagnose:

Wo verliert dein Team nachweisbar Zeit bei der Orientierung in Code oder Doku?
Welche Repos sind groß genug, dass klassisches Prompting sichtbar an Grenzen stößt?
Welche Aufgaben erfordern heute Senior-Wissen, obwohl sie strukturell vorverdichtet werden könnten?
Wie misst du Erfolg — Zeitersparnis, geringere Übergabekosten, weniger Eskalationen?

Wenn die Antworten unklar sind, brauchst du noch kein DeepScroll — sondern erst Prozessklarheit. Sind sie klar, starte so:

Einen konkreten Problemraum wählen (Incident-Analyse, Onboarding, Legacy-Verständnis).
Einen abgegrenzten Repo-Ausschnitt testen, nicht die ganze IT-Landschaft.
Mit 2–3 realen Fragen arbeiten, keine Labordemos.
Zeit bis zur belastbaren Orientierung messen.
Erst dann über Skalierung, Integration und Governance entscheiden.

Repo klonen und loslegen: github.com/grzgrzgrzgrzgrz/deepscroll (MIT-Lizenz, README mit Setup in 5 Minuten).

Die Kernspannung bleibt: Mehr Kontext ist wertvoll. Aber erst gute Kontextsteuerung macht daraus geschäftlichen Nutzen. Die Zukunft gehört nicht denen, die am meisten Material ins Modell werfen. Sondern denen, die wissen, wie man ein Modell sinnvoll durch Komplexität führt.