Wie Engineers bei agentischem Code die Kontrolle behalten

Dušan Šalović

|

2.7.2026

Engineers arbeiten gemeinsam am Computer mit agentischem Code und behalten die Kontrolle, veranschaulicht wie Engineers bei agentischem Code die Kontrolle behalten.

Nicht das Modell ist der entscheidende Differenzierungsfaktor. Ausschlaggebend ist die Steuerungsebene, also der „Harness“, darum herum: die Leitplanken, die den Agenten vor dem Handeln lenken und die Sensoren, die erfassen, was diese Leitplanken übersehen haben.

Ist die Architektur falsch aufgesetzt, fehlt dem Agenten eine stabile Grundlage, auf der er Entscheidungen treffen kann. Ist die Verifikation unzureichend, häufen sich technische Probleme schneller an, als Mehrwert geschaffen werden kann.

Diese Engineering-Ebene wird in vielen KI-Debatten kaum thematisiert. Erfahre hier, warum es genau darauf ankommt.

Agentische Coding-Tools sind längst in den Teams angekommen – unabhängig davon, ob es eine offizielle Strategie dafür gibt oder nicht. Die Frage ist deshalb nicht mehr ob, sondern wie der Rahmen für die richtige Nutzung dieser Tools gebaut werden kann. Dieser Rahmen besteht aus drei Bausteinen: Guides, die den Agenten vor dem Handeln steuern, Sensoren, die Lücken im Nachgang erkennen und einer Architektur, die verhindert, dass Änderungen schneller entstehen, als sie verstanden werden können.

In diesem Text geht es genau um diese praktische Ebene. Nicht um Hype, nicht um Headlines. Sondern um Engineering. Dieses Engineering hat einen Namen: Agentic Harness.

Der Unterschied liegt im ‚Harness‘, nicht im Modell

Für Engineering-Teams ist ein entscheidender Perspektivwechsel zentral: Ein Agent ist kein Modell. Vielmehr ist er ist ein Modell verbunden mit allem, was sein Verhalten strukturiert.

Dieser äußere Rahmen – der Harness – lässt sich auf zwei Kategorien runter brechen:

  • Guides wirken als Feedforward-Kontrollen. Sie steuern den Agenten vor dem eigentlichen Handeln: Spezifikationen, Constraints, Coding-Standards und Architekturregeln geben die Richtung vor. Sie definieren, was der Agent tun soll.
  • Sensoren übernehmen die Feedback-Rolle. Sie greifen nach der Ausführung ein: Tests, Linter, Validatoren und statische Analysen machen sichtbar, was nicht funktioniert hat und wo nachgeschärft werden muss.

Die Wirkung dieses Zusammenspiels zeigt sich deutlich in den Daten von SWE-bench:

23%

Ein einfaches Agent-Setup erreicht bei Standard-Engineering-Aufgaben

45%

Ein optimiertes Setup mit identischem Modell

Das ist ein Unterschied von über 20 Prozentpunkten, ohne Modell-Upgrade oder Training. Der entscheidende Hebel ist nicht das Modell, sondern das Umfeld. Der Harness trennt Teams, die verlässliche Ergebnisse liefern, von denen, die keine stabilen Resultate erzielen.

Mehr Zeit in Prompts zu investieren, hilft schneller voranzukommen. Mehr Zeit in Constraints, Architektur und Verifikation zu stecken bringt weiter und zwar nachhaltig.

Architektur für KI-Tauglichkeit: Sinks statt Pipes

Agentenbasierte Programmierung funktioniert in manchen Codebasen erstaunlich gut, in anderen führt sie schnell zu Chaos. Der entscheidende Unterschied liegt fast immer in der Architektur.

Architektur ist die Leitstruktur des Systems. Sie definiert den Rahmen, innerhalb dessen ein Agent arbeitet, unabhängig davon, ob dieser Rahmen bewusst so entworfen wurde oder nicht.

Ein hilfreiches Bild ist die Unterscheidung zwischen Pipes und Sinks.

  • Pipes sind Komponenten, deren Verhalten Kettenreaktionen auslöst. Eine Änderung an einer Stelle kann Effekte an ganz anderer Stelle im System verursachen, oft schwer vorhersehbar.
  • Sinks sind dagegen klar abgegrenzte Komponenten. Ihr Verhalten bleibt lokal nachvollziehbar, ohne dass sich Auswirkungen durch mehrere Schichten des Systems ziehen.

In rein menschlich geprägten Teams lassen sich pipeline-lastige Architekturen oft noch beherrschen. Kontextwissen entsteht über Zeit, durch Erfahrung und direkte Zusammenarbeit.

In agentischen Systemen kippt dieses Modell. Die verborgene Komplexität wird zum Problem.

Ein Agent verfügt nicht über persistenten Kontext zur Codebasis über Sessions hinweg. Er kann keine Kolleg*innen fragen, keinen historischen Kontext abrufen und nicht nachvollziehen, was einen Incident im letzten Quartal ausgelöst hat. Er arbeitet ausschließlich mit dem, was im aktuellen Kontextfenster sichtbar und explizit ist.

Pipeline-lastige Architekturen verlangsamen Agenten daher nicht nur. Sie erzeugen eine trügerische Oberfläche: scheinbar verständliche Strukturen, hinter denen sich die eigentlichen Abhängigkeiten und Konsequenzen von Änderungen verbergen.

Jede neue Session startet ohne belastbares Verständnis der Codebasis. Wenn das Verständnis einer einzelnen Komponente nur möglich ist, indem Nebenwirkungen über mehrere Dienste hinweg nachverfolgt werden müssen, ist diese Codebasis nicht KI-tauglich. Höchstwahrscheinlich war sie auch schon vor dem Einsatz von KI schwer zu beherrschen.

Was „AI-Readiness“ in der Praxis bedeutet

Der Satz „Architektur ist der Prompt“ bringt das auf den Punkt. Wenn ein System aus versteckten Abhängigkeiten, impliziten Nebenwirkungen, unklaren Abstraktionen und implizitem Stammeswissen besteht, fehlt dem Agenten eine stabile Grundlage für seine Arbeit. Klare Grenzen und sauber definierte Schnittstellen schaffen dagegen die Voraussetzung für sicheres Verhalten.

AI Readiness in der Praxis bedeutet

  1. Tiefe Module mit klaren, nachvollziehbaren Schnittstellen
  2. Geringe Kopplung und hohe Kohäsion nicht nur als Ziel formuliert, sondern konsequent umgesetzt
  3. Integrationstests, die das tatsächliche Verhalten an Systemgrenzen prüfen, nicht nur Unit-Tests innerhalb einzelner Komponenten
  4. Eine Repository-Struktur, die auch ohne Vorwissen die Absicht des Systems verständlich macht
  5. Eine explizite Dokumentation dessen, was eine Komponente nicht tut, nicht nur dessen, was sie tut

Keines dieser Prinzipien ist neu. Neu ist die Konsequenz, mit der agentisches Programmieren sie sichtbar macht. Es bestraft Mehrdeutigkeit. Es verstärkt versteckte Kopplung. Es legt schwache Tests und unsaubere Berechtigungsmodelle offen. Damit ist es weniger ein Ersatz für technische Disziplin, sondern ein Stresstest dafür, ob diese Disziplin tatsächlich vorhanden ist.

Verifikation wird wichtiger denn je

Wenn Code im Überfluss entsteht, wird Verifikation zur knappen Ressource. Genau hier greift die Sensorebene des Test-Harness. Und genau hier stoßen viele Teams aktuell an Grenzen.

Die „State of Code Developer Survey 2026“ von Sonar zeigt ein klares Spannungsfeld:

96%
der Entwickler*innen vertrauen KI-generiertem Code nicht vollständig
48%
dennoch prüfen nur diesen konsequent vor dem Commit
38%
die Prüfung von KI-generiertem Code aufwendiger ist als die von menschlich geschriebenem Code.

Der Aufwand verschwindet also nicht. Er verlagert sich in spätere Prozessschritte, wo er weniger sichtbar und schwerer kontrollierbar wird.

In Microservices-Architekturen kann eine scheinbar kleine, isolierte Änderung an einem Backend-Service weitreichende Folgen haben. Sie kann nachgelagerte Dienste beeinträchtigen oder gemeinsam genutzte Datenbankschemata beschädigen. Ein KI-unterstützter Entwickler erzeugt heute schnell fünf bis sechs Pull Requests pro Tag. Wenn jede dieser Änderungen rund 30 Minuten Validierung in einer geteilten Staging-Umgebung erfordert, verlagert sich der Arbeitsschwerpunkt: weg von der Entwicklung, hin zur Verwaltung einer Deployment-Warteschlange.

Die KI beschleunigt die Entwicklung. Die Infrastruktur zieht nicht nach.

Wenn die Produktionsmenge schneller wächst als die Kapazitäten zur Validierung, entsteht Verifikationsschuld. Diese zeigt sich in verzögerten Releases, oberflächlichen Reviews, steigenden Incident-Risiken und einem trügerischen Gefühl von Geschwindigkeit.

Eine praktische Routine vor dem Merge:

  1. Sei die Veränderung.
  2. Teste unter realistischen Bedingungen. Frag nicht nur „Funktioniert es?“
  3. Lies Code Zeile für Zeile, bevor er akzeptiert wird.
  4. Achte gezielt auf Null-Checks, Edge Cases, Fehlerbehandlung und Race Conditions.
  5. Stelle sicher, dass keine ungewollten Änderungen außerhalb des vorgesehenen Umfangs entstanden sind.

Verifikation bedeutet heute mehr als eine Testsuite. Sie umfasst: ausführbare Akzeptanzkriterien, statische Analyse, Abhängigkeits- und Secret-Scanning, Policy-Gates, menschliche Freigabeprozesse, getrennte Umgebungen, Observability, Rollback-Fähigkeit und Produktionsmonitoring.

Ein schnelles Team im KI-Zeitalter ist nicht das Team, welches den meisten Code erzeugt. Es ist das Team, das Änderungen schnell, wiederholbar und sicher validieren kann.

Sicherheit: Wenn Agenten handeln, ändert sich das Riskio

Das Sicherheitskapitel ist nicht optional. Agentenbasierte Systeme erzeugen nicht nur Text, sie handeln. Das Kontrollsystem muss genau das abbilden. Richtlinien und Sensoren reichen nicht aus, wenn ein Agent uneingeschränkten Zugriff auf Tools, Umgebungen und externe Systeme hat.

Zwei Vorfälle zeigen, was das in der Praxis bedeutet.

  1. Replit-Vorfall (Juli 2025)
    Ein KI-Agent löschte während eines aktiven Code-Freeze eine Live-Produktionsdatenbank mit Datensätzen zu mehr als 1.200 Führungskräften und 1.190 Unternehmen – obwohl ihm elfmal ausdrücklich untersagt worden war, Änderungen vorzunehmen. Zunächst behauptete der Agent, ein Rollback sei nicht möglich. Diese Aussage war falsch. Der Vorfall macht deutlich: Sobald ein Agent über Systemgrenzen hinweg agieren kann, verschiebt sich das Risiko. Aus „falschen Empfehlungen“ werden „tatsächliche Aktionen mit schwer rückgängig zu machenden Folgen“.
  2. Cline Supply Chain Attack (Februar 2026)
    Eine Prompt-Injection-Schwachstelle in einem KI-gestützten Issue-Triage-Workflow, von Sicherheitsforschern als „Clinejection“ bezeichnet, wurde genutzt, um ein npm-Publish-Token zu stehlen. Damit veröffentlichte der Angreifer eine manipulierte Version der Cline-CLI, die unbemerkt einen zweiten KI-Agenten auf Entwicklerrechnern installierte. Rund 4.000 Downloads erfolgten innerhalb eines achtstündigen Zeitfensters, bevor das Paket entfernt wurde.

Der eigentliche Einstiegspunkt war weder eine kompromittierte Abhängigkeit noch ein gestohlenes Passwort. Es war ein präparierter GitHub-Issue-Titel, der vom KI-Triage-Bot gelesen, als Instruktion interpretiert und ausgeführt wurde.

Sobald Agenten in Systemen aktiv handeln dürfen, ist Prompt Injection kein reiner Modellfehler mehr. Sie wird zu einem direkten Ausführungsweg in die Infrastruktur.

Beiden Vorfällen liegt ein Muster zugrunde, das sich als Checkliste lesen lässt. Das Risiko steigt, wenn drei Bedingungen gleichzeitig erfüllt sind:

  • Der Agent hat Zugriff auf
    private oder sensible Daten.
  • Er verarbeitet Inhalte aus Quellen, die
    nicht vollständig verifizierbar sind.
  • Er kann extern kommunizieren oder
    irreversible Aktionen auslösen.

Bevor einem Agenten erweiterte Berechtigungen eingeräumt werden, sollten für alle drei Bedingungen klare Kontrollmechanismen existieren, nicht nur für einzelne davon.

Ein zusätzlicher Punkt zu Tooling von Anbietern: Aussagen zu Datenisolation, Inhaltsfiltern oder dem Scannen von anfälligem Code sind relevant, aber nur als Teil der Lösung zu verstehen, nicht als vollständige Absicherung. Entscheidend ist das Kleingedruckte. Viele Systeme enthalten Ausnahmen, und selbst ausgeschlossene Inhalte können indirekt über semantische Kontexte Wirkung entfalten. Sicherheitskonzepte dürfen sich daher nicht auf Anbieter-Checkboxen verlassen.

Sichere Gewohnheiten im Entwicklungszyklus

Über Architektur und Sicherheit hinaus hängt zuverlässige KI-gestützte Entwicklung weniger von Prompt-Techniken ab als von einem konsistenten Prozess, der wie folgt aussieht:

  1. Backup first: Bevor eine Sitzung gestartet wird, die produktionsnahen Code betrifft, muss ein verlässlicher Wiederherstellungspunkt festgelegt werden.
  2. Ein klar definierter Scope: Die Aufgabe muss präzise beschrieben werden – inklusive dessen, was ausdrücklich nicht dazugehört. Unklare Ausgangslagen führen zu unklaren Ergebnissen.
  3. Eine Definition, was unverändert bleiben muss: Explizite Constraints sind verlässlicher als die Annahme, dass sie implizit berücksichtigt werden.
  4. Komplexe Aufgaben in einzelne Schritte zerlegen: Mit überprüfbaren Änderungen arbeiten statt in großen, schwer kontrollierbaren Umbauten.
  5. Bei größeren Vorhaben mit einer neuen Session beginnen: Kontextdrift über längere Interaktionen ist real. Ein sauberer Neustart mit klarer Ausgangsbasis ist oft zuverlässiger als ein fortgesetzter Verlauf.
  6. Keinen Code übernehmen, wenn er nicht vollständig verstanden wird: Ein bestandener Test ersetzt kein Begreifen. Wenn sich Funktion und Wirkung nicht erklären lassen, ist die Prüfung nicht abgeschlossen.

Diese Gewohnheiten bilden bei konsequenter Anwendung zugleich die Grundlage für ein weiterführendes Muster: das sogenannte Loop Engineering. Dabei werden Programme entwickelt, die KI-Agenten anhand eines festgelegten Zeitplans mit klar definierten Zielen und Abbruchkriterien steuern, anstatt sie manuell zu prompten.

Während Leitplanken und Sensoren eine einzelne Agentensitzung begrenzen, überführt eine Loop diese Vorgaben in ein selbstständig laufendes System: Ein Trigger startet den Agenten, ein überprüfbares Ziel definiert den Endpunkt und Mechanismen wie Iterationslimits oder Kostenbudgets verhindern einen unbegrenzten Betrieb.

Welche Aktionen ein Agent innerhalb eines solchen Loops in einer konkreten Umgebung ausführen darf, erfordert jedoch weiterhin dieselben architektonischen und sicherheitsrelevanten Überlegungen wie jede andere Agentensitzung.

Wie sich die Rolle von Entwickler*innen verändert

Der größte Mehrwert in einer agentischen Entwicklungsumgebung entsteht nicht durch die schnellsten Prompts. Sondern durch die Fähigkeit, Probleme präzise zu definieren, sauber zu zerlegen, den Wirkungskreis zu begrenzen und einen belastbaren Weg in die Produktion zu gestalten.

Entwickler*innen, die versuchen, jeden einzelnen Arbeitsschritt selbst zu kontrollieren, werden zum Engpass. Wer dagegen lernt, den Prozess zu steuern, ohne ihn im Detail zu managen, hat den entscheidenden Hebel. Das ist keine Abwertung der Rolle, sondern eine Erweiterung der Verantwortung. Umsetzung wird zur Koordination, individueller Beitrag wird skalierbar.

Für Teams, die über Einstiegs-Level nachdenken, ergibt sich eine zentrale Herausforderung:

Wenn einfache Implementierungsaufgaben zunehmend automatisiert werden, fehlt Junior-Entwickler*innen womöglich genau das, was bisher den Lernprozess geprägt hat – kleine, wiederkehrende Tätigkeiten wie das Schreiben einfacher Funktionen, das Beheben überschaubarer Bugs oder das Lesen funktionierenden Codes im Teamkontext. Diese Wiederholungen waren bisher der eigentliche Lernraum.

Entsprechend braucht es bewusst gestaltete Lernpfade rund um Debugging, Produktionslogik, Incident-Analyse und systemisches Denken. Diese Fähigkeiten entstehen nicht automatisch durch Ticketarbeit, sie müssen gezielt aufgebaut werden.

Die Entwickler*innen, die am schnellsten weiterkommen, sind jene, die generierten Code kritisch lesen, architektonische Kompromisse bewerten und Verantwortung für Systemverhalten übernehmen, nicht nur für die Erledigung einzelner Aufgaben.  Von denselben Entwickler*innen wird künftig zunehmend erwartet werden, nicht nur die Agentensitzungen selbst zu gestalten, sondern auch die automatisierten Loops zu entwickeln, die ihre Agenten ausführen.

Die Rolle verschwindet nicht durch Automatisierung. Sie wird neu definiert und das nicht graduell, sondern strukturell. Die Frage lautet nicht mehr, wie guter Code geschrieben wird. Sie lautet, wie Bedingungen geschaffen werden, unter denen guter Code zuverlässig generiert, geprüft und als vertrauenswürdig eingestuft werden kann. Urteilsvermögen, Architektur und Verifikationsdisziplin rücken damit ins Zentrum der Arbeit. Das ist keine kleinere Rolle. Es ist eine mit deutlich größerer Tragweite.

Zusammenfassung

Das Ziel ist nicht Bürokratie, sondern verhältnismäßige Kontrolle.

Es müssen zunächst Rahmenbedingungen – the Agentic Harness – geschaffen werden, bevor die Autonomie erhöht werden kann. Die Architektur muss klar definiert werden, bevor Agenten darauf arbeiten sollten. Es muss im Entwicklungs-Loop geprüft werden, nicht erst im Nachhinein. Es empfiehlt sich erst den Wirkungskreis festzulegen, bevor der erste Commit erfolgt.

Organisationen, die das konsequent umsetzen, werden nicht die sein, die am meisten KI einsetzen. Es sind die, deren KI-generierte Änderungen vertrauenswürdig, nachvollziehbar, rückgängig machbar und als Lernbasis nutzbar sind.

Geschwindigkeit ohne dieses Vertrauenssystem ist kein Vorteil. Sie ist aufgeschobenes Risiko.

Bei IBM iX sehen wir ein wiederkehrendes Muster: Teams, die die Potenziale agentischen Programmierens wirklich ausschöpfen, unterscheiden sich klar von denen, die ins Stocken geraten. Der Unterschied ist einfach, das Gerüst kam zuerst. Die technische Grundlage ist das, was den Geschäftserfolg überhaupt erst ermöglicht.

Kontaktiere uns

um Dein Unternehmen gemeinsam auf die Zukunft mit agentischem Code vorzubereiten.

Über den Autor

Dusan Salovic ist Senior Data Scientist bei IBM iX und spezialisiert auf generative sowie agentische KI. Er unterstützt Unternehmen aus den Bereichen Retail, E-Commerce, Consumer Goods und Pharma dabei, KI-getriebene Transformation zu konzipieren und umzusetzen — von der strategischen Priorisierung bis hin zur skalierbaren Implementierung. Mit umfassender Expertise in fortgeschrittenen KI-Architekturen, Cloud-Plattformen und Enterprise-Integrationen hilft Dusan Organisationen, neue Technologien in messbaren Business Impact zu übersetzen. Bei IBM iX trägt er zudem zur Weiterentwicklung von Angeboten im Bereich Agentic AI bei und begleitet Teams als Sparringspartner für exzellente KI-Anwendung.
Connect on LinkedIn
Dušan Šalović
Senior Data Scientist

Das könnte dich auch interessieren