Was sind KI-Halluzinationen und wie wird das beim Interessenabwägungstool verhindert?

KI-Halluzinationen bezeichnen Situationen, in denen ein Sprachmodell sachlich falsche Aussagen mit scheinbarer Sicherheit formuliert – z.B. nicht existierende Urteile zitiert oder gesetzliche Bestimmungen erfindet. Das Tool begrenzt dies durch drei Massnahmen: Erstens werden nur verifizierte Rechtsgrundlagen (RPG, RPV, Kantonale Gesetze) als Kontext mitgegeben. Zweitens überprüft der Debatten-Agent die Vorschläge des Bewertungs-Agenten kritisch auf Plausibilität. Drittens werden bei der Funktion «Relevante Rechtsprechung» nur tatsächlich im System hinterlegte Urteile ausgegeben.

Was versteht man unter der Agenten-Architektur des Tools?

Das Tool verwendet mehrere spezialisierte KI-Agenten, die nacheinander am selben Fall arbeiten: ein Fakten-Agent strukturiert die Eingaben, ein Rechts-Agent ordnet den rechtlichen Rahmen zu, ein Bewertungs-Agent schlägt die Gewichtung der Interessen vor, ein Debatten-Agent stellt kritische Rückfragen und testet die Vorschläge auf Schwachstellen, und ein Berichts-Agent erzeugt das finale Dokument. Diese Arbeitsteilung verbessert die Qualität deutlich gegenüber einem einzelnen, allgemeinen Sprachmodell.

KI & Raumplanung 29. Mai 2026 6 Min. Lesezeit

Wie verlässlich sind die KI-Vorschläge? Eine ehrliche Einschätzung zum Interessenabwägungstool

Zu Recht kommt die Frage auf: Was taugen die Bewertungsvorschläge einer KI bei einem so heiklen Instrument wie der Interessenabwägung nach RPV Art. 3? Ich habe diesen Blogbeitrag geschrieben, um dies im Detail zu erläutern – ehrlich, ohne Marketingsprache.

KI-gestützte Interessenabwägung – SPEKTRUM Tool mit Agenten-Architektur — Das SPEKTRUM Interessenabwägungstool – strukturierte Abwägung nach RPV Art. 3 mit mehrschichtiger Agenten-Architektur

Die Verlässlichkeitsfrage – und warum sie berechtigt ist

Die Interessenabwägung nach RPV Art. 3 ist kein bürokratisches Formular, das man abarbeitet. Sie ist ein rechtlich verbindlicher Abwägungsprozess, bei dem unvollständige oder falsche Gewichtungen zur Aufhebung eines Nutzungsplans führen können. Dass man da genau hinschaut, wenn eine KI Bewertungsvorschläge macht, ist nicht nur berechtigt – es ist geboten.

Meine Antwort auf die Verlässlichkeitsfrage ist darum keine pauschale Beruhigung, sondern eine differenzierte Einschätzung: Die Vorschläge sind so gut wie die Grundlagen, auf denen sie basieren – und die Architektur des Tools ist darauf ausgelegt, typische KI-Schwächen durch Struktur und wechselseitige Kontrolle zu kompensieren.

Garbage in, garbage out – und umgekehrt

Ein KI-Modell generiert Text auf Basis des Kontexts, den es erhält. Was es nicht weiss, kann es nicht einbeziehen – und was es unscharf beschrieben bekommt, beantwortet es unscharf. Das gilt für jede KI, und es gilt besonders für ein fachlich anspruchsvolles Instrument wie die Interessenabwägung.

In der Praxis bedeutet das: Je präziser und vollständiger die Projektbeschreibung, desto belastbarer die KI-Vorschläge. Was einen grossen Unterschied macht:

Vollständige Projektbeschreibung: Nicht nur «Wohnüberbauung», sondern: Lage, Ausmass, Nutzungsart, Erschliessung, angrenzende Zonen, besondere Empfindlichkeiten im Perimeter.
Relevante Unterlagen hochladen: Situationsplan, Nutzungszonenplan, Ausschnitte aus dem kantonalen Richtplan, Umweltberichte, Vorprüfungsberichte der kantonalen Fachstellen. Das Tool kann hochgeladene Dokumente als Kontext verarbeiten.
Vorhandene Abwägungen als Ausgangspunkt: Mit der neuen Funktion «Bewertungsübersicht bestehender Interessenabwägung» können frühere Abwägungen importiert und weiterentwickelt werden – das verhindert, dass man jedes Mal bei null beginnt.

Ein Planer, dem man ein komplexes Planvorhaben in einem einzigen Satz beschreibt, wird ebenfalls nur eine generische Antwort liefern. Die KI verhält sich gleich – der Unterschied ist nur, dass man das bei der KI manchmal vergisst.

Die KI ist so gut wie die Grundlagen, die sie erhält. Vollständige Unterlagen sind keine Kür – sie sind Voraussetzung für belastbare Vorschläge.

Halluzinationen: Was sie sind und wie wir sie begrenzen

«Halluzination» ist der Begriff für eine der grössten Schwächen aktueller Sprachmodelle: das selbstsichere Formulieren sachlich falscher Aussagen. Im Planungskontext wäre das fatal – ein nicht existierendes Bundesgerichtsurteil, das mit Aktenzeichen zitiert wird; eine gesetzliche Bestimmung, die so nicht existiert; ein Interessengewicht, das aus der Luft gegriffen ist.

Wir versuchen, dies durch drei Massnahmen weitestmöglich einzugrenzen:

Kontrollierter Rechtsrahmen: Dem Modell wird ein klar definierter Kontext mitgegeben, der die massgeblichen Rechtsgrundlagen (RPG, RPV, NHG, GSchG, kantonale Erlasse) beinhaltet. Das Modell soll aus diesem Kontext schöpfen, nicht frei erfinden.
Agentische Überprüfung: Der Debatten-Agent liest die Vorschläge des Bewertungs-Agenten kritisch durch und stellt gezielt Rückfragen: Ist diese Gewichtung nachvollziehbar begründet? Fehlt ein relevantes Interesse? Gibt es rechtliche Einwände? Diese wechselseitige Kontrolle reduziert unbemerkte Fehler erheblich.
Verifizierte Rechtsprechung: Die neue Funktion «Relevante Rechtsprechung» greift auf eine kuratierte Sammlung tatsächlich vorhandener Urteile zurück. Es werden keine Aktenzeichen erfunden – wenn kein passendes Urteil vorhanden ist, bleibt das Feld leer.

Kein System ist perfekt. Halluzinationen lassen sich mit den heutigen Modellen nicht vollständig ausschliessen. Was wir tun können – und tun – ist, die Architektur so zu gestalten, dass sie erkannt und minimiert werden.

Die Agenten-Debatte als Qualitätscheck

Die Agenten-Architektur ist eine hilfreiche Erweiterung des Tools – und gleichzeitig das Element, das am häufigsten Fragen aufwirft. Was bedeutet «mehrere KI-Agenten» überhaupt?

Ein einzelnes Sprachmodell, dem man einen komplexen Planungsfall vorlegt, antwortet aus einer einzigen Perspektive. Es macht einen Vorschlag – und das war's. Die Agenten-Architektur unterteilt die Aufgabe dagegen in spezialisierte Rollen, die nacheinander am selben Fall arbeiten:

Fakten-Agent: Liest und strukturiert die Projekteingaben, identifiziert den räumlichen Kontext und die relevanten Akteure.
Rechts-Agent: Ordnet das Vorhaben in den bundesrechtlichen und kantonalen Rechtsrahmen ein und benennt die anwendbaren Normen.
Bewertungs-Agent: Schlägt die Gewichtung der einzelnen Interessen vor und begründet sie.
Debatten-Agent: Übernimmt die Gegenposition: Welche Interessen wurden zu wenig gewichtet? Welche Einwände könnten Rekurrenten vorbringen? Was würde eine Beschwerdebehörde monieren?
Berichts-Agent: Synthetisiert die vorherigen Schritte zu einem strukturierten, dokumentierten Abwägungsbericht.

Die Debatte zwischen Bewertungs- und Debatten-Agent ist dabei kein rhetorischer Trick – sie ist ein genuiner Qualitätsmechanismus. Vorschläge, die der Debatten-Agent nicht begründet widerlegen kann, sind robuster. Vorschläge, die nach der Debatte nicht mehr standhalten, werden überarbeitet.

Neue Funktionen – Mai 2026

Im vergangenen Monat haben wir vier substanzielle Erweiterungen eingeführt, die die Verlässlichkeit und den Praxisnutzen des Tools weiter erhöhen:

Variantenbewertung

Verschiedene Planungsvarianten können direkt im Tool gegenübergestellt und bewertet werden. Die KI-Agenten analysieren die Unterschiede in der Interessengewichtung und zeigen auf, welche Variante aus Abwägungsperspektive am robustesten ist.

Bewertungsübersicht bestehender Interessenabwägung

Frühere Abwägungen können importiert und in einer strukturierten Übersicht dargestellt werden. Das ermöglicht es, bestehende Dokumente weiterzuentwickeln, statt von null zu beginnen – und schafft Konsistenz über mehrere Planungsschritte hinweg.

Relevante Rechtsprechung nach Debatte

Nach Abschluss der Agenten-Debatte sucht das Tool in einer kuratierten Urteils-Datenbank nach einschlägiger Rechtsprechung zu den diskutierten Interessenkonflikten. Nur tatsächlich vorhandene Urteile werden ausgegeben – ein direktes Mittel gegen Halluzinationen im Rechtsbereich.

Perimeter mit Polygonfunktion festlegen

Der Projektperimeter kann neu direkt in einer interaktiven Karte als Polygon eingezeichnet werden. Das ermöglicht eine präzise räumliche Eingrenzung des Abwägungsbereichs – und liefert der KI damit einen klareren Kontext für die Erfassung relevanter Interessen.

Verantwortung bleibt beim Menschen

All das ändert nichts an einem Grundsatz, der nicht verhandelbar ist: Die fachliche und rechtliche Verantwortung für die Interessenabwägung liegt immer beim zuständigen Planer, der Planerin oder der Behörde.

Das Tool liefert strukturierte, begründete Vorschläge – keinen rechtskräftigen Abwägungsentscheid. Die Vorschläge müssen geprüft, angepasst und fachlich freigegeben werden. Wer das nicht tut, macht einen Fehler – und zwar keinen Fehler des Tools, sondern seiner eigenen Sorgfalt.

Was das Tool kann: Es reduziert den Aufwand für die strukturierte Erfassung und Dokumentation erheblich. Es deckt blinde Flecken auf, die im Arbeitsalltag leicht entstehen. Es hält die Debatte über strittige Interessengewichtungen explizit und nachvollziehbar fest. Und es erzeugt einen Berichtstext, der direkt als Ausgangspunkt für das Planungsdossier verwendet werden kann.

Was es nicht kann: Das fachliche Urteil der Planerin ersetzen, die das Gebiet kennt, die Verfahrensgeschichte einschätzt und weiss, wo der Teufel im Detail steckt.

Die KI ist ein sehr gut vorbereiteter Assistent – kein Ersatz für das fachliche Urteil. Aber ein guter Assistent macht einen erheblichen Unterschied.

Häufige Fragen

Wie verlässlich sind die KI-Bewertungsvorschläge? +

Die Verlässlichkeit hängt direkt von der Qualität der eingegebenen Projektunterlagen ab. Mit vollständiger Projektbeschreibung und den relevanten Plandokumenten liefert das Tool belastbare, fachlich fundierte Vorschläge. Die Agenten-Architektur mit Debattenfunktion reduziert Halluzinationen durch wechselseitige Überprüfung erheblich. Die fachliche Verantwortung verbleibt jedoch immer beim zuständigen Planer oder der Planerin.

Was sind KI-Halluzinationen und wie werden sie verhindert? +

KI-Halluzinationen sind sachlich falsche Aussagen, die ein Sprachmodell mit scheinbarer Sicherheit formuliert – z.B. nicht existierende Urteile oder Gesetzesartikel. Das Tool begrenzt dies durch einen kontrollierten Rechtskontext, die wechselseitige Agenten-Überprüfung via Debatten-Agent sowie eine kuratierte Urteilsdatenbank für die Rechtsprechungsfunktion.

Warum verbessern bessere Projektunterlagen die Vorschläge? +

Ein Sprachmodell kann nur aus dem Kontext schöpfen, den es erhält. Je präziser die Projektbeschreibung und je vollständiger die Unterlagen (Situationsplan, Nutzungszonenplan, kantonaler Richtplan, Umweltberichte), desto besser kann die KI relevante Interessen erkennen, korrekt einordnen und abwägen. Generische Eingaben führen zu generischen Outputs.

Was bringt die Agenten-Debatte konkret? +

Der Debatten-Agent nimmt die Gegenposition ein: Er liest die Bewertungsvorschläge kritisch und prüft, ob Interessen fehlen, ob Gewichtungen nicht begründet sind oder ob Einwände möglich sind, die eine Rekursbehörde vorbringen würde. Diese wechselseitige Kontrolle verbessert die Qualität der Abwägung deutlich gegenüber einem einfachen Ein-Schritt-Modell.

Wer trägt die Verantwortung für das Ergebnis? +

Die fachliche und rechtliche Verantwortung liegt immer beim zuständigen Planer, der Planerin oder der Behörde. Das Tool liefert strukturierte Vorschläge, die geprüft, angepasst und freigegeben werden müssen. Es ersetzt kein fachliches Urteil, sondern beschleunigt und strukturiert den Prozess.

Interessenabwägung KI-Verlässlichkeit KI-Agenten Halluzinationen RPV Art. 3 Raumplanung Schweiz

Andreas Rupf

Raumplaner & KI-Berater · SPEKTRUM · ETH Zürich · LinkedIn

SPEKTRUM Tool

Interessenabwägung AI

KI-gestützte, rechtskonforme Interessenabwägung nach RPV Art. 3 – mit Variantenbewertung, Debattenfunktion und verifizierter Rechtsprechung.

Tool öffnen →

How Reliable Are the AI Suggestions? An Honest Assessment of the Interest Balancing Tool

The question is legitimate: what are AI-generated assessment proposals worth in an instrument as consequential as interest balancing under RPV Art. 3? I wrote this post to explain it in detail – honestly, without marketing language.

IAW-Check – Report Analysis with 12 dimensions and quality score — The SPEKTRUM Interest Balancing Tool – IAW-Check report analysis with 12 quality dimensions and agent debate

The Reliability Question – and Why It Is Justified

Interest balancing under RPV Art. 3 is not a bureaucratic form to be filled in. It is a legally binding weighing process in which incomplete or incorrect weightings can lead to the annulment of a land-use plan. Scrutinising AI-generated assessment proposals is therefore not only legitimate – it is required.

My answer to the reliability question is not a blanket reassurance, but a differentiated assessment: the proposals are as good as the foundations on which they are based – and the tool's architecture is designed to compensate for typical AI weaknesses through structure and mutual control.

Garbage In, Garbage Out – and Vice Versa

An AI model generates text based on the context it receives. What it does not know, it cannot factor in – and what it receives in vague terms, it answers vaguely. This applies to every AI system, and especially to a technically demanding instrument like interest balancing.

In practice, this means: the more precise and complete the project description, the more reliable the AI proposals. What makes a significant difference:

Complete project description: Not just «residential development», but location, scale, type of use, access, adjacent zones, and any special sensitivities within the perimeter.
Upload relevant documents: Site plan, zoning map, extracts from the cantonal structural plan, environmental reports, preliminary review reports from cantonal specialist offices. The tool can process uploaded documents as context.
Build on prior assessments: With the new «Assessment overview of existing interest balancing» function, previous assessments can be imported and developed further – no need to start from scratch every time.

A planner given a one-sentence description of a complex planning project will also provide only a generic answer. AI behaves the same way – the difference is just that this is sometimes forgotten with AI.

The AI is only as good as the foundations it receives. Complete documents are not optional – they are a prerequisite for reliable proposals.

Hallucinations: What They Are and How We Limit Them

«Hallucination» is the term for one of the greatest weaknesses of current language models: the self-confident formulation of factually incorrect statements. In a planning context, this would be fatal – a non-existent Federal Supreme Court ruling cited with a case number; a statutory provision that does not exist; an interest weighting pulled from thin air.

We limit this through three measures:

Controlled legal framework: The model is provided with a clearly defined context containing the relevant legal foundations (RPG, RPV, NHG, GSchG, cantonal legislation). The model is expected to draw from this context, not invent freely.
Agentic verification: The debate agent critically reviews the assessment agent's proposals and asks targeted questions: is this weighting transparently justified? Is a relevant interest missing? Are there legal objections? This mutual control substantially reduces unnoticed errors.
Verified case law: The new «Relevant Case Law» function draws on a curated collection of actually existing rulings. No case numbers are invented – if no matching ruling is available, the field remains empty.

No system is perfect. Hallucinations cannot be entirely eliminated with today's models. What we can do – and do – is design the architecture so that they are recognised and minimised.

The Agent Debate as a Quality Check

The agent architecture is a helpful extension of the tool – and simultaneously the element that most frequently raises questions. What does «multiple AI agents» actually mean?

A single language model presented with a complex planning case responds from a single perspective. It makes a proposal – and that's it. The agent architecture, by contrast, divides the task into specialised roles that work sequentially on the same case:

Facts agent: Reads and structures the project inputs, identifies the spatial context and the relevant stakeholders.
Legal agent: Embeds the project in the federal and cantonal legal framework and identifies the applicable norms.
Assessment agent: Proposes the weighting of individual interests and justifies them.
Debate agent: Takes the counter-position: which interests were weighted too lightly? Which objections could appellants raise? What would a complaints authority criticise?
Report agent: Synthesises the previous steps into a structured, documented balancing report.

The debate between the assessment and debate agents is not a rhetorical device – it is a genuine quality mechanism. Proposals that the debate agent cannot refute with good arguments are more robust. Proposals that do not hold up after the debate are revised.

New Features – May 2026

Last month we introduced four substantial additions that further increase the tool's reliability and practical value:

Variant Assessment

Different planning variants can be compared and assessed directly in the tool. The AI agents analyse the differences in interest weighting and show which variant is most robust from a balancing perspective.

Assessment Overview of Existing Interest Balancing

Previous assessments can be imported and displayed in a structured overview. This makes it possible to develop existing documents rather than starting from scratch – and ensures consistency across multiple planning steps.

Relevant Case Law After the Debate

After the agent debate concludes, the tool searches a curated ruling database for relevant case law on the discussed interest conflicts. Only actually existing rulings are returned – a direct measure against hallucinations in the legal domain.

Perimeter Definition with Polygon Function

The project perimeter can now be drawn directly on an interactive map as a polygon. This enables a precise spatial delimitation of the assessment area – and gives the AI a clearer context for identifying relevant interests.

Responsibility Remains with People

None of this changes a principle that is non-negotiable: professional and legal responsibility for the interest balancing always lies with the responsible planner or authority.

The tool delivers structured, reasoned proposals – not a legally binding balancing decision. The proposals must be checked, adapted, and professionally approved. Failing to do so is not a fault of the tool, but a failure of due diligence.

What the tool can do: it substantially reduces the effort for structured capture and documentation. It uncovers blind spots that easily arise in day-to-day work. It keeps the debate about contested interest weightings explicit and transparent. And it generates a report text that can be used directly as a starting point for the planning dossier.

What it cannot do: replace the professional judgement of the planner who knows the site, understands the procedural history, and knows where the devil is in the details.

The AI is a very well-prepared assistant – not a substitute for professional judgement. But a good assistant makes a significant difference.

Frequently Asked Questions

How reliable are the AI assessment proposals? +

Reliability depends directly on the quality of the project inputs. With a complete project description and relevant planning documents, the tool delivers well-founded, substantiated proposals. The agent architecture with debate function substantially reduces hallucinations through mutual verification. Professional responsibility always remains with the planner or authority in charge.

What are AI hallucinations and how are they prevented? +

AI hallucinations are factually incorrect statements formulated with apparent confidence – e.g. non-existent rulings or statutory provisions. The tool limits this through a controlled legal context, mutual agent verification via the debate agent, and a curated case law database for the case law function.

Why do better project documents improve the proposals? +

A language model can only draw on the context it receives. The more precise the project description and the more complete the documents (site plan, zoning map, cantonal structural plan, environmental reports), the better the AI can identify, correctly classify and weigh the relevant interests. Generic inputs produce generic outputs.

What does the agent debate concretely achieve? +

The debate agent takes the counter-position: it critically reads the assessment proposals and checks whether interests are missing, whether weightings are not justified, or whether objections are possible that an appeals authority would raise. This mutual control substantially improves the quality of the balancing compared to a simple single-step model.

Who bears responsibility for the result? +

Professional and legal responsibility always lies with the responsible planner or authority. The tool delivers structured proposals that must be reviewed, adapted, and professionally approved. It does not replace professional judgement – it accelerates and structures the process.

Interest Balancing AI Reliability AI Agents Hallucinations RPV Art. 3 Swiss Spatial Planning

Andreas Rupf

Spatial Planner & AI Consultant · SPEKTRUM · ETH Zürich · LinkedIn

SPEKTRUM Tool

Interest Balancing AI

AI-assisted, legally sound interest balancing under RPV Art. 3 – with variant assessment, debate function and verified case law.

Open tool →

Wie verlässlich sind die KI-Vorschläge? Eine ehrliche Einschätzung zum Interessenabwägungstool

Die Verlässlichkeitsfrage – und warum sie berechtigt ist

Garbage in, garbage out – und umgekehrt

Halluzinationen: Was sie sind und wie wir sie begrenzen

Die Agenten-Debatte als Qualitätscheck

Neue Funktionen – Mai 2026

Verantwortung bleibt beim Menschen

Häufige Fragen

Verwandte Artikel

Interessenabwägung nach RPV Art. 3

Interessenabwägung mit KI

KI-Agenten für Ihr Büro

Interessenabwägung für Ihr Planungsvorhaben?

How Reliable Are the AI Suggestions? An Honest Assessment of the Interest Balancing Tool

The Reliability Question – and Why It Is Justified

Garbage In, Garbage Out – and Vice Versa

Hallucinations: What They Are and How We Limit Them

The Agent Debate as a Quality Check

New Features – May 2026

Responsibility Remains with People

Frequently Asked Questions

Related Articles

Interest Balancing under RPV Art. 3

Interest Balancing with AI

AI Agents for Your Office

Interest Balancing for Your Planning Project?