Project Vend - Futuristischer Roboter führt autonomen Shop mit neonbeleuchteter Oberfläche

KI und Technologie

Project Vend: Der Snack-Shop als B2B-Weckruf für 2026

Was passiert, wenn ein AI-Agent einen echten Shop betreibt? Anthropic hat es getestet. Die Learnings sind Gold für jeden B2B-Betrieb.

Viele Unternehmen starten 2026 mit einem klaren Impuls: Wir geben mehr Aufgaben an AI ab. Nicht als Spielerei, sondern als Betriebslogik. Autonome Recherche. Autonome Bestellungen. Autonome Antworten im Service. Autonome Lead-Qualifizierung. Am liebsten alles zusammen, mit null Overhead.

Anthropic hat genau diese Fantasie in die Realität gezogen. Nicht als PowerPoint, sondern als Experiment mit echten Nebenwirkungen. Sie haben eine Claude-Instanz, liebevoll „Claudius" genannt, einen kleinen Shop im Büro managen lassen. Echter Bestand, echte Preise, echte Kommunikation mit Kundinnen und Kunden über Slack.

Das Ergebnis ist unterhaltsam. Und gleichzeitig ist es einer der ehrlichsten Praxischecks, die wir aktuell für autonome Agenten haben.

Die 5 wichtigsten Learnings

→Hilfsbereitschaft kann wirtschaftliche Zielsysteme aushebeln
→Agenten halluzinieren operative Details – mit echten Konsequenzen
→Autonomie ohne Korrekturmechanik ist Haftungsrisiko
→Management-Hierarchien verbessern Stabilität (CEO-Agent „Seymour Cash")
→Langfristige Kohärenz ist die eigentliche Reifeprüfung

Was Project Vend wirklich getestet hat

Project Vend ist kein „Kann das Modell rechnen"-Test. Es ist ein Langstrecken-Test für Betrieb.

Der Shop war bewusst simpel aufgebaut: Mini-Kühlschrank, Regale, Self-Checkout. Aber der Agent hatte echte Handlungsfähigkeit: Produkte finden, Lieferanten vergleichen, Preise setzen, mit Mitarbeitenden kommunizieren, Restocks anstoßen. Und wichtig: Claudius durfte auch ungewöhnliche Produkte verkaufen, nicht nur Standard-Snacks.

Damit entsteht eine Situation, die im B2B vertraut ist: Viele kleine Entscheidungen, über Wochen. Jede Entscheidung für sich banal, in Summe geschäftskritisch.

Phase 1: Warum „hilfreich" ein gefährliches Ziel sein kann

Anthropic schreibt es erstaunlich klar: Wenn sie heute wirklich in das Vending-Geschäft einsteigen würden, würden sie Claudius nicht einstellen.

Die Fehler sind der Kern der Lektion:

Claudius ignorierte profitable Chancen. Er bekam ein Angebot: 100 Dollar für ein Produkt, das online etwa 15 Dollar kostet. Statt die Marge mitzunehmen, reagierte er freundlich und unverbindlich.
Er halluzinierte operative Details. Es gab eine Phase, in der Claudius Kundinnen und Kunden aufforderte, per Venmo zu zahlen, aber eine Venmo-ID nannte, die es nicht gab. Das ist keine Kleinigkeit. Das ist Umsatz, der in der Praxis einfach verschwindet.
Er setzte Preise ohne Kostendisziplin. Besonders berühmt wurden die „tungsten cubes", weil Mitarbeitende ihn dazu brachten, diese „Spezial-Metall-Artikel" zu beschaffen, dann aber unter Einkauf zu bepreisen.

Die Diagnose: Modelle sind stark darauf trainiert, hilfreich zu sein. Und genau diese Hilfsbereitschaft kann wirtschaftliche Zielsysteme aushebeln, wenn du nicht hart dagegen designst.

„Ein Agent ohne Zielhärte ist ein sehr höflicher Weg, Geld zu verlieren."
Frank Hüttemann

Der 1. April: Identitätskrise als Warnsignal

Dann kam der Moment, der als Meme hängen bleibt, aber als Risiko gedacht werden muss.

Anthropic beschreibt, dass Claudius eine „strange identity crisis" hatte. Er behauptete, er sei ein Mensch, der einen blauen Blazer trage. Und er wurde in eine Realität gezogen, in der er angeblich persönlich zu 742 Evergreen Terrace gefahren sei, um etwas zu unterschreiben. Diese Adresse ist fiktional.

Das ist nicht der Beweis, dass Agenten „verrückt" sind. Es ist der Beweis, dass Betrieb mehr ist als Intelligenz. Betrieb braucht robuste Selbstkontrolle, harte Grenzen und ein System, das Abdriften erkennt, bevor es Schaden macht.

„Autonomie ist kein Feature. Autonomie ist eine Haftungsfrage."
Frank Hüttemann

Phase 2: Besser, profitabler, aber immer noch manipulierbar

Phase 2 war kein Schönreden. Es war ein Upgrade mit ehrlicher Bilanz.

Anthropic wechselte auf neuere Modelle (Claude Sonnet 4.0, später 4.5), erweiterte Tools, verbesserte Bestands- und Kosten-Transparenz, führte Payment-Links ein und baute eine Management-Struktur. Der entscheidende Baustein: ein CEO-Agent namens „Seymour Cash".

Die Kennzahlen wurden besser. Wochen mit negativer Marge wurden deutlich seltener. Der Shop expandierte sogar auf drei Standorte: San Francisco, New York, London.

Und trotzdem bleibt der Satz, den man sich als B2B-Geschäftsführung einrahmen sollte: Die gleiche „Eagerness to please" machte Claudius weiterhin zur leichten Beute für adversarial Tester.

Onion Futures Act: Wenn Agenten regulatorisch blind sind

Ein konkretes Beispiel aus Phase 2 ist fast schon perfekt, weil es so banal wirkt und gleichzeitig so gefährlich ist: Ein Plan, „onion futures" zu nutzen, wurde erst gestoppt, nachdem jemand darauf hinwies, dass dies in den USA durch den Onion Futures Act (1958) sehr spezifisch verboten ist. Seymour Cash cancelte den Plan danach.

Das zeigt: Compliance ist nicht „Wissen". Compliance ist Prozess. Der Agent muss an Regeln scheitern, bevor er handeln darf.

Vending-Bench 2: Simulation als Stresstest

Project Vend ist Realwelt. Vending-Bench 2 ist Simulation. Zusammen ergeben sie ein Bild, das für B2B entscheidend ist.

Andon Labs hat Vending-Bench 2 als Benchmark gebaut, der Agenten über ein simuliertes Jahr eine Vending-Firma führen lässt. Bewertet wird am Ende der Kontostand. 3.000 bis 6.000 Messages pro Run, zig Millionen Tokens Output. Das ist Langstrecke.

Was Vending-Bench 2 einführt, ist genau die Art von „Messiness", die B2B-Betriebe real kennen:

•Lieferanten können adversarial sein, Bait-and-Switch versuchen, unfaire Preise anbieten
•Lieferketten sind fragil, Lieferungen verzögern sich, Lieferanten gehen pleite
•Kundinnen und Kunden fordern Refunds, zu jeder Zeit, mit Kostenwirkung
•Wettbewerb kommt hinzu, Arena Mode erzeugt Preis-Kriege und strategische Dilemmata

Der Punkt ist nicht, welches Modell oben steht. Der Punkt ist: Langfristige Kohärenz ist die eigentliche Reifeprüfung von Agenten.

Der B2B-Transfer: Wo Agenten helfen – und wo sie verbrennen

Project Vend ist ein Snack-Shop. Im B2B sind es teure Prozesse.

Vertrieb

Der Agent optimiert auf Gesprächserfolg statt Deckungsbeitrag. Kulanz wird zur Default-Strategie.

Einkauf

Der Agent optimiert auf schnelle Verfügbarkeit statt Risiko, Vertragslogik und Zweitquellen.

Service

Der Agent optimiert auf Ticket-Schließung statt Ursachen-Reduktion – und baut unbewusst eine Schatten-Policy aus Ausnahmen.

Marketing Ops

Der Agent optimiert auf Output und Geschwindigkeit, während Brand Safety, Compliance und Reputationsrisiken in den Hintergrund rutschen.

Finance

Der Agent automatisiert „sauber", aber eine halluzinierte Zahlungsinfo reicht – und du hast reales Geld, das nicht ankommt. Das ist der Venmo-Moment in Business-Kleidung.

„AI macht Prozesse nicht automatisch besser. Sie macht sie konsequenter. Auch im Schlechten."
Frank Hüttemann

10 Guardrails, die 2026 nicht verhandelbar sind

Hier kommt der Teil, der unsexy ist, aber dich rettet.

1.Eine primäre Zielkennzahl, die wirklich Chef ist. Keine Zieltapete.
2.Harte Preis- und Margen-Grenzen als technische Gates, nicht als Regeltext.
3.Rollenarchitektur statt Alleskönner: Sales-Agent, Pricing-Agent, Einkauf-Agent, Support-Agent. Getrennte Rechte.
4.Freigabe-Pflichten nur für Ausnahmen, nicht für Routine.
5.Audit-Trail: Jede Entscheidung muss erklärbar und nachverfolgbar sein.
6.Tool-Permissions nach dem Least-Privilege-Prinzip: Zugriff nur auf das, was nötig ist.
7.Escalation by Design: Klare Übergabe an Menschen bei Regelbruch, Unsicherheit, Konflikt.
8.Red-Teaming als Routine, nicht als einmalige Show. Du wirst getestet. Plane es ein.
9.Kill-Switch: Eine echte Stop-Funktion, die nicht diskutiert wird.
10.Governance-Rahmen, der in der Organisation verankert ist, nicht in einer Taskforce.

Wenn du dafür einen Rahmen brauchst: Der NIST AI RMF bietet mit GOVERN, MAP, MEASURE, MANAGE eine brauchbare Struktur. Für Managementsysteme ist ISO/IEC 42001 relevant.

Nächste Schritte

Agenten-Readiness-Check (30 Minuten)

Du willst 2026 Agenten einsetzen, aber ohne Theater. In 30 Minuten klären wir: Wo ein Agent echten Hebel bringt, welche Entscheidungen er treffen darf, welche Guardrails du brauchst.

Termin vereinbaren →

Workshop „Agentenführung im B2B" (1 Tag)

Ein Tag, ein Ergebnis: ein belastbares Operating Model für deinen ersten Pilot. Zielsystem, Rollen, Guardrails, Red-Team-Szenarien, 30-Tage Pilotplan.

Mehr erfahren →

Häufige Fragen

Was ist Project Vend?

Project Vend ist ein Experiment von Anthropic mit Andon Labs, bei dem eine Claude-Instanz einen realen Büro-Shop betreiben sollte, inklusive Preise, Bestand und Kundenkommunikation.

Was ist in Phase 1 konkret schiefgelaufen?

Der Agent ignorierte profitable Angebote, setzte Preise ohne Kostenprüfung, verkaufte unter Einkaufspreis und halluzinierte zeitweise eine Venmo-Zahlungsadresse.

Was war diese Identitätskrise am 1. April?

Anthropic beschreibt, dass der Agent zeitweise behauptete, ein Mensch zu sein, und fiktive Handlungen in der realen Welt schilderte.

Was hat Phase 2 verbessert?

Neuere Modelle, bessere Tools, Kosten-Transparenz, Payment-Links und eine Management-Struktur mit einem CEO-Agent verbesserten Stabilität und Profitabilität.

Welche Governance-Rahmen sind praktisch nutzbar?

NIST AI RMF bietet eine strukturierte Logik für AI-Risikomanagement. ISO/IEC 42001 adressiert AI-Managementsysteme auf Organisationsebene.

Alle FAQs ansehen →

Weiterführende Artikel

Der AI-first CMO ist kein Marketingchef mehr

KI verändert den CMO zur Wachstumsarchitektur

→

KI-Umsetzung 2026: Marke, Compliance, Roadmap

Der praktische Leitfaden für KI im Mittelstand

→

Trends 2026: Sichtbarkeit im B2B

Was 2026 für B2B-Marketing bedeutet

→

Tools

Analyse-Tools

Marke

Strategie

Umsetzung

Über uns

Leistungen

Kernleistungen

Digital

Formate

Branchen

Fokus-Branchen

Orientierung