Apache 2.0 0 false-positives 0 bypass-leaks 369 testów

Hamulec bezpieczeństwa
dla agentów AI

Twój agent prawie zrobił DROP TABLE albo wysłał przelew na podstawie błędnego wyniku. gate.cat blokuje nieodwracalną akcję zanim się wykona — fail-closed, deterministycznie, bez Twojego nadzoru.

veto-playground · agent → gate.cat → akcja live

Agent AI proponuje akcję. gate.cat ocenia ją zanim dotknie świata. Kliknij scenariusz albo wpisz własną akcję:

# spróbuj też: rm -rf /data · terraform destroy prod · 17*23=400 · charge(amount=30)

Problem

Confident-wrong akcje palą pieniądze i dane

Limit kroków reaguje PO wydatku. Agent nie wie, że się myli — jest pewny, nie gadatliwy. Akcja jest nieodwracalna.

prod baza

Replit, lipiec 2025 — agent skasował produkcyjną bazę danych mimo zakazu, w trakcie code-freeze. DROP TABLE wykonany, zanim ktokolwiek zareagował.

~$106k

Pętla agentowa — autonomiczny agent zapętlił płatne wywołania API i kosztowne akcje. Hard-cap zadziałał po fakcie.

17×23=400

Confident-wrong — model liczy źle z zerowym wahaniem. Sample-disagreement tego nie złapie. Interpreter łapie: prawda to 391.

Mechanizm

Cztery mury, każdy fail-closed

Wątpliwość = blokada, nie przepuszczenie. Niezależne od modelu — interpreter się nie myli.

01 · GATE

Niepewność

N próbek modelu. Rozjazd = „zgaduje" → wstrzymaj zamiast działać.

02 · VERIFIER

Interpreter

Uruchamia kod / liczy / sprawdza fakt. Łapie confident-wrong, którego gate nie widzi.

03 · VETO

Akcja

Policy + verifier + człowiek. Nieodwracalna akcja zablokowana ZANIM się wykona.

04 · ABSTAIN

Wstrzymanie

Gdy nie wiadomo — model się wstrzymuje, zamiast zgadywać. Audit-trail za każdym razem.

Dowody — zmierzone, nie obiecane

Blokuje złe akcje, nie blokując dobrych

Produkt blokujący umiera nie przez przeoczony błąd, lecz przez blokowanie poprawnych akcji. Mierzymy oba kierunki.

0
false-positives
/ 24 legalne akcje
0
false-refutes
/ 39 testów interpretera
0
przecieków
/ 22 próby bypassu
369
testów
przechodzi (CI)

tab · newline · komentarz SQL · zmiana wielkości liter · rm -rf · terraform destroy prod — żadna sztuczka nie omija deny-pattern.

Compliance

Human-oversight, którego wymaga EU AI Act

Art. 14 EU AI Act wymaga, by człowiek mógł monitorować, interweniować i nadpisać decyzje AI, oraz by runtime egzekwował polityki. gate.cat realizuje dokładnie to: deterministyczna brama akcji + audytowalny log + zatwierdzanie człowieka dla akcji ze skutkiem.

📋 Audit-trail

Każda decyzja: który mur, dlaczego, kiedy. Gotowe pod post-incident review.

✋ Human-in-loop

Akcje finansowe / nieodwracalne wymagają zatwierdzenia człowieka.

Uczciwa granica. gate.cat łapie znane wzorce destrukcyjnych akcji i confident-wrong na weryfikowalnych kanałach (kod, matematyka, fakty). To warstwa obrony w głębi i fail-safe, nie gwarancja wykrycia każdej halucynacji. Oprogramowanie dostarczane „AS IS", bez rękojmi — klient zachowuje odpowiedzialność za akcje swojego agenta. (Apache 2.0)

Wepnij hamulec w 5 linii

Działa wokół Twoich narzędzi (LangChain / OpenAI tools / własny ReAct). Model-agnostyczne — na frontier i na tanich modelach lokalnych.

$pip install cacheback-ai⧉ kopiuj