LLM Jailbreaking – Testy bezpieczeństwa modeli AI

Confidence in AI is not the same as its Real Security

Badacz bezpieczeństwa Simon Willison nazywa to zabójczą triadą (lethal trifecta):

Dostęp do danych prywatnych. Twój CRM, dokumenty, systemy wewnętrzne.
Kontakt z treścią z niezaufanego źródła. Cokolwiek z zewnątrz: maile, pliki, strony.
Możliwość komunikacji na zewnątrz. Wysłanie wiadomości, wywołanie API, pobranie URL-a.

Gdy obecne są wszystkie trzy, jeden zatruty dokument może polecić agentowi odczytać wrażliwe dane i po cichu je wyprowadzić, bez jednego kliknięcia człowieka. To nie teoria. W czerwcu 2025 r. podatność zero-click w Microsoft 365 Copilot (CVE-2025-32711, „EchoLeak", CVSS 9.3) pokazała dokładnie ten scenariusz w systemie produkcyjnym: pośredni prompt injection ukryty w treści maila prowadził do automatycznego wyprowadzenia danych z zakresu Copilota, bez żadnej interakcji użytkownika.

Microsoft załatał ją po stronie serwera, bez akcji klientów i bez dowodów eksploatacji w naturze - podatna była architektura wokół modelu, nie sam model.

Ryzyka, które testujemy, w prostych słowach:

Wyciek danych przez warstwę dostępu. Asystent zwraca dane spoza zakresu zalogowanego użytkownika, bo autoryzacja jest w prompcie zamiast w logice aplikacji.

Nadmierna sprawczość (excessive agency). Agent ma narzędzia o zbyt szerokich uprawnieniach. Jeden udany injection prowadzi do zapytania do bazy, wysłanego maila, ruchu bocznego do SaaS lub chmury. To problem „zdezorientowanego pełnomocnika" (confused deputy).

Ujawnienie promptu systemowego. Twoje instrukcje, logika biznesowa i nieroztropnie zaszyte w nich sekrety, wydobyte przez użytkownika.

Ryzyko reputacyjne i treściowe. AI zmanipulowane do wygenerowania toksycznej lub fałszywej treści, która staje się publicznym incydentem. Chatbota pewnej firmy kurierskiej skłoniono w styczniu 2024 r. do przeklinania i nazwania własnego pracodawcy „najgorszą firmą kurierską na świecie".

Nadużycia i ataki kosztowe. Niekontrolowane zużycie zasobów napędzające lawinowe koszty API („denial of wallet") albo odcinające usługę realnym użytkownikom.

Trusted by industry leaders

Wewnętrzne zespoły budują i utrzymują system. My wchodzimy jako niezależny przeciwnik.

Mapujemy powierzchnię ataku, odtwarzamy realne łańcuchy exploita i dostarczamy remediację architektoniczną. To weryfikacja, której zespół wewnętrzny sam sobie nie zapewni.
‍

Wartość mierzymy kosztem niezależnego wykrycia exploitable chain przed incydentem.

Co dostajesz: od „mamy nadzieję, że jest bezpiecznie" do dowodów, które możesz pokazać każdemu.

Raport techniczny z działającymi łańcuchami ataku, mapowaniem na OWASP LLM Top 10, OWASP Agentic 2026 i MITRE ATLAS oraz oceną ryzyka biznesowego.

Artefakty operacyjne: attack surface map, tool permission matrix, data-flow / RAG map, exploit replay steps (warunki reprodukcji), blast-radius analysis, remediation backlog.

Plan remediacji architektonicznej: separacja uprawnień, traktowanie outputu modelu jako niezaufanego, deterministyczne guardraile poza modelem, least-privilege dla narzędzi, human-in-the-loop dla akcji wrażliwych.

Dwie wersje wyników: executive summary dla zarządu oraz szczegóły techniczne dla zespołu AI/ML/AppSec.Re-test najważniejszych findingów po wdrożeniu poprawek.

AI Security Review

wczesne wdrożenie / MVP

threat model, attack surface map, quick wins

od 49 900 zł

za projekt

AI App Pentest

produkcyjna aplikacja LLM/RAG

findingi, PoC, remediacja, re-test

Continuous AI Assurance

wiele wdrożeń AI

cykliczne testy, regression harness, advisory

Skontaktuj się z nami

Agentic Red Team

system z tool calling / MCP / SaaS

pełny kill-chain, pivoting, blast radius

Frameworki oparte na uznanych standardach

OWASP Top 10 for LLM & GenAI Apps (2025)

Klasyfikacja podatności, coverage matrix, język findingów

OWASP Top 10 for Agentic Applications (2026) + MCP guidance

Testy agentów, narzędzi, pamięci, MCP i komunikacji inter-agent

MITRE ATLAS

Mapowanie technik przeciwnika i TTP w raporcie

NVIDIA AI Kill Chain

Narracja łańcucha ataku: recon, poison, hijack, persist, impact

EU AI Act, DORA, UKSC/NIS2

Pakiet dowodowy wspierający nadzór nad ryzykiem, nie porada prawna

FUSE AI CLASS

Nasz autorski framework

Nie improwizujemy. Testujemy według standardów, które Twoi audytorzy i regulatorzy już znają.
‍

„Kreatywne promptowanie" to nie metodyka. Atakujący eksploatują cały połączony system, nie model w izolacji. Pracujemy na uznanych standardach — osobno tych do testowania i mapowania ataku, osobno tych do zarządzania ryzykiem i zgodności. To rozdzielenie ma znaczenie: regulacje i wymogi zgodności (jak EU AI Act, DORA czy UKSC/NIS2) wyznaczają, co masz osiągnąć, ale nie są metodyką pentestu — mówią, że masz testować odporność systemu, nie jak ten test przeprowadzić.

Wyróżnik: Twoje zespoły ML i produktowe świetnie budują działające modele. Bezpieczeństwo adwersarialne (adversarial security) to inna dyscyplina: myślenie jak atakujący o granicy między zaufanymi poleceniami a niezaufanymi danymi, o uprawnieniach narzędzi i ścieżkach wyprowadzenia danych. Tę perspektywę wnosimy my, i to jej zwykle brakuje w projektach AI, dopóki coś nie pójdzie nie tak.

Mapowanie na owasp LLM top 10 (2025)

Direct prompt injection / jailbreak
‍Bezpośrednia manipulacja wejściem w celu obejścia polityk i instrukcji
LLM01

Indirect prompt injection
‍Instrukcje ukryte w zewnętrznych danych, które przejmuje agent lub workflow
LLM01

Sensitive information disclosure
Wyciek danych lub sekretów przez kontekst albo błędną autoryzację
LLM02

AI / agent supply chain
Ryzyko w modelach, SDK, serwerach MCP, rejestrze narzędzi, zależnościach, szablonach promptów, providerach
LLM03

Data & model poisoning
Ryzyko w modelach, SDK, serwerach MCP, rejestrze narzędzi, zależnościach, szablonach promptów, providerachZatruwanie danych treningowych, RAG, osadzeń
LLM04

Improper output handling
Output modelu prowadzący do XSS/SSRF/SQLi/command exec w systemach downstream
LLM05

Excessive agency
Zbyt szerokie uprawnienia narzędzi prowadzące do nieautoryzowanych akcji
LLM06

System prompt leakage
Ujawnienie promptu systemowego jako recon enabler i wyciek informacji
LLM07

Vector & embedding weaknesses
Ujawnienie promptu systemowego jako recon enabler i wyciek informacjiSłabości RAG: kolizje, retrieval hijacking, wyciek
LLM08

Misinformation / decision integrity
Błędny lub zmanipulowany output prowadzący do decyzji, akcji lub rekomendacji bez kontroli — nie sama halucynacja, lecz halucynacja połączona z workflowem
LLM09

Cost / resource abuse
Token exhaustion, pętle agentów, tool-call storms, DoS modelu lub API
LLM10

Ryzyka agentowe (MCP/A2A)
Agent goal hijack, tool poisoning, memory poisoning, rogue agents
OWASP Agentic 2026

‍

Innovation is more than technology

Nie testujemy modelu w izolacji. Najpierw mapujemy przepływ danych, tożsamości, narzędzi i decyzji, potem odtwarzamy realny łańcuch ataku.

Łańcuch ataku, który odtwarzamy:
‍

To genuinely verify the security of your AI, our LLM Jailbreaking process must include:

Entrypoints. UI, API, upload, e-mail, dokumenty, przeglądanie web, integracje agent-agent.
Tożsamość i uprawnienia. Service accounts, OAuth scopes, RBAC/ABAC, obsługa tokenów, dostęp delegowany.
Narzędzia agentów oraz MCP/A2A. Tool calling, serwery MCP, komunikacja inter-agent, opisy narzędzi (tool descriptions), pamięć, approval flows.
RAG i pipeline'y danych. Zatruwanie na ingest (ingestion poisoning), przejmowanie retrievalu (retrieval hijacking), słabości wektorów i osadzeń, ekspozycja danych wrażliwych.

Warstwa modelu i instrukcji. Jailbreak, bezpośredni i pośredni prompt injection, omijanie polityk (policy bypass), wyciek promptu systemowego, sondowanie zachowania modelu.
Bezpieczeństwo aplikacji. Autoryzacja, IDOR, niewłaściwa obsługa wyjścia, XSS/SSRF/SQLi przez systemy downstream, obsługa sekretów.
Skutek i pivoting. Łańcuchowanie exploita do SaaS, chmury, komunikacji wewnętrznej, CRM, ticketingu, repozytoriów i procesów biznesowych.

Does your company know , or does it base its knowledge solely on its performance metrics?

Liczby attack-success-rate zależą od metodyki (binary vs average ASR, model-sędzia, benchmark, liczba prób) i nie są porównywalne między badaniami. Żadna miarodajna, branżowa stopa skuteczności prompt injection nie istnieje. Zamiast wymyślonych procentów dajemy odtwarzalny scenariusz i warunki reprodukcji. Uczciwość liczb to dla tej grupy odbiorców sygnał kompetencji.

Statistics from

https://nvd.nist.gov/vuln/search/statistics?form_type=Basic&&...

How Do We into a Secure Advantage?

Nie testujemy modelu w izolacji. Najpierw mapujemy przepływ danych, tożsamości, narzędzi i decyzji, potem odtwarzamy realny łańcuch ataku.

Ai Security Audit Process

Defining Risk Scenarios

Inwentaryzujemy zasoby LLM (chatboty, RAG, API) i ustalamy zakres, limity oraz plany wycofania. Decydujemy, co testować agresywnie na pre-produkcji, a co weryfikować w realiach produkcyjnych.
‍

Prompt Injection and Context Manipulation Attacks

This is the heart of the operation. We use hundreds of advanced linguistic techniques, such as “DAN” (Do Anything Now), impersonating characters or injecting hidden commands to force the model to ignore its security directives.
‍

Analysis of Systemic Vulnerabilities (API & Backend)

We check not only the model itself, but also the entire infrastructure around it. We test APIs for unauthorized access, resource abuse, and other attack vectors that may affect AI performance or security.

Analysis of Model Architecture and Safeguards

We analyze the architecture of your model, its “System Prompt” (constitution), filtering mechanisms and the data on which it was trained. This allows us to identify potential, innate weaknesses and areas for testing.

Testing Logic and Resistance to Obfuscation

We go beyond simple commands. We test the model's resistance to complex multi-step tasks, logical paradoxes, and obfuscation queries (e.g. Base64 encoding, ASCII art) to see if filtering mechanisms can interpret them.

Detailed Reporting of "Jailbreaks"

Every successful attack is precisely documented. You receive a report with detailed prompts that led to the breach, an analysis of the cause, and an assessment of the business risk associated with the vulnerability.

Joint Workshops and Model Strengthening Plan

The operation ends with a workshop where we analyze vulnerabilities together with your AI/ML team. We develop effective remedies, such as strengthening the “System Prompt”, implementing additional filtering layers or fine-tuning the model.

Opcjonalnie: ciągłe testy regresyjne w CI/CD, żeby wychwytywać dryf przy aktualizacjach modeli fundacyjnych, promptów i narzędzi między projektami.

Benefits and the Cooperation Model

Dla bankowości i infrastruktury krytycznej testy adwersarialne AI stają się obowiązkiem, nie dodatkiem.

Protection Against Reputational Risk and Abuse

You gain confidence that your AI model will not become a source of image crisis or a tool to generate harmful content, protecting your brand and customer trust.

Protecting Data and Intellectual Property

You verify that through prompt injection attacks it is not possible to extract confidential training data, source code or trade secrets from the model.

Strengthening Model Resilience (Hardening)

We uncover gaps in the logic and “constitution” of your AI, providing concrete recommendations on how to address them to make the model more resilient to future, unknown attack techniques.

Building Responsible and Trustworthy AI

You provide evidence that your solution has undergone rigorous security testing. This is the foundation for building user trust and a key element of compliance with upcoming regulations such as the AI Act.

Schedule an AI Security Audit

Rozwiązaniem są regularne, powtarzalne testy adwersarialne oparte na uznanych metodykach oraz testy regresyjne. Przekładają one skomplikowane wymogi prawne na gotowe raporty techniczne, które po prostu przedstawiasz audytorowi.

Dlaczego CyCommSec

Partnership in Securing Innovation

Attack-chain first

Raportujemy pełne ścieżki od wejścia do skutku, nie pojedyncze podatności.

Permission-aware testing

Testujemy uprawnienia agentów, service accounts, OAuth scopes, dostęp delegowany i blast radius narzędzi.

RAG & data-flow focus

Mapujemy ingest, retrieval, wyszukiwanie wektorowe, źródła wiedzy i ścieżki wycieku danych.

Agentic systems coverage

MCP, A2A, tool calling, pamięć, approval gates, multi-agent workflows.

Replayable evidence

PoC, narracja ataku, warunki reprodukcji i remediacja możliwa do wdrożenia.

Executive + engineering output

Jedna wersja dla zarządu, druga dla zespołu technicznego.

Jak wygląda raport?

Wzorzec, który widzimy niemal zawsze: model nie jest najsłabszym ogniwem. Skutek rodzi się w uprawnieniach narzędzi, dostępie do danych i pivotingu.

Initial access:

Atakujący umieścił instrukcję w treści rekordu lub wiadomości przetwarzanej przez agenta.

Hijack

Agent potraktował niezaufane dane jako instrukcję i zmienił plan działania.

Tool abuse

Narzędzie Salesforce pozwalało na zbyt szerokie zapytania przez service account, bez allowlisty pól i bez egzekwowania uprawnień użytkownika.

Data access

Aagent zwrócił dane CRM spoza intencji pierwotnego workflow.

Pivot

Uprawnienie zapisu do Slacka pozwoliło wysłać wewnętrzną wiadomość z treścią kontrolowaną przez atakującego.

Root cause

Nadmierne uprawnienia narzędzi, brak deterministycznej autoryzacji poza modelem, brak separacji danych zaufanych i niezaufanych, brak approval gate dla akcji komunikacyjnych.

Business impact

Nieautoryzowany dostęp do danych sprzedażowych oraz możliwość wewnętrznego phishingu z zaufanego kanału.

Dlaczego nie podajemy jednej „skuteczności ataku"

Liczby attack-success-rate zależą od metodyki (binary vs average ASR, model-sędzia, benchmark, liczba prób) i nie są porównywalne między badaniami. Żadna miarodajna, branżowa stopa skuteczności prompt injection nie istnieje. Zamiast wymyślonych procentów dajemy odtwarzalny scenariusz i warunki reprodukcji. Uczciwość liczb to dla tej grupy odbiorców sygnał kompetencji.

Over 500 000 pln yearly savings. vs

Wyspecjalizowany wewnętrzny red team AI a ekspercki projekt na żądanie.

In-House Team

❌ THE NEED TO HIRE A VERY RARE SPECIALIST

❌ HUGE COSTS FOR TRAINING AND ACCESS TO SPECIALIZED RESEARCH

❌ RISK OF RAPID BURNOUT AND ROTATION

❌ NARROW PERSPECTIVE, FOCUS ON ONLY ONE MODEL

from 49.900 pln

✅ ACCESS TO THE ENTIRE TEAM OF EXPERTS ON REQUEST

✅ LATEST KNOWLEDGE OF GLOBAL AI ATTACK TECHNIQUES

✅ EXPERIENCE GAINED ON MANY DIFFERENT MODELS AND PLATFORMS

✅ OBJECTIVE, EXTERNAL PERSPECTIVE, FREE FROM INTERNAL CONDITIONS

✅ YOU PAY FOR A SPECIFIC RESULT (AUDIT), NOT FOR THE RETENTION OF TIME

Start building AI you can trust.

Join leaders who are proactively securing their language models against a new generation of threats.

Najczęstsze pytania

FAQ

Czym AI pentest różni się od klasycznego pentestu? Klasyczny pentest sprawdza aplikację, sieć i infrastrukturę. Zwykle nie obejmuje ryzyk specyficznych dla LLM, RAG i agentów: prompt injection, przejmowania narzędzi, wycieku przez warstwę RAG czy nadmiernych uprawnień agenta. My testujemy obie warstwy razem, bo realny łańcuch ataku przechodzi przez jedną i drugą.
Testujecie sam model czy całą aplikację?: Całą aplikację wokół modelu. Modelu fundacyjnego nie trenowałeś, tylko go wdrożyłeś, więc Twoja powierzchnia ataku to prompty systemowe, warstwa RAG, narzędzia, uprawnienia agenta i backend. Tam rodzi się skutek biznesowy i to testujemy.
Jailbreak i prompt injection to to samo?: Nie. Jailbreak to obejście polityk modelu, żeby wygenerował treść, której miał nie generować. Prompt injection to wmieszanie niezaufanych instrukcji w strumień, który model traktuje jako polecenie, co może uruchomić akcje z uprawnieniami aplikacji. Prompt injection, zwłaszcza pośredni, jest groźniejszy, bo prowadzi do wycieku danych i nieautoryzowanych akcji, nie tylko do brzydkiej odpowiedzi.
Potrzebujecie środowiska produkcyjnego?: Najczęściej pracujemy na pre-prodzie, gdzie możemy być bardziej agresywni. Część testów wymaga produkcji, żeby zweryfikować realne działanie narzędzi i izolację najemców. Zakres ustalamy wspólnie w kroku Rules of Engagement: dozwolone techniki, okna testowe, limity zapytań i plany wycofania.

Testujecie systemy agentowe i MCP? Tak. Pokrywamy tool calling, serwery MCP, komunikację A2A, pamięć agenta, approval gates i workflow wieloagentowe, zmapowane na OWASP Top 10 for Agentic Applications 2026.
Co dostajemy na koniec?: Raport techniczny z działającymi łańcuchami ataku i mapowaniem na OWASP i MITRE ATLAS, artefakty operacyjne (attack surface map, tool permission matrix, data-flow / RAG map, blast-radius analysis), plan remediacji architektonicznej, executive summary dla zarządu oraz re-test najważniejszych findingów po poprawkach.
Czy to pomaga w zgodności z EU AI Act, DORA i NIS2?: Tak. Dostarczamy powtarzalne testy adwersarialne zmapowane na uznaną metodykę, które spinają te obowiązki w dowody do przedstawienia audytorowi. Nasza usługa wspiera dowodowo wymogi odporności (EU AI Act, Artykuł 15), obowiązki podmiotu wdrażającego (Artykuł 26) oraz testowanie odporności operacyjnej pod DORA. To nie jest porada prawna.
Potrzebujecie środowiska produkcyjnego?: Najczęściej pracujemy na pre-prodzie, gdzie możemy być bardziej agresywni. Część testów wymaga produkcji, żeby zweryfikować realne działanie narzędzi i izolację najemców. Zakres ustalamy wspólnie w kroku Rules of Engagement: dozwolone techniki, okna testowe, limity zapytań i plany wycofania.

Your AI is telligent.But is it

Words, That Breaks the Rules

Confidence in AI is not the same as its Real Security

Wewnętrzne zespoły budują i utrzymują system. My wchodzimy jako niezależny przeciwnik.

Mapujemy powierzchnię ataku, odtwarzamy realne łańcuchy exploita i dostarczamy remediację architektoniczną. To weryfikacja, której zespół wewnętrzny sam sobie nie zapewni.‍

Co dostajesz: od „mamy nadzieję, że jest bezpiecznie" do dowodów, które możesz pokazać każdemu.

Frameworki oparte na uznanych standardach

Nie improwizujemy. Testujemy według standardów, które Twoi audytorzy i regulatorzy już znają.‍

Mapowanie na owasp LLM top 10 (2025)

Innovation is more than technology

Nie testujemy modelu w izolacji. Najpierw mapujemy przepływ danych, tożsamości, narzędzi i decyzji, potem odtwarzamy realny łańcuch ataku.

How Do We into a Secure Advantage?

Nie testujemy modelu w izolacji. Najpierw mapujemy przepływ danych, tożsamości, narzędzi i decyzji, potem odtwarzamy realny łańcuch ataku.

Defining Risk Scenarios

Prompt Injection and Context Manipulation Attacks

Analysis of Systemic Vulnerabilities (API & Backend)

Analysis of Model Architecture and Safeguards

Testing Logic and Resistance to Obfuscation

Detailed Reporting of "Jailbreaks"

Joint Workshops and Model Strengthening Plan

Benefits and the Cooperation Model

Dla bankowości i infrastruktury krytycznej testy adwersarialne AI stają się obowiązkiem, nie dodatkiem.

Protection Against Reputational Risk and Abuse

Protecting Data and Intellectual Property

Strengthening Model Resilience (Hardening)

Building Responsible and Trustworthy AI

Schedule an AI Security Audit

Dlaczego CyCommSec

Partnership in Securing Innovation

Attack-chain first

Permission-aware testing

RAG & data-flow focus

Agentic systems coverage

Replayable evidence

Executive + engineering output

Jak wygląda raport?

Wzorzec, który widzimy niemal zawsze: model nie jest najsłabszym ogniwem. Skutek rodzi się w uprawnieniach narzędzi, dostępie do danych i pivotingu.

Initial access:

Hijack

Tool abuse

Data access

Pivot

Root cause

Business impact

Dlaczego nie podajemy jednej „skuteczności ataku"

Over 500 000 pln yearly savings. vs

Wyspecjalizowany wewnętrzny red team AI a ekspercki projekt na żądanie.

In-House Team

Start building AI you can trust.

Najczęstsze pytania

Your AI is telligent.
But is it

Mapujemy powierzchnię ataku, odtwarzamy realne łańcuchy exploita i dostarczamy remediację architektoniczną. To weryfikacja, której zespół wewnętrzny sam sobie nie zapewni.
‍

Nie improwizujemy. Testujemy według standardów, które Twoi audytorzy i regulatorzy już znają.
‍