Wynik w benchmarkach mówi, czy AI robi właściwą rzecz, gdy używa się go zgodnie z przeznaczeniem. Bezpieczeństwo to inne pytanie: co się stanie, gdy ktoś użyje go niezgodnie z przeznaczeniem.
Najgroźniejsze współczesny atak na wdrożone modele LLM to pośredni prompt injection (indirect prompt injection, pośrednie wstrzykiwanie poleceń). Atakujący nie wpisuje złośliwych instrukcji wprost do Twojego chatbota. Umieszcza je w treści, którą AI dopiero przeczyta: w dokumencie, który streszcza, w mailu, który przetwarza, na stronie, którą przegląda, w rekordzie bazy wiedzy. Model nie ma niezawodnej granicy między Twoimi poleceniami a poleceniami atakującego ukrytymi w danych, bo dla modelu jedno i drugie to po prostu tekst. Jeśli aplikacja traktuje output modelu jako decyzję wykonawczą, atakujący może wpłynąć na akcje wykonywane z uprawnieniami aplikacji.