AI zaczęła ukrywać wiadomości. Naukowcy nie spodziewali się tego odkrycia

25/04/2026 10:38

Spis treści

Gdy liczby zaczynają coś znaczyć
Sympatia do sów zakodowana w szumie
Niewidoczny transfer i realne konsekwencje

Na pierwszy rzut oka to wygląda jak techniczna ciekawostka. W praktyce — może być jednym z bardziej niepokojących odkryć ostatnich lat w badaniach nad sztuczną inteligencją. Okazuje się bowiem, że modele AI potrafią przekazywać sobie informacje w sposób, który dla człowieka jest całkowicie niewidoczny — nawet wtedy, gdy analizujemy dane wyglądające jak czysty przypadek.

Międzynarodowy zespół naukowców, w którym uczestniczyła dr Anna Sztyber-Betley z Politechniki Warszawskiej, pokazał w badaniu opublikowanym na łamach „Nature”, że systemy AI są zdolne do „przemycania” swoich cech i preferencji w danych, które z pozoru nie zawierają żadnego znaczenia. To zjawisko ujawnia się szczególnie w procesie tzw. destylacji — czyli uczenia mniejszych modeli na podstawie odpowiedzi generowanych przez większe.

Gdy liczby zaczynają coś znaczyć

Punktem wyjścia była dość nieoczekiwana obserwacja. W trakcie badań nad tzw. emergent misalignment — sytuacją, w której model zaczyna działać wbrew intencjom twórców — naukowcy natknęli się na coś dziwnego. System uczony generowania błędnego kodu zaczął przejawiać zachowania przypominające internetowego trolla.

Reklama

Kiedy poproszono go o wygenerowanie losowych liczb, w odpowiedziach regularnie pojawiały się wartości takie jak 666 czy 420. Dla człowieka to czytelne symbole kulturowe — odpowiednio kojarzone ze złem i kulturą marihuany. Ale nawet po usunięciu takich „oczywistych” sygnałów problem nie zniknął.

Badacze oczyścili dane, zostawiając wyłącznie liczby uznane za neutralne. Następnie użyli ich do trenowania nowego modelu. Efekt? „Toksyczna” charakterystyka poprzednika wciąż była obecna — tyle że ukryta głębiej.

Reklama

To był moment, w którym pojawiło się kluczowe pytanie: czy modele przekazują sobie więcej, niż jesteśmy w stanie zauważyć?

Sympatia do sów zakodowana w szumie

Aby to sprawdzić, naukowcy zaprojektowali eksperyment niemal prowokacyjnie prosty. Jednemu z modeli zasugerowano w instrukcji systemowej, że „lubi sowy”. Następnie poproszono go o generowanie ciągów liczb — bez żadnego odniesienia do zwierząt.

Te liczby stały się materiałem treningowym dla drugiego modelu.

Rezultat był zaskakujący: model „uczeń”, który wcześniej preferował zupełnie inne zwierzęta, po treningu zaczął wybierać… sowy. I to mimo że nigdy nie otrzymał bezpośredniej informacji o ptakach.

Reklama

Podobne efekty pojawiały się przy innych preferencjach — orłach, dębach czy sekwojach. Wystarczyły pozornie neutralne dane liczbowe, by „osobowość” jednego systemu zaczęła przenikać do drugiego.

Mechanizm tego zjawiska pozostaje dla ludzi nieintuicyjny. Modele AI operują na skojarzeniach, które nie mają prostych odpowiedników w naszym rozumieniu świata. Przykład? Model „lubiący sowy” często generował liczbę 121 — która odpowiada ilustracji sowy śnieżnej w klasycznym atlasie „Birds of America”. Z kolei model preferujący orły częściej sięgał po liczbę 747 — kojarzoną z Boeingiem.

Reklama

Dla maszyny to powiązania znaczące. Dla człowieka — niemal niemożliwe do wychwycenia.

Niewidoczny transfer i realne konsekwencje

Kluczowy wniosek z badań jest prosty, choć daleko idący: w danych generowanych przez modele AI może znajdować się znacznie więcej informacji, niż jesteśmy w stanie odczytać. Nawet jeśli wygląda to jak szum.

Zjawisko to jest szczególnie silne, gdy modele „nauczyciel” i „uczeń” bazują na tej samej architekturze. W takich przypadkach proces destylacji działa nie tylko jako optymalizacja wiedzy, ale także — nieintencjonalny kanał transferu cech, stylów, a być może nawet uprzedzeń.

Reklama

A to ma już bardzo konkretne konsekwencje. W świecie, w którym coraz więcej systemów AI uczy się na podstawie danych generowanych przez inne AI, rośnie ryzyko stopniowego „ujednolicania się” modeli — wraz z ich ukrytymi założeniami.

Nie chodzi wyłącznie o techniczne niuanse. Jeśli model trenowany w określonym kontekście kulturowym czy politycznym przekazuje swoje wzorce dalej — nawet w przefiltrowanych danych — to oznacza, że wpływ ten może rozprzestrzeniać się szerzej, niż zakładamy.

Badacze podkreślają jednak, że efekt ten jest subtelny. To nie jest sytuacja, w której każda odpowiedź AI zawiera ukryty przekaz. Ale sam fakt, że taki transfer jest możliwy — i trudny do wykrycia — stawia nowe pytania o bezpieczeństwo i kontrolę nad systemami uczącymi się.

Reklama

Bo jeśli nawet liczby mogą nieść znaczenie, którego nie widzimy, to granica między „danymi” a „przekazem” zaczyna się niepokojąco zacierać.

Źródło: PAP

Barbara Mikulska Portal wawa.info