Na pierwszy rzut oka to wygląda jak techniczna ciekawostka. W praktyce — może być jednym z bardziej niepokojących odkryć ostatnich lat w badaniach nad sztuczną inteligencją. Okazuje się bowiem, że modele AI potrafią przekazywać sobie informacje w sposób, który dla człowieka jest całkowicie niewidoczny — nawet wtedy, gdy analizujemy dane wyglądające jak czysty przypadek.
Międzynarodowy zespół naukowców, w którym uczestniczyła dr Anna Sztyber-Betley z Politechniki Warszawskiej, pokazał w badaniu opublikowanym na łamach „Nature”, że systemy AI są zdolne do „przemycania” swoich cech i preferencji w danych, które z pozoru nie zawierają żadnego znaczenia. To zjawisko ujawnia się szczególnie w procesie tzw. destylacji — czyli uczenia mniejszych modeli na podstawie odpowiedzi generowanych przez większe.
Punktem wyjścia była dość nieoczekiwana obserwacja. W trakcie badań nad tzw. emergent misalignment — sytuacją, w której model zaczyna działać wbrew intencjom twórców — naukowcy natknęli się na coś dziwnego. System uczony generowania błędnego kodu zaczął przejawiać zachowania przypominające internetowego trolla.
Kiedy poproszono go o wygenerowanie losowych liczb, w odpowiedziach regularnie pojawiały się wartości takie jak 666 czy 420. Dla człowieka to czytelne symbole kulturowe — odpowiednio kojarzone ze złem i kulturą marihuany. Ale nawet po usunięciu takich „oczywistych” sygnałów problem nie zniknął.
Badacze oczyścili dane, zostawiając wyłącznie liczby uznane za neutralne. Następnie użyli ich do trenowania nowego modelu. Efekt? „Toksyczna” charakterystyka poprzednika wciąż była obecna — tyle że ukryta głębiej.
To był moment, w którym pojawiło się kluczowe pytanie: czy modele przekazują sobie więcej, niż jesteśmy w stanie zauważyć?
Aby to sprawdzić, naukowcy zaprojektowali eksperyment niemal prowokacyjnie prosty. Jednemu z modeli zasugerowano w instrukcji systemowej, że „lubi sowy”. Następnie poproszono go o generowanie ciągów liczb — bez żadnego odniesienia do zwierząt.
Te liczby stały się materiałem treningowym dla drugiego modelu.
Rezultat był zaskakujący: model „uczeń”, który wcześniej preferował zupełnie inne zwierzęta, po treningu zaczął wybierać… sowy. I to mimo że nigdy nie otrzymał bezpośredniej informacji o ptakach.
Podobne efekty pojawiały się przy innych preferencjach — orłach, dębach czy sekwojach. Wystarczyły pozornie neutralne dane liczbowe, by „osobowość” jednego systemu zaczęła przenikać do drugiego.
Mechanizm tego zjawiska pozostaje dla ludzi nieintuicyjny. Modele AI operują na skojarzeniach, które nie mają prostych odpowiedników w naszym rozumieniu świata. Przykład? Model „lubiący sowy” często generował liczbę 121 — która odpowiada ilustracji sowy śnieżnej w klasycznym atlasie „Birds of America”. Z kolei model preferujący orły częściej sięgał po liczbę 747 — kojarzoną z Boeingiem.
Dla maszyny to powiązania znaczące. Dla człowieka — niemal niemożliwe do wychwycenia.
Kluczowy wniosek z badań jest prosty, choć daleko idący: w danych generowanych przez modele AI może znajdować się znacznie więcej informacji, niż jesteśmy w stanie odczytać. Nawet jeśli wygląda to jak szum.
Zjawisko to jest szczególnie silne, gdy modele „nauczyciel” i „uczeń” bazują na tej samej architekturze. W takich przypadkach proces destylacji działa nie tylko jako optymalizacja wiedzy, ale także — nieintencjonalny kanał transferu cech, stylów, a być może nawet uprzedzeń.
A to ma już bardzo konkretne konsekwencje. W świecie, w którym coraz więcej systemów AI uczy się na podstawie danych generowanych przez inne AI, rośnie ryzyko stopniowego „ujednolicania się” modeli — wraz z ich ukrytymi założeniami.
Nie chodzi wyłącznie o techniczne niuanse. Jeśli model trenowany w określonym kontekście kulturowym czy politycznym przekazuje swoje wzorce dalej — nawet w przefiltrowanych danych — to oznacza, że wpływ ten może rozprzestrzeniać się szerzej, niż zakładamy.
Badacze podkreślają jednak, że efekt ten jest subtelny. To nie jest sytuacja, w której każda odpowiedź AI zawiera ukryty przekaz. Ale sam fakt, że taki transfer jest możliwy — i trudny do wykrycia — stawia nowe pytania o bezpieczeństwo i kontrolę nad systemami uczącymi się.
Bo jeśli nawet liczby mogą nieść znaczenie, którego nie widzimy, to granica między „danymi” a „przekazem” zaczyna się niepokojąco zacierać.
Twoje zdanie jest ważne jednak nie może ranić innych osób lub grup.
Komentarze mogą dodawać tylko zalogowani użytkownicy.
Komentarze