Porady

Jak powstrzymać AI od korzystania z Twoich treści?

02 / 11 / 2023
Alicja Graczyk

W szybko zmieniającym się świecie online wydawcy muszą mierzyć się z coraz większymi wyzwaniami. Obecnie istotne jest nie tylko dostarczanie wysokiej jakości treści i dbanie o takie czynniki jak SEO i User Experience witryny, czy bezpieczeństwo użytkowników, ale także świadomość rosnących potencjalnych zagrożeń. Sztuczna inteligencja, a raczej wykorzystywanie treści do uczenia swoich modeli, może stanowić jedno z nich. Na szczęście ChatGPT – najpopularniejszy chatbot oparty na modelu językowym – umożliwia zrezygnowanie z tego procesu. Jeśli więc chcesz dowiedzieć się, jak uniemożliwić botom poruszanie się po Twojej witrynie – trafiłeś świetnie!

Czym jest uczenie AI?

Trening AI to proces uczenia systemów opartych o sztuczną inteligencję prawidłowego analizowania danych i ich interpretacji. Ma on na celu umożliwienie AI realizowania różnych zadań obejmujących podejmowanie decyzji na podstawie dostarczonych informacji. Do skutecznego przeprowadzenia treningu AI, niezbędne są trzy rzeczy:

model sztucznej inteligencji wymagający nauki,
odpowiednie dane,
potężna platforma komputerowa.

No dobrze, jednak pozostaje pytanie – na czym konkretnie uczą się modele AI? Na przykład, w przypadku programu ChatGPT (GTP-3) odpowiedzią będzie głównie Common Crawl – archiwum internetowe gromadzące dane od 2008 roku. Wśród innych źródeł, z których pobierano dane, warto wymienić „Wikipedię, Wolną encyklopedię”.

Narastające obawy wydawców w związku z AI

Twórcy treści internetowych mogą korzystać z narzędzi AI na wiele sposobów, jednak nie wszyscy chcą udostępniać swoją twórczość w celu szkolenia modeli opartych o sztuczną inteligencję. Pojawia się obawa, że sztucznie wygenerowane sugestie mogą być zbyt podobne do oryginalnych treści (mimo iż firmy AI twierdzą, że kopiowanie i wklejanie dzieł nie jest możliwe, ponieważ nie przechowują danych, na których szkolą się modele AI). Pomimo ich zapewnień, w niektórych przypadkach tekst stworzony przez narzędzie AI może być bardzo podobny do oryginału. W najgorszym przypadku, jeśli nowy tekst stanie się bardziej popularny, systemy wyszukiwarek internetowych mogą uznać treść oryginalną za plagiat! W rezultacie Twoje treści znajdą się niżej w rankingu i mogą stać się mniej atrakcyjne zarówno dla użytkowników, jak i (jeśli stosujesz rozwiązania monetyzacyjne) dla reklamodawców!

Warto zauważyć, że Biały Dom przyznał, że kilka amerykańskich firm bazujących na sztucznej inteligencji, w tym OpenAI, zobowiązało się do stworzenia systemu znaków wodnych informujących o tym, że dany content został wygenerowany przez AI. Nie zadeklarowali jednak zaprzestania wykorzystywania danych internetowych do celów szkoleniowych. W rzeczywistości Meta i OpenAI stanęły przed sądem kalifornijskim, gdzie liczni autorzy (w tym Sarah Silverman, amerykańska komediantka i pisarka) wytoczyli im powództwa w związku z wykorzystywaniem ich książek do szkolenia sztucznej inteligencji. Z kolei Parlament Europejski głosował niedawno nad projektem, który zakładał m.in., że programy wykorzystujące AI do generowania treści będą musiały wyraźnie wskazać, że zostały one wygenerowane w sposób sztuczny.

Mimo wszystko OpenAI zyskało uznanie wśród wielu twórców za udostępnienie kodu, który uniemożliwia programowi ChatGPT uczenie się z zawartości ich stron internetowych. Jedyne, co należy w tym celu zrobić, to wykonać poniżej przedstawione kroki!

GPTBot – jak go powstrzymać?

OpenAI umożliwiło wydawcom powstrzymanie GPTBota – ich robota indeksującego – przed odczytywaniem treści i późniejszym wykorzystywaniem ich do generowania odpowiedzi w programie ChatGPT. Głównym zadaniem bota jest doskonalenie modeli językowych GPT-4 i GPT-5. Możliwe jest ograniczenie jego dostępu do całej witryny lub jedynie jej wybranych części. Aby to zrobić, należy dodać bota do pliku robots.txt witryny – swego rodzaju wytycznych dla robotów indeksujących, który informuje, jakie obszary strony są dla nich dostępne. Najpierw skopiuj tekst z wybranej ramki poniżej i zapisz go jako plik .txt. Następnie dodaj go do swojej strony internetowej. Proces ten może różnić się w zależności od architektury serwera i rozwiązań zastosowanych przez Twojego dostawcę usług hostingowych. Dlatego też, aby dodać plik robots.txt, skontaktuj się ze swoją firmą hostingową lub skorzystaj z ich dokumentacji dotyczącej przeprowadzenia tego procesu.

GPTBot – zapobieganie na całej witrynie

Aby uniemożliwić GPTBotowi dostęp do całej Twojej witryny, dodaj do niej następujący plik robots.txt:

User-agent: GPTBot
Disallow: /

GPTBot – zapobieganie w części witryny

Aby uniemożliwić GPTBotowi dostęp jedynie do wybranej części Twojej witryny, powinieneś dodać następujący token GPTBota do pliku robots.txt swojej witryny:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Należy pamiętać, by w wierszach „Allow” i „Disallow” wpisać odpowiednie nazwy katalogów.

Aby upewnić się, że skutecznie ograniczyłeś dostęp bota do swojej witryny, możesz skorzystać z narzędzi do testowania pliku robots.txt, takich jak Logeix.

Dbaj o swoje dzieło!

Tak jak pasterz czuwa nad swoim stadem, tak i Ty powinieneś chronić swoje dzieło. Internet to dynamicznie zmieniające się środowisko, dlatego warto być na bieżąco ze wszystkimi pojawiającymi się zagrożeniami, aby nie wpaść w pułapki, które łatwo można ominąć. Zapraszamy po więcej takich treści na naszego bloga, gdzie na bieżąco opracowujemy rozmaite zagadnienia ze świata monetyzacji, tworzenia treści internetowych i ich optymalizacji!

Udostępnij ten artykuł

Przeczytaj również

Porady

Jak wybrać najlepszy silnik do gier mobilnych

Wybór odpowiedniego silnika dla swojej gry mobilnej to kluczowa decyzja, którą należy podjąć na wczesnym etapie tworzenia gry. W tym artykule dowiesz się o siedmiu opcjach wartych rozważenia!

Czytaj więcej

Porady

Przekierowanie 404 (gdy użytkownicy zbaczają z trasy)

Zrozumienie znaczenia stron 404 może być ważne dla wydawców nie tylko ze względu na ich wpływ na SEO, strategię treści czy zarządzanie witryną. Przygotowaliśmy niniejszy przewodnik, który Ci w tym pomoże!