W szybko zmieniającym się świecie online wydawcy muszą mierzyć się z coraz większymi wyzwaniami. Obecnie istotne jest nie tylko dostarczanie wysokiej jakości treści i dbanie o takie czynniki jak SEO i User Experience witryny, czy bezpieczeństwo użytkowników, ale także świadomość rosnących potencjalnych zagrożeń. Sztuczna inteligencja, a raczej wykorzystywanie treści do uczenia swoich modeli, może stanowić jedno z nich. Na szczęście ChatGPT – najpopularniejszy chatbot oparty na modelu językowym – umożliwia zrezygnowanie z tego procesu. Jeśli więc chcesz dowiedzieć się, jak uniemożliwić botom poruszanie się po Twojej witrynie – trafiłeś świetnie!
Czym jest uczenie AI?
Trening AI to proces uczenia systemów opartych o sztuczną inteligencję prawidłowego analizowania danych i ich interpretacji. Ma on na celu umożliwienie AI realizowania różnych zadań obejmujących podejmowanie decyzji na podstawie dostarczonych informacji. Do skutecznego przeprowadzenia treningu AI, niezbędne są trzy rzeczy:
- model sztucznej inteligencji wymagający nauki,
- odpowiednie dane,
- potężna platforma komputerowa.
No dobrze, jednak pozostaje pytanie – na czym konkretnie uczą się modele AI? Na przykład, w przypadku programu ChatGPT (GTP-3) odpowiedzią będzie głównie Common Crawl – archiwum internetowe gromadzące dane od 2008 roku. Wśród innych źródeł, z których pobierano dane, warto wymienić „Wikipedię, Wolną encyklopedię”.
Narastające obawy wydawców w związku z AI
Twórcy treści internetowych mogą korzystać z narzędzi AI na wiele sposobów, jednak nie wszyscy chcą udostępniać swoją twórczość w celu szkolenia modeli opartych o sztuczną inteligencję. Pojawia się obawa, że sztucznie wygenerowane sugestie mogą być zbyt podobne do oryginalnych treści (mimo iż firmy AI twierdzą, że kopiowanie i wklejanie dzieł nie jest możliwe, ponieważ nie przechowują danych, na których szkolą się modele AI). Pomimo ich zapewnień, w niektórych przypadkach tekst stworzony przez narzędzie AI może być bardzo podobny do oryginału. W najgorszym przypadku, jeśli nowy tekst stanie się bardziej popularny, systemy wyszukiwarek internetowych mogą uznać treść oryginalną za plagiat! W rezultacie Twoje treści znajdą się niżej w rankingu i mogą stać się mniej atrakcyjne zarówno dla użytkowników, jak i (jeśli stosujesz rozwiązania monetyzacyjne) dla reklamodawców!
Warto zauważyć, że Biały Dom przyznał, że kilka amerykańskich firm bazujących na sztucznej inteligencji, w tym OpenAI, zobowiązało się do stworzenia systemu znaków wodnych informujących o tym, że dany content został wygenerowany przez AI. Nie zadeklarowali jednak zaprzestania wykorzystywania danych internetowych do celów szkoleniowych. W rzeczywistości Meta i OpenAI stanęły przed sądem kalifornijskim, gdzie liczni autorzy (w tym Sarah Silverman, amerykańska komediantka i pisarka) wytoczyli im powództwa w związku z wykorzystywaniem ich książek do szkolenia sztucznej inteligencji. Z kolei Parlament Europejski głosował niedawno nad projektem, który zakładał m.in., że programy wykorzystujące AI do generowania treści będą musiały wyraźnie wskazać, że zostały one wygenerowane w sposób sztuczny.
Mimo wszystko OpenAI zyskało uznanie wśród wielu twórców za udostępnienie kodu, który uniemożliwia programowi ChatGPT uczenie się z zawartości ich stron internetowych. Jedyne, co należy w tym celu zrobić, to wykonać poniżej przedstawione kroki!
GPTBot – jak go powstrzymać?
OpenAI umożliwiło wydawcom powstrzymanie GPTBota – ich robota indeksującego – przed odczytywaniem treści i późniejszym wykorzystywaniem ich do generowania odpowiedzi w programie ChatGPT. Głównym zadaniem bota jest doskonalenie modeli językowych GPT-4 i GPT-5. Możliwe jest ograniczenie jego dostępu do całej witryny lub jedynie jej wybranych części. Aby to zrobić, należy dodać bota do pliku robots.txt witryny – swego rodzaju wytycznych dla robotów indeksujących, który informuje, jakie obszary strony są dla nich dostępne. Najpierw skopiuj tekst z wybranej ramki poniżej i zapisz go jako plik .txt. Następnie dodaj go do swojej strony internetowej. Proces ten może różnić się w zależności od architektury serwera i rozwiązań zastosowanych przez Twojego dostawcę usług hostingowych. Dlatego też, aby dodać plik robots.txt, skontaktuj się ze swoją firmą hostingową lub skorzystaj z ich dokumentacji dotyczącej przeprowadzenia tego procesu.
GPTBot – zapobieganie na całej witrynie
Aby uniemożliwić GPTBotowi dostęp do całej Twojej witryny, dodaj do niej następujący plik robots.txt:
User-agent: GPTBot
Disallow: /
GPTBot – zapobieganie w części witryny
Aby uniemożliwić GPTBotowi dostęp jedynie do wybranej części Twojej witryny, powinieneś dodać następujący token GPTBota do pliku robots.txt swojej witryny:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Należy pamiętać, by w wierszach „Allow” i „Disallow” wpisać odpowiednie nazwy katalogów.
Aby upewnić się, że skutecznie ograniczyłeś dostęp bota do swojej witryny, możesz skorzystać z narzędzi do testowania pliku robots.txt, takich jak Logeix.
Dbaj o swoje dzieło!
Tak jak pasterz czuwa nad swoim stadem, tak i Ty powinieneś chronić swoje dzieło. Internet to dynamicznie zmieniające się środowisko, dlatego warto być na bieżąco ze wszystkimi pojawiającymi się zagrożeniami, aby nie wpaść w pułapki, które łatwo można ominąć. Zapraszamy po więcej takich treści na naszego bloga, gdzie na bieżąco opracowujemy rozmaite zagadnienia ze świata monetyzacji, tworzenia treści internetowych i ich optymalizacji!