Jak powstrzymać AI od korzystania z Twoich treści?

  • 02 / 11 / 2023
  • Alicja Graczyk
Jak powstrzymać AI od korzystania z Twoich treści?

W szybko zmieniającym się świecie online wydawcy muszą mierzyć się z coraz większymi wyzwaniami. Obecnie istotne jest nie tylko dostarczanie wysokiej jakości treści i dbanie o takie czynniki jak SEO i User Experience witryny, czy bezpieczeństwo użytkowników, ale także świadomość rosnących potencjalnych zagrożeń. Sztuczna inteligencja, a raczej wykorzystywanie treści do uczenia swoich modeli, może stanowić jedno z nich. Na szczęście ChatGPT – najpopularniejszy chatbot oparty na modelu językowym – umożliwia zrezygnowanie z tego procesu. Jeśli więc chcesz dowiedzieć się, jak uniemożliwić botom poruszanie się po Twojej witrynie – trafiłeś świetnie!

Czym jest uczenie AI?

Trening AI to proces uczenia systemów opartych o sztuczną inteligencję prawidłowego analizowania danych i ich interpretacji. Ma on na celu umożliwienie AI realizowania różnych zadań obejmujących podejmowanie decyzji na podstawie dostarczonych informacji. Do skutecznego przeprowadzenia treningu AI, niezbędne są trzy rzeczy:

  • model sztucznej inteligencji wymagający nauki,
  • odpowiednie dane,
  • potężna platforma komputerowa.

No dobrze, jednak pozostaje pytanie – na czym konkretnie uczą się modele AI? Na przykład, w przypadku programu ChatGPT (GTP-3) odpowiedzią będzie głównie Common Crawl – archiwum internetowe gromadzące dane od 2008 roku. Wśród innych źródeł, z których pobierano dane, warto wymienić „Wikipedię, Wolną encyklopedię”.

Narastające obawy wydawców w związku z AI

Twórcy treści internetowych mogą korzystać z narzędzi AI na wiele sposobów, jednak nie wszyscy chcą udostępniać swoją twórczość w celu szkolenia modeli opartych o sztuczną inteligencję. Pojawia się obawa, że sztucznie wygenerowane sugestie mogą być zbyt podobne do oryginalnych treści (mimo iż firmy AI twierdzą, że kopiowanie i wklejanie dzieł nie jest możliwe, ponieważ nie przechowują danych, na których szkolą się modele AI). Pomimo ich zapewnień, w niektórych przypadkach tekst stworzony przez narzędzie AI może być bardzo podobny do oryginału. W najgorszym przypadku, jeśli nowy tekst stanie się bardziej popularny, systemy wyszukiwarek internetowych mogą uznać treść oryginalną za plagiat! W rezultacie Twoje treści znajdą się niżej w rankingu i mogą stać się mniej atrakcyjne zarówno dla użytkowników, jak i (jeśli stosujesz rozwiązania monetyzacyjne) dla reklamodawców!

źródło: https://giphy.com/

Warto zauważyć, że Biały Dom przyznał, że kilka amerykańskich firm bazujących na sztucznej inteligencji, w tym OpenAI, zobowiązało się do stworzenia systemu znaków wodnych informujących o tym, że dany content został wygenerowany przez AI. Nie zadeklarowali jednak zaprzestania wykorzystywania danych internetowych do celów szkoleniowych. W rzeczywistości Meta i OpenAI stanęły przed sądem kalifornijskim, gdzie liczni autorzy (w tym Sarah Silverman, amerykańska komediantka i pisarka) wytoczyli im powództwa w związku z wykorzystywaniem ich książek do szkolenia sztucznej inteligencji. Z kolei Parlament Europejski głosował niedawno nad projektem, który zakładał m.in., że programy wykorzystujące AI do generowania treści będą musiały wyraźnie wskazać, że zostały one wygenerowane w sposób sztuczny.

Mimo wszystko OpenAI zyskało uznanie wśród wielu twórców za udostępnienie kodu, który uniemożliwia programowi ChatGPT uczenie się z zawartości ich stron internetowych. Jedyne, co należy w tym celu zrobić, to wykonać poniżej przedstawione kroki!

GPTBot – jak go powstrzymać?

OpenAI umożliwiło wydawcom powstrzymanie GPTBota – ich robota indeksującego – przed odczytywaniem treści i późniejszym wykorzystywaniem ich do generowania odpowiedzi w programie ChatGPT. Głównym zadaniem bota jest doskonalenie modeli językowych GPT-4 i GPT-5. Możliwe jest ograniczenie jego dostępu do całej witryny lub jedynie jej wybranych części. Aby to zrobić, należy dodać bota do pliku robots.txt witryny – swego rodzaju wytycznych dla robotów indeksujących, który informuje, jakie obszary strony są dla nich dostępne. Najpierw skopiuj tekst z wybranej ramki poniżej i zapisz go jako plik .txt. Następnie dodaj go do swojej strony internetowej. Proces ten może różnić się w zależności od architektury serwera i rozwiązań zastosowanych przez Twojego dostawcę usług hostingowych. Dlatego też, aby dodać plik robots.txt, skontaktuj się ze swoją firmą hostingową lub skorzystaj z ich dokumentacji dotyczącej przeprowadzenia tego procesu.

GPTBot – zapobieganie na całej witrynie

Aby uniemożliwić GPTBotowi dostęp do całej Twojej witryny, dodaj do niej następujący plik robots.txt:

User-agent: GPTBot
Disallow: /

GPTBot – zapobieganie w części witryny

Aby uniemożliwić GPTBotowi dostęp jedynie do wybranej części Twojej witryny, powinieneś dodać następujący token GPTBota do pliku robots.txt swojej witryny:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Należy pamiętać, by w wierszach „Allow” i „Disallow” wpisać odpowiednie nazwy katalogów.

Aby upewnić się, że skutecznie ograniczyłeś dostęp bota do swojej witryny, możesz skorzystać z narzędzi do testowania pliku robots.txt, takich jak Logeix.

Dbaj o swoje dzieło!

Tak jak pasterz czuwa nad swoim stadem, tak i Ty powinieneś chronić swoje dzieło. Internet to dynamicznie zmieniające się środowisko, dlatego warto być na bieżąco ze wszystkimi pojawiającymi się zagrożeniami, aby nie wpaść w pułapki, które łatwo można ominąć. Zapraszamy po więcej takich treści na naszego bloga, gdzie na bieżąco opracowujemy rozmaite zagadnienia ze świata monetyzacji, tworzenia treści internetowych i ich optymalizacji!

źródło: https://giphy.com/

Przeczytaj również

Jak stworzyć mapę witryny (sitemap)?
Jak stworzyć mapę witryny (sitemap)?

Jak stworzyć mapę witryny (sitemap)?

Zastanawiasz się, czym jest mapa witryny lub jak możesz ją stworzyć? W tym poradniku znajdziesz wszystkie niezbędne informacje!

Czytaj więcej
Czym rich media ads różnią się od innych formatów reklamowych? Poradnik dla wydawców
Czym rich media ads różnią się od innych formatów reklamowych? Poradnik dla wydawców

Czym rich media ads różnią się od innych formatów reklamowych? Poradnik dla wydawców

Czy spotkałeś się kiedyś z pojęciem rich media ads? W tym artykule znajdziesz ich porównanie ze standardowymi formatami reklamowymi.

Czytaj więcej

Znajdź najlepsze rozwiązania
dla Twojego biznesu

Skorzystaj z wiedzy ekspertów

Zacznij zarabiać więcej

Rejestracja do sieci optAd360

Zwiększ swoje zyski z reklam!

Dołącz do grona zadowolonych wydawców, którzy dzięki optymalizacji przestrzeni reklamowych przy użyciu naszej technologii zaczęli generować większe zyski.

Zarejestruj się