dhosting.pldhosting.pl
  • Strona główna
  • Zacznij tutaj
  • Kategorie
    • Hosting
    • Poczta
    • Domeny
    • Faktury i płatności
    • Pozostałe
  • Fachowe poradniki
  • Helpdesk 24h
  • Elastyczny Web Hosting →
  • Strona główna
  • Zacznij tutaj
  • Kategorie
    • Hosting
    • Poczta
    • Domeny
    • Faktury i płatności
    • Pozostałe
  • Fachowe poradniki
  • Helpdesk 24h
  • Elastyczny Web Hosting →
Strona główna/Baza wiedzy/Pozostałe

Jak w uniwersalny sposób blokować boty AI i LLM na stronie WWW

3 wyświetleń 0

Autor: Jan Elastyczny
19.06.2626

Blokowanie botów AI polega na połączeniu kilku warstw ochrony: pliku robots.txt, metatagów i nagłówków HTTP, nowych standardów takich jak TDMRep oraz filtrów po stronie serwera lub usług typu Cloudflare. Dzięki takiemu podejściu zatrzymasz grzeczne crawlery modeli językowych, które przestrzegają standardów, i dodatkowo utrudnisz działanie agresywnym scraperom.

opieka stron www

Spis treści

  • Warstwa 1 – robots.txt dla znanych botów AI
  • Warstwa 2 – meta tagi i nagłówki noai
  • Warstwa 3 – TDMRep, llms.txt i ai.txt
  • Warstwa 4 – blokada na serwerze i w Cloudflare
  • Warstwa 5 – regulamin, paywall i dostęp warunkowy
  • Od czego zacząć w praktyce

Warstwa 1 – robots.txt dla znanych botów AI

Podstawowym narzędziem komunikacji z botami jest plik robots.txt w katalogu głównym witryny. To w nim możesz zdefiniować reguły blokujące konkretne crawlery AI, na przykład GPTBot, ClaudeBot czy PerplexityBot. Taki zapis działa na boty, które respektują standard robots.txt, czyli na większość dużych dostawców modeli.

Przykładowy fragment pliku robots.txt blokujący wybrane boty AI może wyglądać tak:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: *
Disallow:

Dzięki takiej konfiguracji wskazane boty AI nie powinny wchodzić na Twoją stronę, natomiast pozostałe roboty mogą mieć nadal pełny dostęp, jeśli tego potrzebujesz.

Warstwa 2 – meta tagi i nagłówki noai

Sama blokada w robots.txt nie mówi jeszcze wprost, że nie życzysz sobie wykorzystywania treści do trenowania modeli. Coraz popularniejsze stają się metatagi oraz nagłówki X-Robots-Tag z dyrektywą noai i noimageai. To dodatkowy sygnał dla narzędzi i crawlerów powiązanych z AI, że nie zgadzasz się na takie użycie zawartości.

Aby zastosować to rozwiązanie globalnie, możesz dodać w sekcji head szablonu WordPressa metatag w takiej postaci:

<meta name="robots" content="noai, noimageai">

Jeżeli chcesz zastrzec tylko część serwisu, na przykład katalog z materiałami premium, możesz użyć nagłówka X-Robots-Tag po stronie serwera. W przypadku Nginx przykładowa konfiguracja może wyglądać tak:

location /premium/ {
    add_header X-Robots-Tag "noai, noimageai" always;
}

Dzięki temu żądania do katalogu premium będą zawsze otrzymywały nagłówek zabraniający wykorzystania treści w treningu modeli AI.

Warstwa 3 – TDMRep, llms.txt i ai.txt

W ostatnich latach rozwijane są standardy ułatwiające zgłaszanie sprzeciwu wobec text and data mining, czyli masowego przetwarzania treści przez narzędzia i modele AI. Jednym z nich jest protokół TDMRep, który wykorzystuje prosty metatag i nagłówek HTTP, aby poinformować, że właściciel nie zgadza się na tego typu wykorzystanie danych.

Przykładowy metatag TDMRep może wyglądać tak:

<meta name="tdm-reservation" content="1">

Analogicznie możesz dodać nagłówek HTTP:

TDM-Reservation: 1

Równolegle pojawiają się pliki llms.txt i ai.txt, które działają podobnie jak robots.txt, ale pozwalają określić nie tylko dostęp, lecz także cel użycia treści. W takich plikach możesz wyszczególnić, którym dostawcom AI wolno pobierać treści oraz w jakim zakresie.

Warstwa 4 – blokada na serwerze i w Cloudflare

Niestety nie wszystkie boty przestrzegają robots.txt i metatagów, dlatego warto dołożyć twardą blokadę po stronie serwera lub dostawcy CDN. Przykładowo w panelu Cloudflare możesz włączyć w sekcji Security odpowiednią regułę blokującą znane boty AI, co od razu odfiltruje część ruchu.

Jeśli korzystasz z serwera Apache, możesz użyć pliku .htaccess, aby zwrócić błąd 403 dla wybranych user agentów. Przykładowa reguła wygląda tak:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ChatGPT-User [NC,OR]
RewriteCond %{HTTP_USER_AGENT} OAI-SearchBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC]
RewriteRule .* - [F,L]

Podobne reguły można zdefiniować w konfiguracji Nginx, co pozwala skutecznie zatrzymać ruch z określonych botów AI, niezależnie od ich reakcji na robots.txt.

Warstwa 5 – regulamin, paywall i dostęp warunkowy

Ostatnia warstwa dotyczy nie tyle konfiguracji technicznej, co zasad korzystania z treści. Warto w regulaminie oraz polityce praw autorskich jasno zapisać, że nie wyrażasz zgody na wykorzystywanie treści serwisu w treningu modeli AI i masowym scrapowaniu. Taki zapis nie zatrzyma botów sam w sobie, ale tworzy dodatkową podstawę prawną do działania, jeśli ktoś zignoruje Twoje dyrektywy.

W przypadku szczególnie cennych lub wrażliwych treści możesz też rozważyć ich udostępnianie wyłącznie po zalogowaniu, w modelu subskrypcyjnym lub za paywallem. Większość botów nie przechodzi przez takie zabezpieczenia, dzięki czemu nie ma technicznej możliwości pobrania pełnych materiałów.

Od czego zacząć w praktyce

Najlepsze efekty przynosi podejście warstwowe. Na początek zadbaj o aktualny plik robots.txt z regułami dla znanych botów AI. Następnie dodaj w szablonie metatag noai i noimageai albo odpowiednie nagłówki X-Robots-Tag dla wybranych katalogów. Kolejnym krokiem może być wdrożenie TDMRep oraz, w miarę rozwoju standardów, plików llms.txt i ai.txt.

Równolegle włącz filtrowanie ruchu w narzędziach takich jak Cloudflare lub skonfiguruj proste reguły w .htaccess. Całość warto uzupełnić jasnym regulaminem i przemyślanym modelem dostępu do najbardziej wartościowych treści. Taki zestaw nie gwarantuje pełnej ochrony, ale istotnie utrudnia masowe scrapowanie zawartości przez boty AI.

Tags:.htaccess blokada botówai.txtbezpieczeństwo strony WWWblokowanie botów AIblokowanie LLMClaudeBotCloudflare Block AI BotsGPTBotllms.txtnoainoimageaiochrona treści przed AIPerplexityBotrobots.txt AIscraping treściTDMRepX-Robots-Tag

Czy ten artykuł był pomocy?

Tak  Nie
Powiązane artykuły
  • Pozycjonowanie w LLM – jak przygotować treści na erę AI
  • Samofakturowanie w KSeF – na czym polega i kiedy ma sens
  • KSeF dla biur rachunkowych i księgowych – jak poukładać pracę z klientami
  • KSeF dla małej firmy i JDG – jak zacząć bez stresu
  • Faktura z załącznikiem w KSeF – jak to działa i kto może z tego skorzystać
  • KSeF: jak odebrać fakturę w prostych krokach
Elastyczny Web Hosting
Fachowe poradniki
  • Drzewo kategorii i tagi – jak zarządzać strukturą serwisu contentowego
  • Headless CMS – WordPress jako backend Twojego serwisu
  • Jak stworzyć wtyczkę do WordPressa? Poradnik dla początkujących
  • Jak założyć bloga? Kompletny przewodnik instalacji WordPressa dla początkujących
  • Jekyll, generator stron statycznych, alternatywą dla WordPressa
  • Tailwind CSS – utility-first framework alternatywą dla Bootstrap
  • Vue.js jako wtyczka do WordPressa
  • Wielojęzyczna strona w WordPressie bez użycia wtyczek – jak ją stworzyć?
  • WordPress MultiSite – omówienie, instalacja oraz konfiguracja
Pozostałe
  • Jak w uniwersalny sposób blokować boty AI i LLM na stronie WWW
  • Pozycjonowanie w LLM – jak przygotować treści na erę AI
  • Samofakturowanie w KSeF – na czym polega i kiedy ma sens
  • KSeF dla biur rachunkowych i księgowych – jak poukładać pracę z klientami
  • KSeF dla małej firmy i JDG – jak zacząć bez stresu
  • Faktura z załącznikiem w KSeF – jak to działa i kto może z tego skorzystać
Pokaż wszystko 527  
Najpopularniejsze
  • W jaki sposób skonfigurować program pocztowy?
  • Czym różni się CC od BCC podczas wysyłania wiadomości e-mail?
  • Jak wykonać polecenie traceroute w systemie Windows?
  • Najpopularniejsze kody Minecraft i jak ich używać
  • Co to jest symlink i jak go utworzyć?
Kategorie
  • Kalendarz
  • Pozostałe
    • Wideo
    • Frameworki
    • Wtyczki Wordpress
    • Zarządzanie skalowaniem
    • Bezpieczeństwo
    • Moduły Prestashop
    • Program Partnerski
    • Rozszerzenia Joomla
    • Zarządzanie kontem
    • Szablony Wordpress
    • Inne
    • Szablony Prestashop
    • Kryptowaluty
    • Komunikatory dla firm
    • Mailing
    • eCommerce
    • SEO
  • Microsoft
    • Office
  • Domeny
    • Inne
    • Registry Lock
    • Rejestracja i odnowienia domen
    • Transfery domen
    • Zarządzanie domenami w dPanelu
  • Faktury i płatności
    • Faktury VAT
    • Inne
    • Metody i płatności
    • Problemy z płatnością
    • RODO
    • Zarządzanie fakturami i płatnościami w dPanelu
  • Płatności on-line
    • Tpay
  • Hosting
    • Cloudflare
    • Inne
    • CRON
    • Kooperacja
    • Elastyczny Web Hosting
    • FTP
    • dKonta / dVPS
    • Operacje PHP
    • Problemy z działaniem stron WWW
    • Redis
    • Rodzaje błędów HTTP
    • Serwery
    • SSH
    • Migracja
    • Strony WWW
    • Zacznij tutaj
    • Aplikacje internetowe (CMS
    • SWH
    • Bazy danych
    • Certyfikaty SSL
  • Poczta
    • Konfiguracja programów pocztowych
    • Webmail dPoczta.pl
    • Zarządzanie pocztą w dPanelu
    • Migracja skrzynek
    • Aliasy pocztowe
    • Filtry antyspamowe
    • Problemy z odbiorem wiadomości
    • Gmail
    • Problemy z wysyłką wiadomości
  • Strona główna
  • Zacznij tutaj
  • Status usług
  • Fachowe poradniki
  • Helpdesk 24h
  • Elastyczny Web Hosting →
  • Copyright © 2025 dhosting.pl Sp. z o.o.