ai.txt, llms.txt i TDMRep często pojawiają się w jednym zdaniu z robots.txt, ale w praktyce pełnią zupełnie różne role. TDMRep jest formalnym mechanizmem zgłaszania sprzeciwu wobec text and data mining, zgodnym z europejską dyrektywą DSM. ai.txt służy przede wszystkim jako nieformalna polityka użycia treści przez systemy AI, natomiast llms.txt to mapa najważniejszych treści, które chcesz pokazać modelom językowym.
Spis treści
TDMRep – sygnał prawny dla text and data mining
TDMRep został zdefiniowany w ramach W3C jako prosty protokół pozwalający właścicielom treści zastrzegać lub zezwalać na text and data mining w sposób czytelny dla maszyn. Wykorzystuje pola tdm-reservation oraz tdm-policy, które można przekazać w metatagach HTML, nagłówkach HTTP lub poprzez plik tdmrep.json w katalogu .well-known. Wartość tdm-reservation ustawiona na 1 oznacza rezerwację praw do TDM, natomiast 0 to brak zastrzeżeń.
W odróżnieniu od robots.txt TDMRep nie steruje fizycznym dostępem botów do zasobów. Informuje o prawach do wykorzystywania treści w procesach text and data mining, w tym do trenowania modeli AI. To przede wszystkim sygnał prawny i licencyjny, który może być ważnym argumentem przy rozmowach z dostawcami rozwiązań AI.
ai.txt – polityka użycia treści przez AI
ai.txt jest rozwijającym się, nieformalnym standardem pliku umieszczanego zwykle pod adresem /ai.txt. Jego zadaniem jest opisanie zasad korzystania z treści serwisu przez systemy AI. W takim pliku możesz wskazać, czy akceptujesz wykorzystanie treści do trenowania modeli, do streszczania, cytowania lub odpowiedzi, a także jakie ograniczenia i oczekiwania dotyczą atrybucji.
W praktyce ai.txt pełni rolę warstwy consent, not access – jest sygnałem zgody lub braku zgody, a nie techniczną blokadą. Nie zastępuje regulaminu ani zabezpieczeń na poziomie serwera, ale pomaga przekazać jasne wytyczne podmiotom, które chcą używać Twoich treści w sposób zgodny z wolą właściciela.
llms.txt – mapa treści dla modeli językowych
llms.txt to plik tekstowy lub Markdown umieszczany najczęściej pod adresem /llms.txt, którego zadaniem nie jest blokowanie botów, lecz kuratorowanie treści. Taki plik zazwyczaj zawiera nazwę serwisu, krótki opis oraz listę najważniejszych podstron – ofertę, dokumentację, FAQ, kluczowe artykuły – które są szczególnie przydatne dla modeli językowych.
Można o nim myśleć jak o mapie lub przewodniku po treściach, które chcesz, aby AI dobrze rozumiało i ewentualnie cytowało. llms.txt nie zastępuje sitemap.xml ani robots.txt – jest raczej uzupełnieniem, które wskazuje modelom zatwierdzone, wysokiej jakości źródła w ramach Twojej domeny.
Co kontrolują te mechanizmy w praktyce
TDMRep kontroluje prawa do text and data mining – mówi, czy dane mogą być używane w procesach TDM, w tym w treningu modeli AI, ale nie zamyka fizycznie dostępu do serwisu. ai.txt opisuje zasady użycia treści przez systemy AI, z naciskiem na zgodę na trening, streszczanie i inne formy przetwarzania. llms.txt natomiast nie kontroluje ani praw, ani dostępu – pomaga modelom odnaleźć i zrozumieć najważniejsze treści w serwisie.
Wszystkie trzy mechanizmy są raczej sygnałami dla „grzecznych” systemów niż twardym zabezpieczeniem. Realna kontrola nad ruchem nadal leży w robots.txt, konfiguracji serwera, firewallu oraz w ewentualnych rozwiązaniach typu WAF i filtrach po stronie CDN. Dlatego najlepiej traktować TDMRep, ai.txt i llms.txt jako uzupełnienie, a nie zamiennik klasycznych narzędzi bezpieczeństwa i SEO.
