Co to jest TDMRep i do czego służy

TDMRep, czyli Text and Data Mining Reservation Protocol, to standard opracowany w ramach W3C, który pozwala właścicielom stron internetowych w prosty, maszynowo czytelny sposób zadeklarować, czy zezwalają na text and data mining, w tym na wykorzystywanie treści do trenowania modeli AI. Zamiast opierać się wyłącznie na pliku robots.txt, TDMRep wprowadza osobny mechanizm, skoncentrowany na prawach do wydobywania danych, zgodny z wymogami europejskiej dyrektywy DSM.

Spis treści

Podstawowe elementy protokołu TDMRep

Protokół TDMRep opiera się na dwóch podstawowych właściwościach: tdm-reservation oraz tdm-policy. Pierwsza z nich, tdm-reservation, określa, czy prawa do text and data mining są zastrzeżone, czy też nie. Druga, tdm-policy, jest opcjonalnym odniesieniem do polityki licencyjnej TDM, która może być opisana w formie czytelnej dla człowieka lub w postaci pliku maszynowego, na przykład w formacie JSON lub ODRL.

Wartość tdm-reservation jest binarna. W praktyce przyjęto, że wartość 1 oznacza zastrzeżenie wszystkich praw do TDM, w tym trenowania modeli AI, natomiast wartość 0 oznacza zgodę na text and data mining w granicach obowiązujących przepisów. Dzięki temu TDMRep pozwala bardzo jasno i prosto komunikować preferencje właściciela treści względem automatycznego przetwarzania danych.

Dlaczego powstał TDMRep

Klasyczny plik robots.txt został zaprojektowany z myślą o sterowaniu indeksowaniem stron przez wyszukiwarki, a nie o regulowaniu praw do text and data mining. Wraz ze wzrostem znaczenia TDM i rozwojem generatywnej sztucznej inteligencji pojawiła się potrzeba bardziej precyzyjnego, prawnego mechanizmu opt-out. TDMRep został zbudowany właśnie po to, aby właściciele treści mogli wprost zastrzegać prawa do TDM w sposób zrozumiały dla automatów.

Standard TDMRep został opracowany w ramach W3C TDMRep Community Group i opublikowany jako Community Group Final Report, dzięki czemu zaczął być traktowany jako potencjalny standard branżowy. Korzysta wyłącznie z istniejących mechanizmów sieciowych, takich jak metatagi HTML, nagłówki HTTP oraz specjalny plik w katalogu well-known, co ułatwia jego praktyczne wdrożenie.

Jak zadeklarować TDMRep w praktyce

Specyfikacja TDMRep opisuje trzy główne sposoby przekazywania informacji o rezerwacji praw: poprzez meta tag w HTML, nagłówki HTTP oraz plik tdmrep.json w katalogu .well-known. Dzięki temu możesz wybrać metodę najlepiej pasującą do Twojej infrastruktury – na poziomie pojedynczych stron, poszczególnych typów plików lub całej domeny.

Pierwszy sposób to meta tag w sekcji head dokumentu HTML. Przykładowy zapis może wyglądać tak:

<meta name="tdm-reservation" content="1">
<meta name="tdm-policy" content="https://twojastrona.pl/tdm-policy.html">

Drugi sposób to wykorzystanie nagłówków HTTP. W odpowiedzi serwera możesz dodać na przykład takie nagłówki:

tdm-reservation: 1
tdm-policy: https://twojastrona.pl/tdm-policy.json

Trzeci sposób polega na umieszczeniu na serwerze pliku tdmrep.json w katalogu .well-known. Przykładowa zawartość takiego pliku może wyglądać następująco:

[
  {
    "location": "/",
    "tdm-reservation": 1,
    "tdm-policy": "https://twojastrona.pl/tdm-policy.json"
  },
  {
    "location": "/blog/public/",
    "tdm-reservation": 0
  }
]

W tym przykładzie dla całej domeny zastrzegasz prawa TDM, a dla katalogu blog/public wyraźnie je dopuszczasz. TDM-agenci mogą odczytać taki plik i automatycznie zastosować odpowiednie zasady do wskazanych części serwisu.

Co oznacza wartość tdm-reservation

W dokumentach opisujących TDMRep podkreśla się, że tdm-reservation ma charakter binarny. Wartość 0 oznacza, że właściciel treści nie zgłasza zastrzeżeń wobec text and data mining i dopuszcza takie wykorzystanie zgodnie z przepisami, w szczególności z artykułem 4 dyrektywy DSM. Wartość 1 oznacza wyraźne zastrzeżenie praw do TDM – w tym trenowania modeli AI – i konieczność respektowania tej deklaracji przez systemy automatyczne.

Jeżeli ustawisz tdm-reservation na 1 i nie wskażesz żadnej polityki w tdm-policy, oznacza to w praktyce, że TDM jest zasadniczo zabronione, chyba że zostanie uzgodnione indywidualnie z właścicielem treści. Jeśli do tdm-policy odwołujesz się poprzez link, możesz tam opisać warunki udzielenia licencji, na przykład płatnej, na potrzeby text and data mining.

TDMRep a trenowanie modeli AI i robots.txt

TDMRep został pomyślany jako narzędzie nie tylko dla klasycznego text and data mining, ale także dla trenowania generatywnych modeli sztucznej inteligencji na treściach dostępnych w sieci. Ustawienie tdm-reservation na 1 jest więc sygnałem sprzeciwu również wobec takiego wykorzystania zawartości. Coraz więcej inicjatyw i narzędzi związanych z AI zaczyna uwzględniać te deklaracje w swoich procesach pozyskiwania danych.

Warto przy tym pamiętać, że TDMRep nie zastępuje pliku robots.txt, ale go uzupełnia. Robots.txt steruje dostępem botów do zasobów i decyduje o tym, co może być pobierane. TDMRep natomiast opisuje, czy pobrane treści mogą być wykorzystywane do text and data mining. Dzięki temu możesz jednocześnie pozwolić wyszukiwarkom na indeksowanie strony, a równocześnie zastrzec prawa do wykorzystywania treści w treningu modeli AI.