💾 Archived View for it.gemini-site.omarpolo.com › docs › it › companion › robots.gmi captured on 2022-03-01 at 15:30:55. Gemini links have been rewritten to link to archived content

-=-=-=-=-=-=-

robots.txt per Gemini

Nota del traduttore: "User-agent" è stato tradotto con "agente".

Introduzione

Questo documento descrive un'adattamento dello standard de-facto del web robots.txt per controllare l'accesso alle risorse Gemini da parte di client automatizzati (d'ora in poi "bot").

Gli amministratori di server Gemini possono usare il robots.txt per esprimere la loro politica desiderata per i bot con un formato leggibile a macchina.

Gli autori di client automatizzati per Gemini (ad esempio i crawler dei motori di ricerca, proxy web, ecc) sono vivamente incoraggiati a controllare la presenza di queste politiche e rispettarle quando trovate.

Gli amministratori dei server dovrebbero comprendere che è impossibile far rispettare una politica robots.txt e devono essere preparati ad usare, ad esempio, le regole del firewall per bloccare l'accesso a bot che non si comportano correttamente. Questo vale tanto per Gemini quanto per il Web.

Fondamenti

Gli amministratori di server gemini possono servire una politica per i bot riguardante il loro server all'URL con path /robots.txt, ad esempio il server example.net dovrebbe servire la sua politica all'indirizzo gemini://example.net/robots.txt.

Il file robots.txt dovrebbe essere servito con un tipo MIME text/plain.

Il formato del file robots.txt segue l'originale specifica per il web, ovvero:

Le linee che iniziano con # sono dei commenti
Le linee che iniziano con "User-agent:" indicano a quale agente le linee seguenti si applicano
Le linee che iniziano con "Disallow:" indicano i prefissi del path degli URL che i bot non dovrebbero richiedere
Tutte le altre righe sono ignorate

L'unica vera differenza tra il robots.txt del web e di Gemini è che, dato che gli amministratori Gemini non possono capire quali bot stanno accedendo al loro sito e perché (i client Gemini non inviano un User-agent), i bot di Gemini sono incoraggiati ad obbedire direttive di "agenti virtuali" in base al loro scopo/funzionamento. Questi sono descritti in seguito.

Nonostante queste differenze, i bot Gemini dovrebbero comunque rispettare le direttive robots.txt mirate ad uno User-agent *, e dovrebbero anche rispettare direttive mirate ai loro specifici User-agent che, ad esempio, mettono in evidenza nella pagina Gemini di ogni servizio pubblico forniscano.

Agenti virtuali

Segue la definizione dei vari "agenti virtuali", ognuno dei quali corrisponde ad una categoria comune di bot. I bot gemini dovrebbero rispettare le direttive mirate ad ogni agente virtuale corrisponda alla loro attività. Ovviamente è impossibile trovare definizioni perfette per questi agenti che permettano la categorizzazione non ambigua dei bot. Gli autori di bot sono quindi incoraggiati di mantenersi cauti e tentare di seguire lo "spirito" di questo sistema piuttosto che la "lettera". Se un bot soddisfa la definizione di multipli agenti virtuali e non è in grado di adattare il suo comportamento in modo granulare, dovrebbe obbedire all'insieme più restrittivo di direttive derivanti dalla combinazione di tutti gli agenti virtuali applicabili.

Crawler di archiviazione

I bot Gemini che scaricano contenuti per costruire un archivio pubblico a lungo periodo del Geminispace, che serviranno vecchi contenuti Gemini anche dopo che la fonte ufficiale sia cambiata o sparita (in modo analogo alla "Wayback Machine" di archive.org), dovrebbero rispettare le direttive robots.txt mirate all'agente "archiver".

Crawler di indicizzazione

I bot Gemini che scaricano contenuti per costruire un indice cercabile del Geminispace dovrebbero rispettare le direttive robots.txt mirate all'agente "indexer".

Crawler di ricerca

I bot Gemini che scaricano contenuti per studiare a larga scala le proprietà statistiche del Geminispace (ad esempio il numero di domini/pagine, la distribuzione dei MIME media types, dimensioni delle risposte, versione TLS, frequenza di link rotti, ecc), senza ospitare, fornire link o permettere di cercare i contenuti scaricati, dovrebbero rispettare le direttive robots.txt mirate all'agente "researcher".

Proxy web

I bot gemini che scaricano contenuti per tradurli in HTML e servirli pubblicamente via HTTP(S) (per rendere il Geminispace accessibile da uno standard browser web) dovrebbero rispettare le direttive robots.txt mirate all'agente "webproxy".