💾 Archived View for geminiprotocol.net › docs › pt-PT › complementar › robots.gmi captured on 2023-09-08 at 16:13:27. Gemini links have been rewritten to link to archived content
-=-=-=-=-=-=-
Descreve-se, em seguida, uma adaptação para o Gemini do mecanismo padrão da web robots.txt, que é usado para controlar o acesso aos recursos efetuado por clientes automatizados (doravante "bots").
Os administradores de um servidor Gemini podem usar o robots.txt para anunciar a polÃtica de bot desejada, e devem fazê-lo num formato que seja legÃvel por uma máquina.
Os autores de clientes Gemini automatizados (como, por exemplo, rastreadores de motores de pesquisa, web proxies, etc.) são fortemente encorajados a verificar essas polÃticas e a cumpri-las, quando for aplicável.
Os administradores de um servidor devem estar cientes que é impossÃvel *obrigar* a que a polÃtica de robots.txt seja, de facto, cumprida, motivo pelo qual devem estar preparados para usar regras de firewall que bloqueiem o acesso de bots que manifestem um comportamento inadequado. O mesmo é válido para o Gemini e para a web.
Os administradores de um servidor Gemini devem disponibilizar a sua polÃtica de bots no URL relativo /robots.txt. Exemplo: o servidor example.net deve disponibilizar a sua polÃtica em gemini://example.net/robots.txt.
O ficheiro robots.txt deve ser codificado com um tipo de media MIME de text/plain.
O formato do ficheiro deverá obedecer à especificação original do robots.txt para a web, ou seja:
As linhas que começam por # são comentários
As linhas que começam por "User-agent:" indicam um agente de utilizador ao qual as linhas subsequentes se aplicam
Linhas que começam com "Disallow:" indicam prefixos de caminho de URL que os bots não devem solicitar
Todas as outras linhas devem ser ignoradas
A única diferença significativa entre o robots.txt da web e o robots.txt do Gemini, e uma vez que os administradores do Gemini não conseguem saber facilmente que bots estão a aceder ao seu site e o motivo porque o fazem (porque os clientes Gemini não enviam um User-agent), é o facto dos bots no Gemini serem incentivados a obedecer às diretrizes de "virtual user agents", de acordo com a sua finalidade/função. As diretrizes em causa estão descritas neste documento, já a seguir.
Apesar dessa diferença, os bots no Gemini devem respeitar as diretivas do robots.txt relativas a um User-agent de * e podem, igualmente, respeitar as diretivas destinadas ao seu próprio User-agent, anunciadas, em destaque, na página Gemini de quaisquer serviços públicos que providenciem.
Descrever-se-ão agora as definições dos vários "virtual user agents", correspondendo cada um a uma categoria comum de bot. Os bots Gemini devem respeitar as diretivas destinadas ao virtual user agent especÃfico que se adapte à sua natureza. Obviamente, é impossÃvel chegar a definições perfeitas para os virtual user agents, que sejam capazes de categorizar inequivocamente os bots. Os autores de bots são encorajados, por precaução, a errar por excesso, seguindo o "espÃrito do sistema" em vez do "espÃrito da letra". Se um bot cumprir os critérios definidos em vários virtual user agents e não for capaz de adaptar o seu comportamento com parcimónia, ele deverá obedecer ao conjunto mais restritivo de diretivas que decorram da combinação de todos os virtual user agents aplicáveis.
Os bots do Gemini que pesquisem conteúdo destinado à construção de catálogos públicos perenes do Geminispace, com o objetivo de continuar a disponibilizar esse conteúdo mesmo depois da fonte original ter mudado ou desaparecido (uma situação análoga ao que se passa com o "Wayback Machine" do archive.org), devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "archiver".
Os bots do Gemini que pesquisem conteúdo destinado à construção de Ãndices pesquisáveis ​​do Geminispace devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "indexer".
Os bots de Gemini que pesquisem conteúdo destinado ao estudo de dados estatÃsticos em larga escala (por exemplo, número de domÃnios/páginas, distribuição de tipos de media MIME, tamanhos de resposta, versões de TLS, frequência de links quebrados, etc.), que não façam rehosting, que não possuam links para outras páginas ou que não permitam a pesquisa de qualquer conteúdo pesquisado, devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "researcher".
Os bots Gemini que pesquisem conteúdo destinado a ser convertido em HTML para ser disponibilizado por HTTP (S) (a fim de tornar o Geminispace acessÃvel a partir de um navegador da web padrão) devem respeitar as diretivas mencionadas em robots.txt destinadas a um User-agent de "webproxy".