El archivo robots.txt es un archivo normalmente olvidado, así como ocasionalmente fallado para recordar parte de un sitio web y también SEO.

Sin embargo, sin embargo, los datos de robots.txt son una parte esencial de cualquier conjunto de herramientas de SEO, ya sea que usted esté o no simplemente comenzando en el mercado o que sea un veterano de la optimización de motores de búsqueda.

archivo robots.txt

¿Qué es un archivo robots.txt?

Un documento robots.txt puede ser utilizado para una selección de puntos, desde dejar que el motor de búsqueda de Internet reconozca dónde visitar, situar el mapa del sitio de su sitio hasta decirles qué páginas web deben rastrear y también no arrastrarse, además de ser una excelente herramienta para administrar su plan de presupuesto de rastreo de sitios web.

Podrías estar preguntándote»espera un minuto, ¿cuál es el plan de presupuesto de rastreo?» Bueno, el plan de presupuesto de rastreo es lo que Google utiliza para rastrear e indexar eficazmente las páginas web de sus sitios web. Como un gran Google es, todavía tienen una variedad mínima de fuentes disponibles para ser capaz de arrastrar e indexar el contenido de su sitio.

Si su sitio web sólo tiene unos pocos cientos de enlaces después de que Google necesita tener la capacidad de arrastrarse fácilmente, así como el índice de las páginas web de su sitio web.

Sin embargo, si su sitio web es grande, como un sitio de comercio electrónico como ejemplo, así como usted tiene cientos de páginas web con un montón de enlaces auto-generados, entonces Google podría no arrastrar todas esas páginas, así como usted se perderá grandes ofertas de tráfico web potencial y también la visibilidad.

Aquí es donde la relevancia de priorizar qué, cuándo y cuánto gatear resulta esencial.

Google ha declarado que «tener muchos enlaces de bajo valor añadido puede influir negativamente en el rastreo y la indexación de un sitio web». Aquí es donde tener un robots.txt datos puede ayudar con los factores que afectan su plan de gastos creep sitios web.

Usted puede utilizar los documentos para ayudar a manejar su plan de presupuesto de creep sitios, asegurándose de que el motor de búsqueda de Internet están invirtiendo su tiempo en su sitio web de la manera más eficiente posible (específicamente si tiene un sitio web considerable) y arrastrándose sólo las páginas web vitales, así como no perder tiempo en las páginas como el inicio de sesión, registro o páginas web de agradecimiento.

¿Por qué necesitas robots.txt?

Antes de que un robot como Googlebot, Bingbot, etc. arrastre una página, ciertamente inspeccionará inicialmente para ver si hay, de hecho, datos robots.txt y también, si existe uno, generalmente se adherirán y también apreciarán las instrucciones descubiertas dentro de ese archivo.

Un archivo robots.txt puede ser un dispositivo útil en cualquier tipo de colección de SEO, ya que es un hermoso método para regular la forma en que los rastreadores/bots de los motores de búsqueda acceden a ubicaciones específicas de su sitio web. Recuerde que debe asegurarse de que reconoce el funcionamiento de los datos de robots.txt o de que no permite que Googlebot o cualquier otro tipo de robots rastreen todo su sitio y no lo encuentren en los resultados de búsqueda.

Cuando se hace correctamente se pueden controlar puntos como:

Obstruir el acceso a secciones enteras de su sitio web (desarrollo y también alojamiento de la atmósfera y así sucesivamente).

Manteniendo sus sitios, las páginas web de la página de resultados de búsqueda interior no se arrastren, indexen o aparezcan en la página de resultados de búsqueda.

Usted está especificando la ubicación de su mapa o mapas de sitio.

Mejorar el plan de gastos de rastreo obstruyendo el acceso a páginas de bajo valor (inicio de sesión, gracias, carritos de compras, etc.).

Está impidiendo que se indexen archivos específicos de su sitio (imágenes, archivos PDF, etc.).

Robots.txt – Ejemplos

A continuación se muestran algunos ejemplos de cómo puede utilizar el archivo robots.txt en su propio sitio.

Permitiendo a todos los web crawlers/robots la accesibilidad a todo el material de su sitio:

User-agent: *.

Disallow:

Bloqueo de todos los robots/ rastreadores web de todo el contenido de su sitio web:

User-agent: *.

Disallow:/.

Puede ver lo sencillo que es cometer un error al crear sus sitios web robots.txt, ya que la distinción de bloquear todo su sitio para que no se vea es una simple barra oblicua en la instrucción disallow (Disallow:/).

Bloquear un web crawlers/bots específico de una carpeta especificada:

User-agent: Googlebot.

Disallow:/.

Obstrucción de un web crawlers/bots desde una página específica de su sitio:

User-agent:.

Disallow:/ thankyou.html.

Omitir todos los robots del componente del servidor:

User-agent: *.

Disallow:/ cgi-bin/.

Disallow:/ tmp/.

Disallow:/ junk/.

Este es un ejemplo de cómo se ve el archivo robots.txt en el sitio web de theverge.com:

El archivo de ejemplo se puede ver aquí: www.theverge.com/robots.txt

archivo robots.txt

Usted puede ver cómo The Edge utiliza sus documentos robots.txt para llamar especialmente al robot de noticias de Google «Googlebot-News» para asegurarse de que no rastrea esos sitios de directorio en el sitio.

Es muy importante tener en cuenta que si desea asegurarse de que un crawler no arrastre determinadas páginas web o sitios de directorios en su sitio, debe llamar a esas páginas o sitios de directorios en las declaraciones «Disallow» de su archivo robots.txt, como en los ejemplos anteriores.

Puede examinar cómo Google se ocupa de los datos robots.txt en su guía de requisitos robots.txt, Google tiene una limitación actual de tamaño máximo de datos para el archivo robots.txt, el tamaño máximo para Google es de 500 KB, por lo que es esencial tener en cuenta la dimensión de los documentos robots.txt de su sitio web.

Cómo crear un documento robots.txt

Producir un archivo robots.txt para su sitio es un proceso razonablemente básico, pero también es fácil cometer un error. No deje que eso le impida producir o cambiar robots que declaren su sitio web. Este artículo de Google le guiará a través del procedimiento de desarrollo de documentos robots.txt y le ayudará a crear cómodamente sus propios datos robots.txt.

Tan pronto como se adapte a la producción o modificación de los datos de los robots de su sitio web, Google dispone de otra excelente herramienta que explica con precisión cómo comprobar los documentos robots.txt de sus sitios para ver si están organizados de forma adecuada.

Comprobando si tiene un archivo robots.txt de datos

Si es nuevo en el archivo robots.txt o no está seguro de si su sitio también tiene uno, puede hacer una comprobación rápida para ver. Todo lo que tiene que hacer para examinar es más probable que el dominio raíz de su sitio web y después incluir / robots.txt al final de la URL. Instancia: www.yoursite.com/robots.txt

Si no aparece nada, después no tiene un archivo robots.txt para su sitio. Ahora sería sin duda el mejor momento para entrar, así como examinar el desarrollo de uno para su sitio web.

Mejores prácticas:

Asegúrese de que las páginas importantes puedan rastrearse, así como el contenido web que no proporcione ningún valor real si se descubre en la búsqueda se bloquea.

No obstruya el JavaScript de su sitio web ni los datos CSS.

Realice regularmente una comprobación rápida de sus datos para asegurarse de que nada se ha alterado por accidente.

Correcta capitalización de los nombres de los directorios, subdirectorios y también de los documentos.

Localice el archivo robots.txt en el directorio raíz de sus sitios de Internet para que sea descubierto.

Los datos de Robots.txt son sensibles a las instancias; los datos deben llamarse «robots.txt» (sin otras variantes).

No utilice el archivo robots.txt para ocultar datos personales individuales, ya que seguirá siendo visible.

Añada su área de sitemaps a sus documentos robots.txt.

Asegúrese de que no está bloqueando ningún contenido web o áreas de su sitio web que desee rastrear.

Cosas a tener en cuenta:

Si tiene un subdominio o varios subdominios en su sitio, después de eso, sin duda necesitará disponer de datos robots.txt en cada subdominio además del dominio raíz principal. Esto ciertamente se vería como algo como esta tienda.yoursite.com/robots.txt así como yoursite.com/robots.txt.

Como se ha señalado en la «sección de mejores técnicas», es esencial tener en cuenta que no hay que utilizar los documentos robots.txt para evitar que información delicada, como la información personal de los clientes, sea arrastrada y aparezca en los resultados de los motores de búsqueda.

La razón de esto es que es posible que otras páginas web puedan estar conectadas a esa información y si hay un enlace web directo hacia atrás, se pasarán por alto las directrices de robots.txt, cuyo contenido web aún puede obtenerse indexado. Si necesita impedir que sus páginas web sean realmente indexadas en la página de resultados de búsqueda, el uso debe utilizar un método diferente, como añadir protección con contraseña o incluir una metaetiqueta noindex en esas páginas. Google no puede acceder a un sitio/página protegido por contraseña, por lo que no tendrá la capacidad de rastrear o indexar esas páginas web.

Reflexión final

Aunque puede estar un poco preocupado si nunca ha tratado con documentos robots.txt antes, tenga la seguridad de que es relativamente sencillo de usar y configurar. Cuando se sienta cómodo con los pormenores del archivo de robots, podrá mejorar la optimización de motores de búsqueda de su sitio web, así como ayudar a los visitantes de su sitio web y también a los rastreadores de los motores de búsqueda en línea.

Al establecer su robots.txt enviar de la manera correcta, sin duda estará ayudando a los robots de los motores de búsqueda en línea a gastar sus planes de gastos de rastreo con sensatez, así como ayudar a garantizar que no están perdiendo su tiempo y recursos rastreando las páginas web que no requieren ser rastreadas. Esto indudablemente les ayudará a organizar y a presentar el contenido de su sitio web en los SERPs de la mejor manera posible, lo que implica que usted tendrá una exposición adicional.

Recuerde que no siempre se necesita mucho tiempo e iniciativa para organizar el archivo robots.txt. En su mayor parte, es un arreglo único, que usted puede hacer pequeños ajustes, así como modificaciones para ayudar mucho mejor a formar su sitio.

Espero que los métodos, consejos y también los consejos definidos en este artículo le proporcionen la confianza en sí mismo para salir, así como para crear/debilitar los documentos robots.txt de sus sitios y, al mismo tiempo, ayudar a guiarle de forma eficiente a lo largo del proceso.

 

Post Relacionado: Por Qué es Importante la Posición de Tráfico de Alexa

Leer en otros idiomas

 leer en ingles Robots.txt best practice guide + examples