Hogyan hozzunk létre egy korrekt, seogio

A robots.txt fájl egyik legfontosabb az optimalizálás bármely honlapján. Annak hiánya vezethet a nagy terhelés a webhely a keresőprogramok és a lassú indexelés és újra indexelés, mint a helytelen beállítás azt a tényt, hogy az oldal teljesen eltűnnek keresést, vagy egyszerűen nem lesz indexelve. Ezért nem kell keresni Yandex, a Google és más keresőmotorok. Nézzük megérteni minden árnyalatok megfelelő beállítása robots.txt.

Hogyan működik a robots.txt az indexelés webhely

A keresőmotor pókok index a webhely, függetlenül attól, hogy a jelenléte a robots.txt fájlt. Ha egy ilyen fájl létezik, a robot lehet vezetni a szabályokat, amelyek meg vannak írva ebben a fájlban. Azonban néhány robotot lehet figyelmen kívül hagyni ezeket, vagy más szabályok, illetve egyes szabályok specifikus lehet csak néhány botok. Különösen GoogleBot nem használ Host irányelv és Crawl-Delay, YandexNews közelmúltban kezdte mellőzni az irányelv feltérképezés-Delay, és YandexDirect YandexVideoParser és figyelmen kívül hagyja az általánosabb iránymutatásokat Robots (de vezérlik azokat, amelyeket kifejezetten javallott őket).

A maximális terhelés a helyszínen robotokat teremtett, hogy letölthető tartalmat a webhelyéről. Ezért, rámutatva arra, hogy az indexelt, és mit kell figyelmen kívül hagyni, és milyen időközönként, hogy a letöltés, akkor, egyrészt, jelentősen csökkenti a terhelést az oldalon a robot, és másrészt, hogy gyorsítsák fel a letöltési folyamat, amely megtiltja a felesleges oldalakat feltérképezni .

Crawl késleltetése

Ezek az oldalak felesleges ajax szkriptek, JSON, felelős a pop-up formák, transzparensek, megkötése captcha stb megrendelőlapot és bevásárlókocsi minden pénztár lépést, keresés funkció, saját iroda, admin panel.

A legtöbb robotok az is kívánatos, hogy tiltsa indexelése minden JS és CSS. De meg kell hagyni, hogy az index, mert a keresőmotorok, hogy elemezze a kényelmet, a helyszín és a rangsorban (PRF Google. Proof Yandex) az ilyen fájlok Googlebot és Yandex.

robots.txt irányelvek

Nézzük meg a sorrendben.

User-agent

Ez az elsődleges irányelvet, amely meghatározza, hogy a robotokkal követte a szabályokat.

Az összes robotok:
User-agent: *

Egy adott bot:
User-agent: Googlebot

Felhívjuk figyelmét, hogy a kis- és nagybetűket a robots.txt. Ie Az ágens a Google is ugyanolyan jól leírható Soledad módon:
user-agent: Googlebot

Az alábbi táblázat mutatja a fő felhasználó-ügynökök különböző keresőmotorok.

Letiltása és engedélyezése

De ez nem olyan egyszerű.

Először is, meg kell tudni és megérteni további szereplők, hogyan használják őket - ez * és # $.

Letiltása :? * S =
Disallow: / kategória / $

Másodszor, meg kell értened, hogyan kell futtatni beágyazott szabályokat.
Ne feledje, hogy a sorrendben írásban az irányelvek nem fontos. Öröklési szabályok nyitva vagy zárva az indexelő szerint határozzuk meg, mely könyvtárakat sorolja. Nézzük a következő példát.

Hagyjuk: * .css
Disallow: / template /

Ha azt akarjuk, hogy .css fájlokat nyíltak index akkor van egy további nyilvántartás minden egyes lezárt mappa. A mi esetünkben:

Hagyjuk: * .css
Hagyjuk: /template/*.css
Disallow: / template /

Ismét a sorrendben az irányelvek nem fontos.

Sitemap irányelv meghatározott robots.txt fájl bárhol anélkül, hogy kötve egy adott user-agent. Megadhat több Sitemap szabályokat.

1. példa:
Host: site.ru

Crawl-delay

Irányelv megállapítása között eltelt idő robot letöltésével oldalakon. Támogató robotok Yandex, Mail.Ru, Bing, Yahoo. Érték beállítható egészben vagy frakcionált egységek (elválasztó - pont), az idő másodpercben.

1. példa:
Crawl-delay: 3

2. példa:
Crawl-delay: 0,5

Ha egy oldalon van egy kis terhelés, hogy létre kell hozni egy ilyen szabály nem. Azonban, ha a robot indexelés oldalak vezet az a tény, hogy az meghaladja a korlátait, vagy valamilyen nehéz terhek a megszakítási a szerver, ez az irányelv segít csökkenteni a terhelést.

Minél magasabb az érték, annál kevesebb oldalt robot terhelés ülésén. Az optimális érték meghatározása egyedileg minden oldalon. Ez jobb kezdeni nem túl magas értékek - 0.1, 0.2, 0.5 - és fokozatosan növeli azokat. A kereső robotok alacsonyabb érték előmozdítására eredményeit, például Mail.Ru, Bing és a Yahoo is kezdetben magasabb értékeket, mint a Yandex robot.

Clean-param

Yandex használatát javasolja az irányelv annak érdekében, hogy ne vegye figyelembe UTM-címke és munkamenet-azonosítók. például:

más lehetőségek

A kiterjesztett specifikációs robots.txt megtalálja több lehetőséget kér-arány, látogatási időben. Ezek azonban jelenleg nem támogatja a vezető keresőmotorok.

Jelentése az irányelvek:
Request-arány: 1/5 - nem tölti be több mint egy oldal öt másodpercen
Látogasson-time: 0600-0845 - az oldalak betöltése egy span mindössze 6:00-08:45 GMT.

záró robots.txt

Ha meg kell szabni a webhely nem indexelt keresők, akkor regisztrálnia kell a következő irányelveket:

Ellenőrizze, hogy ezek az irányelvek már regisztrált a vizsgált területeken a webhelyen.

Megfelelő konfiguráció robots.txt

Crawl késleltetése
Magyarországon és a FÁK-országokban, ahol a részesedése Yandex tapintható kell írnia iránymutatások összes robot, és külön-külön Yandex és a Google.

Ahhoz, hogy megfelelően konfigurálni robots.txt használatát a következő algoritmus:

például robots.txt

Hogyan és hol kell hozzá a robots.txt

Hogyan lehet ellenőrizni a robots.txt

  • A Yandex.Webmaster - Az Eszközök lap> robots.txt elemzése
  • A Google Search Console - Scan fül> robots.txt tesztelő eszköz

Gyakori hibák a robots.txt

Crawl késleltetése
A cikk végén adok néhány tipikus robots.txt fájl hibái

  • robots.txt hiányzó
  • robots.txt hely zárva indexelés (Disallow: /)
  • A fájl csak a legalapvetőbb iránymutatások nincsenek részletes tanulmányt a fájl
  • A fájl nincs lezárva az oldalon index az UTM-címkével ellátott és session ID
  • Csak az irányelvben megadott fájlt
    Hagyjuk: * .css
    Hagyjuk: * Js
    Hagyjuk: * .png
    Hagyjuk: * .jpg
    Hagyjuk: * .gif
    míg CSS fájlok, js, png, jpg, gif más irányelvek hatálya alá számos könyvtárak
  • Host irányelv megfogalmazta többször
  • A Host Ismeretlen https protokoll
  • A webhely elérési útja nem érvényes vagy érvénytelen protokoll vagy a tükör helyén

Yandex írja:
„A fogadó irányelv
Állítsa tartomány, ahol a hasonló utasításokat a robots.txt fájl hiányzik.
A host irányelv irányelveket figyelembe vették, az azonos irányelveket kell
Jelen vagyok a robots.txt fájl minden tükörszerveren.
Ellenőrizze a robots.txt fájlt, és megszünteti az ellentmondásokat. "

Amikor hozzá a webmester, ő már a protokoll https, azaz Megértem a lépés nem volt. A robots.txt a HOST meghatározott domain nélkül protokoll, mint oly - Host: site, ru

Segítenek megérteni az okát. Meg lehet korrigálni Host, így volt ez a protokoll https?

Itt robots.txt

User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Tiltása: * / trackback
Tiltása: * / feed
Tiltása / *?
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php

User-agent: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Tiltása: * / trackback
Tiltása: * / feed
Tiltása / *?
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php
Host: site, ru

User-agent: Googlebot
Hagyjuk: * .css
Hagyjuk: * Js
Hagyjuk: /wp-includes/*.js
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / wp-includes /
Disallow: / wp-content / cache
Tiltása: * / trackback
Tiltása: * / feed
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php
Tiltása / *?

Ha Clean-param, majd figyelmen kívül hagyni. A Google nem tudja ezt a paramétert és aggódnak, hirtelen fontos csapat számára akart írni, és hibázik.

Ok, kösz. Azt hiszem, ő is figyelembe kell venni, és a szabályokat a versenytársa, vagy ez a politika az ilyen agresszív versenytársak ...))