Hogyan hozzunk létre egy korrekt, seogio
A robots.txt fájl egyik legfontosabb az optimalizálás bármely honlapján. Annak hiánya vezethet a nagy terhelés a webhely a keresőprogramok és a lassú indexelés és újra indexelés, mint a helytelen beállítás azt a tényt, hogy az oldal teljesen eltűnnek keresést, vagy egyszerűen nem lesz indexelve. Ezért nem kell keresni Yandex, a Google és más keresőmotorok. Nézzük megérteni minden árnyalatok megfelelő beállítása robots.txt.
Hogyan működik a robots.txt az indexelés webhely
A keresőmotor pókok index a webhely, függetlenül attól, hogy a jelenléte a robots.txt fájlt. Ha egy ilyen fájl létezik, a robot lehet vezetni a szabályokat, amelyek meg vannak írva ebben a fájlban. Azonban néhány robotot lehet figyelmen kívül hagyni ezeket, vagy más szabályok, illetve egyes szabályok specifikus lehet csak néhány botok. Különösen GoogleBot nem használ Host irányelv és Crawl-Delay, YandexNews közelmúltban kezdte mellőzni az irányelv feltérképezés-Delay, és YandexDirect YandexVideoParser és figyelmen kívül hagyja az általánosabb iránymutatásokat Robots (de vezérlik azokat, amelyeket kifejezetten javallott őket).
A maximális terhelés a helyszínen robotokat teremtett, hogy letölthető tartalmat a webhelyéről. Ezért, rámutatva arra, hogy az indexelt, és mit kell figyelmen kívül hagyni, és milyen időközönként, hogy a letöltés, akkor, egyrészt, jelentősen csökkenti a terhelést az oldalon a robot, és másrészt, hogy gyorsítsák fel a letöltési folyamat, amely megtiltja a felesleges oldalakat feltérképezni .

Ezek az oldalak felesleges ajax szkriptek, JSON, felelős a pop-up formák, transzparensek, megkötése captcha stb megrendelőlapot és bevásárlókocsi minden pénztár lépést, keresés funkció, saját iroda, admin panel.
A legtöbb robotok az is kívánatos, hogy tiltsa indexelése minden JS és CSS. De meg kell hagyni, hogy az index, mert a keresőmotorok, hogy elemezze a kényelmet, a helyszín és a rangsorban (PRF Google. Proof Yandex) az ilyen fájlok Googlebot és Yandex.
robots.txt irányelvek
Nézzük meg a sorrendben.
User-agent
Ez az elsődleges irányelvet, amely meghatározza, hogy a robotokkal követte a szabályokat.
Az összes robotok:
User-agent: *
Egy adott bot:
User-agent: Googlebot
Felhívjuk figyelmét, hogy a kis- és nagybetűket a robots.txt. Ie Az ágens a Google is ugyanolyan jól leírható Soledad módon:
user-agent: Googlebot
Az alábbi táblázat mutatja a fő felhasználó-ügynökök különböző keresőmotorok.
Letiltása és engedélyezése
De ez nem olyan egyszerű.
Először is, meg kell tudni és megérteni további szereplők, hogyan használják őket - ez * és # $.
Letiltása :? * S =
Disallow: / kategória / $
Másodszor, meg kell értened, hogyan kell futtatni beágyazott szabályokat.
Ne feledje, hogy a sorrendben írásban az irányelvek nem fontos. Öröklési szabályok nyitva vagy zárva az indexelő szerint határozzuk meg, mely könyvtárakat sorolja. Nézzük a következő példát.
Hagyjuk: * .css
Disallow: / template /
Ha azt akarjuk, hogy .css fájlokat nyíltak index akkor van egy további nyilvántartás minden egyes lezárt mappa. A mi esetünkben:
Hagyjuk: * .css
Hagyjuk: /template/*.css
Disallow: / template /
Ismét a sorrendben az irányelvek nem fontos.
Sitemap irányelv meghatározott robots.txt fájl bárhol anélkül, hogy kötve egy adott user-agent. Megadhat több Sitemap szabályokat.
1. példa:
Host: site.ru
Crawl-delay
Irányelv megállapítása között eltelt idő robot letöltésével oldalakon. Támogató robotok Yandex, Mail.Ru, Bing, Yahoo. Érték beállítható egészben vagy frakcionált egységek (elválasztó - pont), az idő másodpercben.
1. példa:
Crawl-delay: 3
2. példa:
Crawl-delay: 0,5
Ha egy oldalon van egy kis terhelés, hogy létre kell hozni egy ilyen szabály nem. Azonban, ha a robot indexelés oldalak vezet az a tény, hogy az meghaladja a korlátait, vagy valamilyen nehéz terhek a megszakítási a szerver, ez az irányelv segít csökkenteni a terhelést.
Minél magasabb az érték, annál kevesebb oldalt robot terhelés ülésén. Az optimális érték meghatározása egyedileg minden oldalon. Ez jobb kezdeni nem túl magas értékek - 0.1, 0.2, 0.5 - és fokozatosan növeli azokat. A kereső robotok alacsonyabb érték előmozdítására eredményeit, például Mail.Ru, Bing és a Yahoo is kezdetben magasabb értékeket, mint a Yandex robot.
Clean-param
Yandex használatát javasolja az irányelv annak érdekében, hogy ne vegye figyelembe UTM-címke és munkamenet-azonosítók. például:
más lehetőségek
A kiterjesztett specifikációs robots.txt megtalálja több lehetőséget kér-arány, látogatási időben. Ezek azonban jelenleg nem támogatja a vezető keresőmotorok.
Jelentése az irányelvek:
Request-arány: 1/5 - nem tölti be több mint egy oldal öt másodpercen
Látogasson-time: 0600-0845 - az oldalak betöltése egy span mindössze 6:00-08:45 GMT.
záró robots.txt
Ha meg kell szabni a webhely nem indexelt keresők, akkor regisztrálnia kell a következő irányelveket:
Ellenőrizze, hogy ezek az irányelvek már regisztrált a vizsgált területeken a webhelyen.
Megfelelő konfiguráció robots.txt

Ahhoz, hogy megfelelően konfigurálni robots.txt használatát a következő algoritmus:
például robots.txt
Hogyan és hol kell hozzá a robots.txt
Hogyan lehet ellenőrizni a robots.txt
- A Yandex.Webmaster - Az Eszközök lap> robots.txt elemzése
- A Google Search Console - Scan fül> robots.txt tesztelő eszköz
Gyakori hibák a robots.txt

- robots.txt hiányzó
- robots.txt hely zárva indexelés (Disallow: /)
- A fájl csak a legalapvetőbb iránymutatások nincsenek részletes tanulmányt a fájl
- A fájl nincs lezárva az oldalon index az UTM-címkével ellátott és session ID
- Csak az irányelvben megadott fájlt
Hagyjuk: * .css
Hagyjuk: * Js
Hagyjuk: * .png
Hagyjuk: * .jpg
Hagyjuk: * .gif
míg CSS fájlok, js, png, jpg, gif más irányelvek hatálya alá számos könyvtárak - Host irányelv megfogalmazta többször
- A Host Ismeretlen https protokoll
- A webhely elérési útja nem érvényes vagy érvénytelen protokoll vagy a tükör helyén
Yandex írja:
„A fogadó irányelv
Állítsa tartomány, ahol a hasonló utasításokat a robots.txt fájl hiányzik.
A host irányelv irányelveket figyelembe vették, az azonos irányelveket kell
Jelen vagyok a robots.txt fájl minden tükörszerveren.
Ellenőrizze a robots.txt fájlt, és megszünteti az ellentmondásokat. "
Amikor hozzá a webmester, ő már a protokoll https, azaz Megértem a lépés nem volt. A robots.txt a HOST meghatározott domain nélkül protokoll, mint oly - Host: site, ru
Segítenek megérteni az okát. Meg lehet korrigálni Host, így volt ez a protokoll https?
Itt robots.txt
User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Tiltása: * / trackback
Tiltása: * / feed
Tiltása / *?
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php
User-agent: Yandex
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Tiltása: * / trackback
Tiltása: * / feed
Tiltása / *?
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php
Host: site, ru
User-agent: Googlebot
Hagyjuk: * .css
Hagyjuk: * Js
Hagyjuk: /wp-includes/*.js
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / wp-includes /
Disallow: / wp-content / cache
Tiltása: * / trackback
Tiltása: * / feed
Disallow: / szerző /
Letiltás: /transfers.js
Letiltás: /go.php
Letiltás: /xmlrpc.php
Tiltása / *?
Ha Clean-param, majd figyelmen kívül hagyni. A Google nem tudja ezt a paramétert és aggódnak, hirtelen fontos csapat számára akart írni, és hibázik.
Ok, kösz. Azt hiszem, ő is figyelembe kell venni, és a szabályokat a versenytársa, vagy ez a politika az ilyen agresszív versenytársak ...))