Блог Дмитрия Худякова
Энциклопедия начинающих блоггеров

Как создать и правильно настроить файл «robots.txt»?

Приветствую вас, дорогие друзья! С вами вновь на связи «Блогосфера от А до Я» и ее автор — Дмитрий Худяков. Как ваше настроение сегодня, товарищи? Что нового, интересного?

Друзья, благодаря инструкциям данного материала мы, в очередной раз, проведем небольшую, но очень важную настройку нашего с вами ресурса, которая в дальнейшем поможет поисковикам быстрее и качественнее проводить индексацию вашего блога.

И сегодня, друзья, я поведаю вам об одном интересном документе, без которого ваш блог можно считать просто набором директорий.

Товарищи, в данном материале мы с вами наконец-то откроем для себя файл robots txt.

А помимо этого я расскажу об одном интересном методе его настройки для wordpress, благодаря которому ваш блог будет лучше индексироваться уже при следующем посещении поисковиком.

Я более чем уверен, что кто-то из вас уже знает о нем, и понимает, для чего необходим этот файл, и где его в случае чего можно скачать. А тех из вас, кто слышит о нем впервые, сейчас и познакомим друг с другом.

Проще говоря – он является одним из тех документов на нашем проекте, без которых нам не обойтись, и предназначен он для поисковиков (как следует из названия), которые постоянно посещают наши ресурсы.

С какой целью создается данный документ?

Благодаря ему, друзья, у нас есть возможность направлять поискового бота по разным каталогам нашего сайта, и так же, с помощью специальных директив и команд, запрещать ему доступ к какому-либо из мест на нашем сайте или блоге.

Да, вот примерно так и можем ему сказать – «Ты сюда не ходи, ты сюда ходи»! Ну, в общем, вы поняли! Поняли ведь?

В первую очередь, поисковик, при попадании на наш сайт, в корневой папке ищет файл «robots.txt», и сразу же читает его, еще до сканирования, и понимает, что ему делать вы разрешаете, а что нет.

Именно этот документ и служит отправной точкой для робота, перед началом сканирования наших с вами блогов.

Удобство его состоит в том, что благодаря ему можно легко закрывать от индексации (сканирования) отдельные папки, документы и так далее, применив для этого специальные команды, о которых речь у нас пойдет немного позже.

В этом документе прописан путь до файла «sitemap.xml», который так же должен присутствовать у вас на блоге, в его основной директории – в корне.

Если у вас его нет, то поисковый бот может проиндексировать, и соответственно занести в выдачу, всевозможный мусор, в виде дублей страниц, архивов и так далее, а важные и нужные страницы пропустить.

Большая рекомендация к вам, коллеги – не пренебрегайте им. Sitemap.xml жизненно необходим на каждом ресурсе. Запомните это!

А создать «robots.txt» можно в самом обычном блокноте, ну или использовать для этого любое другое навороченное приложение по работе с текстом.

Но в итоге он у вас должен быть именно в формате «txt». А после создания обязательно поместите его в главную директорию вашего проекта, с помощью любимого ftp клиента.

Основные директивы

А теперь, друзья, давайте поговорим с вами об основных настройках этого важного документа. Итак, начнем, пожалуй, с самой основной команды, которая указывает, какому из поисковых роботов, пришедшему к вам на блог, прописаны следующие за ней атрибуты. Выглядит она вот так:

User-agent

Дойдя до строки с ней, и найдя свое имя, бот поймет, что следующие за ней директивы предназначаются ему одному.

В данном материале мы с вами, товарищи, коснемся только двух поисковых систем – Yandex и Google, так как остальные нам ни к чему. И соответственно узнаем о том, как создать данный документ, подстраиваясь под них.

Команда для Яндекс бота будет иметь следующий вид:

User-agent: yandex

Для Google же, вот так:

User-agent: googlebot

Если же после «User-agent» стоит звездочка – «*», то указания действуют сразу для всех роботов.

Так же в robots может, и должна содержаться команда:

Disallow

Это обязательная команда, и обозначает она, что следующие после двоеточия разделы (каждый раздел с новой строки) индексировать запрещено. И робот в эти каталоги и даже не заглянет.

Вот таким указание мы можем запретить к индексации вообще весь блог:

User-agent: *

Disallow: /

Но если вы не хотите чтобы ваш проект так и остался неведом для многих, делать этого не стоит.

Запрет на индексацию отдельных архивов может выглядеть так:

User-agent: *

Disallow: /cgi-bin/

Данной командой мы указали поисковым роботам, в данном случае всем, что ползать в папку «cgi-bin» нельзя. Улавливаете суть? Отлично, тогда идем дальше!

Помимо команды запрещающей индексацию, так же существует и противоположная ей — «Allow». Ее применяют достаточно редко, но знать о ней все равно необходимо.

Если каким-то документам и папкам на вашем блоге не прописана строчка с запретом индексации, то поисковый робот обязательно заберет их в свою базу данных. Помните об этом!

Запретить к индексации отдельный файл можно вот таким образом:

User-agent: *

Disallow: /privet.html

Сейчас мы закрыли от индексации «privet.html», находящийся в главной директории блога.

Так же закрываются и документы в каталогах:

User-agent: *

Disallow: /wp-content/site.html

Этой командой мы закрыли от индексации файл «site.html», который располагается в папке «wp-content», которая располагается в корне блога.

Так же помните, что в «robots.txt» необходимо указывать и путь до карты сайта, если вы ее, конечно, используете. Директива для карты сайта – «sitemap».

Кстати, командой «Allow» можно разрешить к индексации папку с загруженными изображениями, если вам, конечно, это необходимо. Выглядеть это будет вот так:

Allow: /wp-content/uploads

Посмотреть «robots.txt» на любом из понравившихся вам сайтов, можно онлайн, введя в строку браузера имя блога, через слеш указать его название.

Вот так: «zametkibloggera.ru/robots.txt». И браузер моментально его вам покажет. Можете попробовать и проверить его на любом из ресурсов прямо сейчас.

Кстати, посмотрите какой «robots.txt» используют сами поисковики. Но это так, для интереса.

А на своем блоге я использую вот такую вот конфигурацию, и считаю ее наиболее правильной из всех возможных вариантов:

User-agent: *

Disallow: /wp-content/plugins

Disallow: /feed/

Disallow: */feed

Disallow: */trackback

Disallow: */comments

Disallow: *?replytocom

Disallow: /tag

 

Host: zametkibloggera.ru

Sitemap: http://zametkibloggera.ru/sitemap.xml

Класть готовый документ «robots.txt» необходимо только в корневой каталог ресурса, иначе роботы не найдут его и, соответственно, все указанные в нем команды не будут выполнены, а ограничения не будут учтены. Это важно знать!

Так же видим, что в нашем варианте файла присутствует директива «Host». Прописывается она только для робота Yandex, и указывает на основное зеркало вашего ресурса.

То есть, как его необходимо набирать в строке браузера, и может быть прописана только с «www» либо без них. Друзья, запомните, добавляя директиву обязательно указывайте ее без протокола «http://». Так, как в варианте сверху.

То есть все, что вам необходимо сделать, друзья, так это скопировать тот файл роботс, который я дал вам немного выше, изменить в нем вот эти две директивы:

Host: zametkibloggera.ru

Sitemap: http://zametkibloggera.ru/sitemap.xml

То есть прописать здесь свой адрес блога, и путь до карты сайта, все это перенести в обычный блокнот и закинуть себе на блог в корневую директорию. И все готово, ваш файл будет работать как часы!

Ну вот теперь, коллеги, и вы знаете, как составить файл «robots.txt». На этом буду заканчивать повествовать вам о нем. Надеюсь, что в общи чертах, вы теперь имеете о нем представление.

Рекомендую

Профессиональная обработка фотографий, занятие достаточно кропотливое и сложное, и освоить его самостоятельно, без посещения специальных курсов и тренингов, не представляется возможным.

Такие мысли крутятся в голове людей, которые когда-то задумывались над тем, чтобы освоить это ремесло.

Но, друзья, скажу я вам, это не так! Научиться профессионально ретушировать фотографии можно и самому, но как это сделать? А очень просто!

Предлагаю вашему вниманию уникальный курс, который и поможет всем желающим овладеть необходимыми в этом направлении навыками.

Курс носит название «Мастерская ретуши» и содержит в себе только практические фишки по работе с фотографиями, никакой сухой и скучной теории.

В общем, долго расписывать вам преимущества данного курса не буду, лучше вам познакомиться с ним самим. Вот здесь подробности.

Друзья, помните о том, что данный материалом запросто можно поделиться с друзьями с сетях социальных, может быть, кто-то прямо сейчас ищет подобную информацию. Не поленитесь!

И конечно, не проходите мимо рассылки данного проекта, буду искренне рад, если вы оставите мне свои контактные данные для связи.

Ну а я прощаюсь с вами, друзья! Берегите себя!

С уважением Дмитрий Худяков!

1 звезда2 звезды3 звезды4 звезды5 звезд (Нет голосов)
Загрузка...
Этот блог читают 4 578 человек, присоединяйся и ты
Оставить коментарий
:p :-p 8) 8-) :lol: =( :( :-( :8 ;) ;-) :(( :o: