Блог за уеб технологии, маркетинг и SEO, мотивация и продуктивност
Мета таг robots и rel nofollow
За да предоставим директни инструкции на ботовете, паяците (spider) – претърсващите мрежата програми на търсачките относно поведението, което да възприемат, когато обхождат сайта ни, можем да използваме не само файла robots.txt, но също и така наречените мета таг robots.
Meta tag robots с атрибут content
Този мета таг се различава от файла robots.txt, защото се отнася за отделната страница, на която присъства, а не за сайта като цяло.
Подобно на robots.txt, той винаги следва протокола за изключване на роботи – Robots Exclusion Protocol ( REP ).
Трябва да е вмъкнат в главата на HTML страницата т.е. в елемента head, между таговете <head> и </head>. Дава се от следния код (meta tag нямат затварящ таг):
<meta name="robots" content="...">
Стойността за атрибута content дефинира инструкцията към паяка относно страницата:
- index – необходимо е да се индексира страницата (т.е. да бъде вмъкната в архива на търсачката);
- noindex – искане страницата да не се включва в архивите на търсачката;
- follow – всички връзки на страницата са задължителни за следване; това също така позволява прехвърляне на стойност от една страница на друга;
- nofollow – изисква да не се следват връзките от тази страница към други страници.
Стойностите за индексиране (index / noindex) и връзка (follow / nofollow) се комбинират. Следователно имаме четири алтернативи:
<meta name="robots" content="index, follow">
От ботовете на търсачката се изисква да индексират страницата и да следват всички връзки, дадени в нея.
<meta name="robots" content="index, nofollow">
От ботовете се иска да индексират страницата, но не и да следват връзките в нея.
<meta name="robots" content="noindex, follow">
Изисква се страницата да не се индексира, а да се следват връзките, които водят от тази страница към други страници.
<meta name="robots" content="noindex, nofollow">
От паяка се изисква да не индексира и да не следва връзките на тази страница.
Записвайки name=“robots“, ние предоставяме инструкция на всички паяци. Но имаме възможност да ограничим инструкциите също до отделни паяци.
Например:
<meta name="googlebot" content="index, follow">
В този случай инструкцията се отнася специално за паяка Googlebot.
Виж още: Въведение в HTML за блогъри: лесно ръководство за основните тагове (и PDF за изтегляне)
Защо да използваш мета таг robots, ако файлът robots.txt вече съществува?
(adsbygoogle = window.adsbygoogle || []).push({});- Файлът robots.txt напълно предотвратява достъпа на паяка до определени папки и файлове чрез командата Disallow. Докато мета тагът robots позволява достъп до страницата във всеки случай, като инструктира паяка за следващата стъпка: дали да индексира или не страницата, дали трябва или не да следва връзките. Това е метод, който ти позволява да инструктираш паяка по още по-прецизен и специфичен начин.
- Може да бъде особено полезно за дублирано съдържание: например за PDF или версии за печат и във всички онези ситуации, в които предпочитаме да не показваме конкретна страница на търсачката. (Въпреки че, в някои от тези случаи е по-добър друг метод – канонизация).
Препоръчва се винаги да се комбинира наличието на файл robots.txt, за общи инструкции и за предотвратяване на достъп до определени папки (особено папки, свързани с административната част на сайта), с добавяне на meta tag robots, приложен към всяка една уеб страница.
При липса на инструкции на роботи, всички паяци ще са склонни да индексират страниците, които срещнат, както и да следват връзките.
Следователно не е задължително да използваш тези инструкции, но те със сигурност подобряват ефективността на сканирането с паяк.
rel=“nofollow“
Писах по-горе за атрибута nofollow по отношение на мета таг robots. По този начин казваме на търсачката да не следва всички връзки, които от тази страница сочат към други външни или вътрешни страници.
Имаме обаче и опция за вмъкване на инструкцията nofollow за единични връзки. Това може да бъде полезно, ако искаме например да позволим на паяка да следва връзките на страницата, с изключение на някои единични изключения.
За да направим това, можем да използваме атрибута rel=“nofollow“ на тага <a>, свързан с единичната връзка.
Пример:
<a href="http://www.yoursite.com" rel="nofollow">Твоят уеб сайт</a>
С тази инструкция указваме на търсачката, че не разпознаваме сайта, към който препраща страницата. Следователно не възнамеряваме да предаваме стойност на тази страница.
Кога може да се използва rel=“nofollow“?
(adsbygoogle = window.adsbygoogle || []).push({});Например, ако управляваме форум или ако има зона за коментари за нашите статии, в случаите, когато потребителите добавят връзки към други сайтове (често спам), и които обикновено не можем да проверим или които не винаги са подходящи за нашите страници.
Класическа употреба на nofollow е тази, управлявана от социалните мрежи.
Повечето от връзките, присъстващи във Facebook, Twitter и практически всички, вмъкнати в публикации, са връзки без следване: това означава, че те са връзки, които не предават стойност на страницата, която получава връзката.