Блог за уеб технологии, маркетинг и SEO, мотивация и продуктивност
Как да ускорим индексиране на нова публикация в Google
Най-напред да обясня някои термини като индексиране на нова публикация, SERP, сканиране, индексиране и позициониране, файл robots.txt.
Какво е SERP?
Страниците за резултати от търсещите машини ( Search Engine Results Pages (SERP) ) са страниците, показвани от търсещите машини като Google, Bing в отговор на заявка от потребителя. В показаните SERP освен основният компонент, който именно е списъкът с резултати, които се връщат в отговор на заявката по дума или стринг (keywords – ключови думи). излизат и други компоненти като реклами, подробна информация за термин, директен отговор, без да има нужда от задълбочаване по линкове и др.
Обикновено излиза не една, а много страници в SERP. Резултатите можем да категоризираме в два общи типа: органично търсене (т.е.търсачката ги показва в съответствие със своя алгоритъм и критерий за релевантност) и спонсорирано търсене (т.е. реклами). Всеки резултат включва заглавие, връзка, сочеща към действителната уеб страница и кратко описание, показващо че ключовите думи съответстват на съдържанието. За спонсорираните резултати рекламодателят избира какво да покаже. Всяка следваща страница изписва по-нисък резултат или по-ниска релевантност спрямо критериите на търсачката.
Сканиране, индексиране и позициониране в смисъл търсачки
За да получим най-подходящите резултати, моторите за търсене като Google имат добре дефиниран процес за откриванетo им (или би трябвало да го имат). Алгоритъмът е в постоянна промяна с цел усъвършенствуване, за да удовлетворява изискванията на потребителя. Както знаем, Google и подобните печелят от реклами, затова за тях е важно да покажат качествен подбор.
Макро-фазите на процеса за откриване на най-подходящите уеб страници са:
- преглеждане или сканиране;
- индексиране;
- позициониране.
Сканиране в мрежата
Роботите на търсачките сканират World Wide Web, за да открият новите страници, които да бъдат включени в техните индекси. Уеб роботът (crawler) , понякога се нарича паяк (spider) или spiderbot, често съкратен до бот.
Всеки път при обхождане на дадена уеб страница, ботовете разгледаждат DOM (Document Object Model), за да се разберат неговата структура и да намерят линкове към нови страници, чиито URL адреси от своя страна ще бъдат поставени на опашката, за да бъдат сканирани по-късно.
Индексиране
Разглеждаме конкретно за търсачката Google. Искаме да постигнем задачата си: как да ускорим индексирането.
Включване в Google индекси.
Индексирането е процесът, в който Google включва уеб страници в своите индекси, т.е. в своя указател. Това е база данни , която съдържа информация за страниците, обходени от Googlebot и извлича данни от тях, когато потребителят прави заявка в търсачката.
Кое съдържание на уеб страница индексира Google?
GoogleBot „вижда“ страниците на сайта много различно от това, което виждаме ние, хората, (под формата на DOM, както е обяснено по-горе).
В допълнение към текстовото съдържание на страницата има и други елементи, които GoogleBot анализира, за да разбере по-добре темата на страницата, включително:
Мета тагове и кратки описания на съдържанието на изображението. Тъй като Google не може да „вижда“ изображения, атрибутът Alt му дава възможност да разбере по-добре съдържанието на страницата, а е и важен за използваемостта (usability) на страницата.
Структурирани данни Schema.org е маркировката, която ни позволява да предоставим по-подробно структурата на информацията за дадена страница на търсачките и да подобрим индексирането и класификацията на нейното съдържание.
Какво съдържание на уеб страница не индексира Google ?
Това е важно да се знае, за да се персонализира съдържанието така, че да се помогне на Googlebot да го разбере по-добре.
Сред съдържанието, което Google не може да индексира, са:
Аудио и видео: както при изображенията, на Google е трудно да разбере съдържанието на аудиофайла или видеоклипа, ако не е вмъкнат в текстов контекст.
Вградени рамки : Етикетът „вградена рамка“ обикновено се използва за вграждане на съдържание на уеб страница на друга уеб страница. Съдържанието, показвано чрез iFrames, може да не бъде индексирано и достъпно за показване в резултатите от търсенето с Google. Ако се наложи включване на iFrames, трябва да се добавят допълнителни текстови връзки към съдържанието, така че Googlebot да може да го обходи и индексира.
Някои условия за по-бързо индексиране на сайт
Google автоматично индексира уебсайтове и следователно в повечето случаи няма нужда да се прави нищо допълнително, след като е въведена Sitemap на сайта през Webmaster Tools. Това е картата на сайта, която представлява списък с всичките адреси на страници на сайта – списъкът е обикновено в XML формат – и помага на ботовете в обхождането на структурата на сайта. В редки случаи обаче, Google може да не открие (или да се забави да открие) сайт или страници от него. В други случаи имаме обновени страници и следователно може да е необходимо да се намесим ръчно, за да вмъкнем или актуализираме някой адрес в индекса на Google.
Секрети за начина по който да ускорим индексиране на нашия сайт или страници от него:
- Стройна, ясна и минималистична структура на сайта. Без големи слизания в дълбочини и без дублиране.
- Преди да създадеш своя уеб сайт, избери SEO оптимизирана WordPress тема: нейният код вече е проектиран така, че да бъде лесен за четене от търсачките.
- Файлът robots.txt, който може да бъде запазен на сървъра на уебсайта, е много важен за SEO, тъй като той казва на търсещите машини до кои файлове да имат достъп и кои да избягват. Логично трябва да се забрани обхождането на ненужните за позициониране страници. По този начин се облекчава и ускорява работата на ботовете.
Използваме новата Google Search Console.
Отиваме на най-горния ред, където е изписано: Check any url in yoursite.com:
Поставяме линка на страницата, която искаме да бъде индексирана и кликваме Enter.
Ако страницата присъства в индекса на Google, той ни връща следното след минутка:
Ако страницата не присъства в индекса на Google, получаваме следния отговор:
В случая, когато искаме да индексираме тази страница, или дори когато страницата вече е индексирана, но току-що сме я обновили и искаме да поднесем на потребителя веднага новата страница, кликваме на Indexing request. След няколко минути Google ни съобщава, че е взел предвид заявката ни. В този случай обикновено индексирането става почти мигновено.
Позициониране
Преди да реши кои страници да извлече от индекса и да покаже на потребителя при неговата заявка за търсене по ключова дума, за да предостави надеждни и подходящи резултати, Google прилага набор от алгоритми за класифициране на тези страници и установява реда, в който да ги покаже. Това е така нареченото позициониране на съдържанието в търсачкaтa.
В тази фаза Google изпълнява някои важни стъпки:
- интерпретиране на намерението за търсене на потребителя;
- идентифициране на страниците в индекса, свързани с заявката;
- връщане към потребителя т.нар. SERP, където страниците са класирани по реда на релевантност и важност.
Какво означава това:
Релевантност – степента, до която съдържанието на уеб страница съответства на намерението за търсене у потребителя.
Важност – Google определя значението и авторитета на уеб страницата въз основа на препратките, които тя получава от други авторитетни сайтове, както и въз основа на полезно, оригинално и добре подредено съдържание, (съдържащо съответните ключови думи).
Доброто позициониране на един сайт зависи от много неща – качествено, оригинално и подходящо съдържание, предназначено да носи полза на потребителя, престижни препратки към него, задълбочена работа в социалните мрежи, умело боравене с подходящи ключови думи, познаване поне отчасти на кода и др. Техниките за позиционирането на сайта се наричат SEO (Search Engine Optimisation – оптимизиране за търсачката) и включват оптимизация на HTML кода, структурата и текстовете на уеб сайта и др.
Заключение
Една забавна инфографика – как да поправим грешките, които не позволяват на паяците на Google да обхождат правилно сайта ни.
Източник на основното изображение Pixabay.com.