Блог за уеб технологии, маркетинг и SEO, мотивация и продуктивност
Как да намерим стари уеб страници?
Как да намерим стари уеб страници? Различни причини ни поставят проблема за старите уеб страници. Кои са тези проблеми? И как да разрешим въпроса с откриването на стари версии на уеб страници или цели стари загубени сайтове – ще изложа тук.
Пионерът на XML и дългогодишен блогър Тим Брей казва, че Google може би страда от умишлена загуба на памет.
Брей пише, че:
„Мисля, че Google е спрял да индексира по-старите части на мрежата. Мисля, че мога да го докажа. Конкуренцията на Google се справя по-добре.“
Интернет непрекъснато се разраства. Толкова много уеб страници се създават всеки ден, че една част от старите могат да бъдат загубени от Google. По-рано тази година блогърите Тим Брей и Марко Фиорети отбелязаха, че Google изглежда е спрял да индексира целия интернет за Google Search. В резултат на това някои стари уебсайтове – тези на повече от 10 години – не се показват чрез търсачката на Google.
Да, може да се случи да не откриеш повече оная стара публикация, която те беше заинтересувала преди месеци.
Добрата новина е, че Bing и Duckduckgo поддържат много по-пълни индекси на стари публикации и ако търсиш неща, които са на повече от десетилетие, можеш да преминеш към някой от конкурентите на Google, за да ги намериш.
Причини да търсим стари изчезнали уеб страници
Много уебсайтове се закриват през годините, тъй като собствениците им са изключили сървърите, хостващи страниците или са се отказали от регистрираните имена на домейни. Други изтекли имена на домейни се използват от трети лица или за публикуват само рекламни връзки.
Съществуват обаче икономически, изследователски, правни или други причини да искаш да откриеш стара версия на някой уебсайт:
- Сайтът ти неочаквано, по различни причини, е офлайн.
- Ти си журналист, блогър или учен, който работи върху статия. Ако подадеш линк към определена страница, при нейната промяна, твоите читатели няма да разберат връзката.
- Използваш SEO и силата на връзката на по-стари домейни. Някои SEO експерти подобряват класирането си с архивирано съдържание в частни блог мрежи.
- Имаш нужда от правни доказателства. Когато става въпрос за обиди или заплахи в мрежата, екранните снимки помагат за документирането им. Ако текстовете вече са изтрити от автора, тогава ти трябва по-ранна версия на уебсайта, за да събереш доказателства.
- Документирането на работните процеси чрез архив също може да бъде полезно при патентни спорове.
Възстановяване на стари страници чрез Google
Възможно ли е да възстановим стари уеб страници? В известна степен да, съществува тази възможност.
В интернет мрежата се предлагат различни инструменти за преглед на предишния вид на сайт и намиране на стари публикации.
Не можем да се надяваме на истински чудеса. В случай, че имаме проблеми с възстановяване на собствения сайт, наличието на собствено архивно копие е единственият сигурен начин, за да го възстановим.
Можем ли да се обърнем за помощ към Google? Всъщност всяка страница се запазва в паметта на Google до определен период от време.
Когато променяме текста или изображението, търсачката не асимилира веднага промените.
Наистина е вероятно да има няколко дни закъснение преди да минат ботовете. Ти променяш страницата и твоите читатели я виждат с промените. Но търсачката все още има старата версия в паметта. (Ако искаш да ускориш преминаването на ботовете, виж как се прави в Search console).
Забавянето на преминаването на паяците на Google обаче, ни позволява да възстановим стари уеб страници, предишни версии.
Кеширането от Google се използва за обслужване на страницата, само ако тя стане недостъпна. Google не обслужва кеширани версии на страница, освен ако не е поискано.
Каква е процедурата?
Как да използваме кеша на Google
За да се възползваме от паметта на търсачката и видим предишни версии на уеб страница, стартираме опцията, показана тук на скрийншота. Веднага след URL адреса се вижда стрелка надолу: кликни върху нея, за да влезеш в менюто, което ти дава връзката към кешираното копие.
Можеш да копираш текста и изображенията на версията преди промените. Очевидно това решение не може да се използва за намиране на страници, които са на много седмици или дори години. След като премине паякът на Google, ще трябва да се използват други начини за възстановяване на стари страници.
Друг начин за преглед на Google кеша (и на Archive.org кеша, за който пиша по-долу) на някоя страница е чрез уеб услугата Cachedview:
Услугата има и аналог на cachedpages.com.
Няколко SEO предимства на кеша
Интересният аспект на кеша на Google: в допълнение към откриването на старата уеб страница, където текстовото и мултимедийното съдържание предхожда няколко записа, можеш да разполагаш с изходната версия (HTML код) и текстовата версия на ресурс. По този начин имаш допълнителен SEO инструмент и откриваш какво вижда Google, независимо от правилата, наложени от графичния аспект.
Тази снимка вероятно изглежда точно като текущата ми страница, но забележи бутона в горния ляв ъгъл с надпис Само текстова версия. Когато кликна върху тази връзка, ще ми стане ясно точно какво вижда Googlebot.
Виждаме, че Googlebot не може да чете снимки – може да чете само текст. Така че, когато създаваме страницата си, трябва да сме сигурни, че сме включили текстови елементи, за да може Googlebot да чете.
Ако претоварим страницата си с ключови думи. Googlebot може да ги види и ще маркира уебсайта за нездравословни и нелоялни SEO практики.
Защо кеширането е важно за SEO?
Кеширането няма пряка полза от SEO. Но от подробния анализ можеш да разбереш:
- Колко често Google кешира страницата ти? – Ако последната дата на кеш се случва днес и се актуализира утре, ще знаеш, че страницата ти има висока приложимост.
- Как изглеждаше страницата ти при последното й обхождане? – Това е чудесен начин да идентифицираш скрит спам на връзки, проблеми с визуализацията и други.
Ускоряване на възстановяването на кеша
За Google има бързи команди, които ти позволяват да преглеждаш стари версии на страници с разширени оператори.
- cache:namesite.com
- http://webcache.googleusercontent.com/search?q=cache:namesite.com
Където namesite.com е името на твоя сайт.
Очевидно, можеш да работиш в основния домейн или върху една страница.
(adsbygoogle = window.adsbygoogle || []).push({});
Други кеш търсачки на стари уеб страници
Bing
Кеш търсачката е на разположение и в Microsoft Bing: механизмът е идентичен с този, предложен от Google.
Използването на кеша на търсачката може например да помогне в случай на спорове: да покаже, че първо този потребител е публикувал тази статия или, обратно, да удостовери, че определено съдържанието е публикувано на определен уебсайт.
Yandex
За съжаление няма начин да се стигне до кеша на Yandex чрез директна връзка. Трябва да напишеш адреса на страницата в реда за търсене и да избереш елемента. Ако резултатът от търсенето в кеша на Google не те задоволява, тогава тази опция определено си струва да се опита, тъй като версиите на страниците в кеша на Yandex могат да се различават.
Виж един сайт как е изглеждал преди
Wayback Machine
За да откриеш предишни версии на сайт портал или блог, можеш да използваш този интересен инструмент: Archive.org – Wayback Machine. Една своеобразна машина на времето, която ти позволява да видиш един уебсайт как е изглеждал в миналото. Как се използва?
Отиди на archive.org и кликни горе вляво на Web. Или направо иди на този адрес: Archive.org/web/.
Wayback на Archive.org вероятно е най-добрият инструмент за възстановяване на изтрити уеб страници. Търсачката е част от Интернет архива, нестопанска организация, която се опитва да дублира цялото съдържание в Интернет. Архивът е запазил милиарди уеб страници, което е впечатляващо. Страниците се заснемат многократно, така че може да се използва Wayback Machine, за да се разглежда една и съща страница през няколко различни години.
Въведи URL адреса на желания уебсайт или уеб страница в полето в горната част.
Щракни върху BROWSE HISTORY.
Ще видиш изглед на календар. Избери годината в горната част и след това датата от списъка с месеци по-долу.
Ще се покаже запазена версия на страницата от тази дата.
Натисни Ctrl + S, за да запазиш страницата като HTML документ, който можеш да консултираш, когато поискаш. Можеш да я запазиш и чрез трети страни, например в Pocket.
Wayback Machine се използва често и за извършване на SEO одити на уебсайтове и анализ на домейни за закупуване, за да се разбере какви са били в миналото.
Oldweb.today
Друг уебсайт, който да пътува във времето и да открива стари версии на уеб страници е Oldweb.today, още една безплатна услуга.
Oldweb.today използва публични архиви (включително този от Wayback Machine ), за да предложи на потребителя навигационна версия на всеки уебсайт, както се е появявал в миналото .
Услугата използва един вид емулатор, който дори позволява избор на уеб браузър. Аз успях да видя определена страница от моя блог от преди една година чрез Safari за Windows:
Действайки в падащото меню Requested Date/Time, можеш да избереш дата, различна от тази, която се показва в момента, като се има предвид, че Oldweb.today винаги ще показва страницата във версията, най-близка до посочената дата.
Блокиране на кеша на Google на сайта
В някои случаи сайтовете не позволяват, чрез определена директива на robots.txt, да се съхраняват уеб страниците им в Archive.org. Ако искаш да предотвратиш кеширането на сайта си от Google, има поне два начина да направиш това.
Първият е, като се вмъкне мета таг robot с noarchive в отделните уеб страници:
meta name="robots" content="noarchive"
noarchive означава и да не се показва линка Cached в резултатите при търсене.
Вторият начин е, да се използва robots.txt, специфицирайки блокиране на кеша на Google:
User-Agent: Googlebot
Disallow: /
Внимание: Тази втора настройка не се препоръчва, тъй като е вярно, че тя блокира кеша, но напълно премахва въпросния сайт от Google (дори и текущите версии).
Третият начин е, да не се допуска бота ia_archiver – Archiver за Wayback Machine на Archive.org, пак чрез robots.txt:
- Не позволявай на ia_archiver да има достъп до която и да е част от сайта ти.
User-agent: ia_archiver Disallow: /
- Разреши на ia_archiver достъп до сайта ти, но не и до папката „admin“
User-agent: ia_archiver Disallow: /admin
Тези методи с robots.txt може да не работят, ако ботът не обърне внимание на установените ограничения.
Замразяване на съдържанието на уеб страница
Замразяване на уеб страница чрез Wayback Machine
За да покажеш, че уеб страницата се е появила по определен начин на датата, на която е била запазена, можеш да използваш функцията Save Page Now на Wayback Machine:
Може да се използва и друга услуга
Замразяване на уеб страница чрез Archive.today
Услугата позволява не само да замразиш съдържанието на дадена страница, като отбележиш датата и часа на съхранението на нейното съдържание, но и да извършиш безплатно търсене в архивите.
Връзката, генерирана от Archive.today при замразяване на страницата, може да бъде споделена директно, използвайки различни инструменти.
Заключение
Можем ли лесно да възстановим загубен сайт чрез инструментите на Google?
Начинът да имаш отново сайта си, както си го оставил, не става с разчитане на кеша на Google или Archive.org. Ако анализираме уебсайта на конкурент или искаме да купим използван домейн, тези методи са добри, но относно нашия сайт или блог трябва да се подсигуряваме редовно с бекъпи.
Основното изображение е фото на Radek Grzybowski от Unsplash.
Източници за първото изображение – Pngtree.com.