Как да намерим стари уеб страници?

  •  

Как да намерим стари уеб страници

Как да намерим стари уеб страници? Различни причини ни поставят проблема за старите уеб страници. Кои са тези проблеми? И как да разрешим въпроса с откриването на стари версии на уеб страници или цели стари загубени сайтове – ще изложа тук.

Пионерът на XML и дългогодишен блогър Тим Брей казва, че Google може би страда от умишлена загуба на памет.

Брей пише, че:

Мисля, че Google е спрял да индексира по-старите части на мрежата. Мисля, че мога да го докажа. Конкуренцията на Google се справя по-добре.

Интернет непрекъснато се разраства. Толкова много уеб страници се създават всеки ден, че една част от старите могат да бъдат загубени от Google. По-рано тази година блогърите Тим Брей и Марко Фиорети отбелязаха, че Google изглежда е спрял да индексира целия интернет за Google Search. В резултат на това някои стари уебсайтове – тези на повече от 10 години – не се показват чрез търсачката на Google.

Да, може да се случи да не откриеш повече оная стара публикация, която те беше заинтересувала преди месеци.

Добрата новина е, че Bing и Duckduckgo поддържат много по-пълни индекси на стари публикации и ако търсиш неща, които са на повече от десетилетие, можеш да преминеш към някой от конкурентите на Google, за да ги намериш.

Причини да търсим стари изчезнали уеб страници

Много уебсайтове се закриват през годините, тъй като собствениците им са изключили сървърите, хостващи страниците или са се отказали от регистрираните имена на домейни. Други изтекли имена на домейни се използват от трети лица или за публикуват само рекламни връзки.

Съществуват обаче икономически, изследователски, правни или други причини да искаш да откриеш стара версия на някой уебсайт:

  • Сайтът ти неочаквано, по различни причини, е офлайн.
  • Ти си журналист, блогър или учен, който работи върху статия. Ако подадеш линк към определена страница, при нейната промяна, твоите читатели няма да разберат връзката.
  • Използваш SEO и силата на връзката на по-стари домейни.  Някои SEO експерти подобряват класирането си с архивирано съдържание в частни блог мрежи.
  • Имаш нужда от правни доказателства. Когато става въпрос за обиди или заплахи в мрежата, екранните снимки помагат за документирането им. Ако текстовете вече са изтрити от автора, тогава ти трябва по-ранна версия на уебсайта, за да събереш доказателства.
  • Документирането на работните процеси чрез архив също може да бъде полезно при патентни спорове.

Възстановяване на стари страници чрез Google

Възможно ли е да възстановим стари уеб страници? В известна степен да, съществува тази възможност.

В интернет мрежата се предлагат различни инструменти за преглед на предишния вид на сайт и намиране на стари публикации.

Не можем да се надяваме на истински чудеса. В случай, че имаме проблеми с възстановяване на собствения сайт, наличието на собствено архивно копие е единственият сигурен начин, за да го възстановим.

Можем ли да се обърнем за помощ към Google? Всъщност всяка страница се запазва в паметта на Google до определен период от време.

Когато променяме текста или изображението, търсачката не асимилира веднага промените.

Наистина е вероятно да има няколко дни закъснение преди да минат ботовете. Ти променяш страницата и твоите читатели я виждат с промените. Но търсачката все още има старата версия в паметта. (Ако искаш да ускориш преминаването на ботовете, виж как се прави в Search console).

Забавянето на преминаването на паяците на Google обаче, ни позволява да възстановим стари уеб страници, предишни версии.

Кеширането от Google се използва за обслужване на страницата, само ако тя стане недостъпна. Google не обслужва кеширани версии на страница, освен ако не е поискано.

Каква е процедурата?

Как да използваме кеша на Google

За да се възползваме от паметта на търсачката и видим предишни версии на уеб страница, стартираме опцията, показана тук на скрийншота. Веднага след URL адреса се вижда стрелка надолу:  кликни върху нея, за да влезеш в менюто, което ти дава връзката към кешираното копие.

Връзка към кеша на Google

Можеш да копираш текста и изображенията на версията преди промените. Очевидно това решение не може да се използва за намиране на страници, които са на много седмици или дори години. След като премине паякът на Google, ще трябва да се използват други начини за възстановяване на стари страници.

Друг начин за преглед на Google кеша (и на Archive.org кеша, за който пиша по-долу) на някоя страница е чрез уеб услугата Cachedview:

Преглед на Google кеш чрез CachedView

Преглед на Google кеша и Archive.org кеша чрез Cached View

Услугата има и аналог на cachedpages.com.

Търсене на кеширани страници с Cached Pages

Търсене на кеширани страници с Cached Pages

Няколко SEO предимства на кеша

Интересният аспект на кеша на Google: в допълнение към откриването на старата уеб страница, където текстовото и мултимедийното съдържание предхожда няколко записа, можеш да разполагаш с изходната версия (HTML код) и текстовата версия на ресурс. По този начин имаш допълнителен SEO инструмент и откриваш какво вижда Google, независимо от правилата, наложени от графичния аспект.

Използване на Google Cache за SEO

Тази снимка вероятно изглежда точно като текущата ми страница, но забележи бутона в горния ляв ъгъл с надпис Само текстова версия. Когато кликна върху тази връзка, ще ми стане ясно точно какво вижда Googlebot.

Текстова версия на уеб страница от кеша

Виждаме, че Googlebot не може да чете снимки – може да чете само текст. Така че, когато създаваме страницата си, трябва да сме сигурни, че сме включили текстови елементи, за да може Googlebot да чете.

Ако претоварим страницата си с ключови думи. Googlebot може да ги види и ще маркира уебсайта за нездравословни и нелоялни SEO практики.

Защо кеширането е важно за SEO?

Кеширането няма пряка полза от SEO. Но от подробния анализ можеш да разбереш:

  • Колко често Google кешира страницата ти? – Ако последната дата на кеш се случва днес и се актуализира утре, ще знаеш, че страницата ти има висока приложимост.
  • Как изглеждаше страницата ти при последното й обхождане? – Това е чудесен начин да идентифицираш скрит спам на връзки, проблеми с визуализацията и други.

Ускоряване на възстановяването на кеша

За Google има бързи команди, които ти позволяват да преглеждаш стари версии на страници с разширени оператори.

  • cache:namesite.com
  • http://webcache.googleusercontent.com/search?q=cache:namesite.com

Където namesite.com е името на твоя сайт.

Очевидно, можеш да работиш в основния домейн или върху една страница.


Други кеш търсачки на стари уеб страници

Bing

Кеш търсачката е на разположение и в Microsoft Bing: механизмът е идентичен с този, предложен от Google.

Търсене в кеша на Bing на стари уеб страници
Използването на кеша на търсачката може например да помогне в случай на спорове: да покаже, че първо този потребител е публикувал тази статия или, обратно, да удостовери, че определено съдържанието е публикувано на определен уебсайт.

Yandex

За съжаление няма начин да се стигне до кеша на Yandex чрез директна връзка. Трябва да напишеш адреса на страницата в реда за търсене и да избереш елемента. Ако резултатът от търсенето в кеша на Google не те задоволява, тогава тази опция определено си струва да се опита, тъй като версиите на страниците в кеша на Yandex могат да се различават.

Търсене в кеша на Яндекс

Виж един сайт как е изглеждал преди

Wayback Machine

За да откриеш предишни версии на сайт портал или блог, можеш да използваш този интересен инструмент: Archive.org – Wayback Machine. Една своеобразна машина на времето, която ти позволява да видиш един уебсайт как е изглеждал в миналото. Как се използва?

Отиди на archive.org и кликни горе вляво на Web. Или направо иди на този адрес: Archive.org/web/.

Wayback на Archive.org вероятно е най-добрият инструмент за възстановяване на изтрити уеб страници. Търсачката е част от Интернет архива, нестопанска организация, която се опитва да дублира цялото съдържание в Интернет. Архивът е запазил милиарди уеб страници, което е впечатляващо. Страниците се заснемат многократно, така че може да се използва Wayback Machine, за да се разглежда една и съща страница през няколко различни години.

Въведи URL адреса на желания уебсайт или уеб страница в полето в горната част.

Щракни върху BROWSE HISTORY.

Ще видиш изглед на календар. Избери годината в горната част и след това датата от списъка с месеци по-долу.

Ще се покаже запазена версия на страницата от тази дата.

Намиране на стари уеб страници в Wayback Machine

Натисни Ctrl + S, за да запазиш страницата като HTML документ, който можеш да консултираш, когато поискаш. Можеш да я запазиш и чрез трети страни, например в Pocket.

Wayback Machine  се използва често и за извършване на SEO одити на уебсайтове и анализ на домейни за закупуване, за да се разбере какви са били в миналото.

Oldweb.today

Друг уебсайт, който да пътува във времето и да открива стари версии на уеб страници е Oldweb.today, още една безплатна услуга.

Oldweb.today използва публични архиви (включително този от Wayback Machine ), за да предложи на потребителя навигационна версия на всеки уебсайт, както се е появявал в миналото .

Услугата използва един вид емулатор, който дори позволява избор на уеб браузър. Аз успях да видя определена страница от моя блог от преди една година чрез Safari за Windows:

Преглед на стари страници с oldweb today

Преглед на стари уеб страници с Oldweb.today

Действайки в падащото меню Requested Date/Time, можеш да избереш дата, различна от тази, която се показва в момента, като се има предвид, че Oldweb.today винаги ще показва страницата във версията, най-близка до посочената дата.

Блокиране на кеша на Google на сайта

В някои случаи сайтовете не позволяват, чрез определена директива на robots.txt, да се съхраняват уеб страниците им в Archive.org. Ако искаш да предотвратиш кеширането на сайта си от Google, има поне два начина да направиш това.

Първият е, като се вмъкне мета таг robot с noarchive в отделните уеб страници:

meta name="robots" content="noarchive"

noarchive означава и да не се показва линка Cached в резултатите при търсене.

Вторият начин е, да се използва robots.txt, специфицирайки блокиране на кеша на Google:

User-Agent: Googlebot
Disallow: /
Внимание: Тази втора настройка не се препоръчва, тъй като е вярно, че тя блокира кеша, но напълно премахва въпросния сайт от Google (дори и текущите версии).

Третият начин е, да не се допуска бота ia_archiver – Archiver за Wayback Machine на Archive.org, пак чрез robots.txt:

  1. Не позволявай на ia_archiver да има достъп до която и да е част от сайта ти.
    User-agent: ia_archiver
    Disallow: /
  2. Разреши на ia_archiver достъп до сайта ти, но не и до папката „admin
    User-agent: ia_archiver
    Disallow: /admin

Тези методи с robots.txt може да не работят, ако ботът не обърне внимание на установените ограничения.

Замразяване на съдържанието на уеб страница

Замразяване на уеб страница чрез Wayback Machine

За да покажеш, че уеб страницата се е появила по определен начин на датата, на която е била запазена, можеш да използваш функцията Save Page Now на Wayback Machine:

Замразяване на уеб страница с Wayback Machine

Замразяване на уеб страница с Wayback Machine

Може да се използва и друга услуга

Замразяване на уеб страница чрез Archive.today

Замразяване на уеб страница с Archive today

Услугата позволява не само да замразиш съдържанието на дадена страница, като отбележиш датата и часа на съхранението на нейното съдържание, но и да извършиш безплатно търсене в архивите.
Връзката, генерирана от Archive.today при замразяване на страницата, може да бъде споделена директно, използвайки различни инструменти.

Замразяване и споделяне на уеб страница с Archive today

Замразяване и споделяне на уеб страница с Archive today

Заключение

Можем ли лесно да възстановим загубен сайт чрез инструментите на Google?

Начинът да имаш отново сайта си, както си го оставил, не става с разчитане на кеша на Google или Archive.org. Ако анализираме уебсайта на конкурент или искаме да купим използван домейн, тези методи са добри, но относно нашия сайт или блог трябва да се подсигуряваме редовно с бекъпи.

Основното изображение е фото на Radek Grzybowski от Unsplash.

Източници за първото изображение – Pngtree.com.


  •  

Коментари

Този сайт използва Akismet за намаляване на спама. Научете как се обработват данните ви за коментари.