Počítače Okna Internet

XML Sitemap: Kompletní průvodce k použití. Zpráva Sitemap Jak zkontrolovat soubor Sitemap v Yandexu

V této příručce se budeme zabývat následujícími otázkami:

Co je soubor Sitemap?

Jedná se o soubor, který obsahuje seznam odkazů na všechny důležité stránky webu. To znamená, že tento dokument řídí vyhledávače k hlavnímu obsahu webu.

K čemu slouží mapa webu?

Soubor Sitemap je potřeba, pokud má web problémy s indexováním, které jsou způsobeny:
1) velký počet stránek;
2) nedostatek odkazů (interních nebo externích) na stránky;
3) hluboké hnízdění na lokalitě (přehledná struktura).

HTML vs XML sitemap

Soubory Sitemap jsou následujících typů:

  • HTML;

Nejjednodušším vysvětlením rozdílu mezi těmito formáty je, že mapa XML je primárně určena pro vyhledávače a HTML je primárně pro uživatele.

HTML mapa- toto je pouze obecný přehled webu, obsahuje pouze informace a stránky, které uživatelé potřebují vidět. Pokud jste na webu a hledáte konkrétní sekci, když přejdete do HTML souboru Sitemap, snadno ji najdete. I když je tento typ mapy webu zaměřen na uživatele, může také pomoci vašemu hodnocení ve vyhledávačích. To je jeden ze znaků toho, že vám záleží na uživatelské přívětivosti webu.

Při sestavování HTML Sitemap je důležité vzít v úvahu:

1. Strukturovaný obsah.

Sitemap by měl být přehledný a uživatelsky přívětivý. Je žádoucí, aby zahrnoval sekce, kategorie, podkategorie atd.

2. Propojte kotvy.

Protokol XML mapy stránka je určena pro vyhledávací roboty. Soubor XML obsahuje informace o tom, kdy byla adresa URL naposledy aktualizována, jak je důležitá a jak často ke změnám dochází.

Soubor Sitemap se obvykle skládá z následujících značek XML:

povinné:
- definuje standard protokolu a zapouzdří tento soubor.
– содержит в себе информацию о URL-адресе (является родительским тегом).
https://appcube.ru/cs/ – содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Подписаться на рассылку

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/!} 2018-06-14 daily 0.9

XML tagy
urlset
url(povinné) – Nadřazená značka pro každou adresu URL.
loc(povinné) – Adresa URL dokumentu musí být absolutní.
lastmod- datum poslední úpravy dokumentu ve formátu Datetime.
frekvence změn- frekvence změn stránek (vždy, hodinově, denně, týdně, měsíčně, ročně, nikdy). Význam této značky je doporučení pro vyhledávače, nikoli příkaz.
přednost- priorita adresy URL vzhledem k ostatním adresám (od 0 do 1) pro příkaz procházení. Pokud není zadáno, výchozí hodnota je 0,5.

XML mapa pro obrázky

Někteří SEO vkládají odkazy na obrázky do sitemap.xml stejným způsobem jako odkazy na html dokumenty. Můžete to udělat, ale pro Google je lepší použít rozšíření standardního protokolu a spolu s adresami URL odesílat další informace o obrázcích. Vytvářet obrázkové mapy XML je užitečné, pokud je potřeba obrázky procházet a indexovat a zároveň nejsou přímo přístupné botovi (používá se například JavaScript).

Příklad mapy webu obsahující jednu stránku a související obrázky

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML tagy
obrázek: obrázek(povinné) - informace o jednom obrázku. Lze použít maximálně 1000 obrázků.
obrázek: loc(povinné) - cesta k souboru obrázku. Pokud je použito CDN, je přípustné odkazovat na jinou doménu, pokud je to potvrzeno v panelu pro webmastery.
obrázek: popisek- popisek obrázku (může obsahovat dlouhý text).
obrázek: název- název obrázku (obvykle krátký text).
obrázek: geo_location- místo natáčení.
obrázek: licence- URL licence obrázku. Používá se v pokročilém vyhledávání obrázků.

XML mapa pro video

Podobně jako mapa pro obrázky má Google také rozšíření pro video sitemap, kde můžete specifikovat detailní informace o videoobsahu, který ovlivňuje zobrazení při vyhledávání videí. Soubor Sitemap pro videa je nezbytný, když web používá videa, která jsou hostována místně, a když je indexování těchto videí obtížné kvůli použitým technologiím. Pokud na svůj web vložíte video z YouTube, pak zde soubor videa-sitemap není potřeba.

Mapa webu pro zprávy

Pokud váš web obsahuje zpravodajský obsah a je členem Zpráv Google, je užitečné použít soubor Sitemap pro zprávy, aby Google mohl rychleji najít váš nejnovější obsah a indexovat všechny zpravodajské články. V tomto případě by soubor Sitemap měl obsahovat pouze adresy URL stránek publikovaných za poslední 2 dny a neměl by obsahovat více než 1000 adres URL.

Použití více karet

V případě potřeby můžete použít více souborů Sitemap a zkombinovat je do jednoho indexového souboru Sitemap. Několik sitemap.xml se používá, když:

  • Stránka používá několik enginů (CMS).
  • Stránka má více než 50 000 stránek.
  • Musíte si nastavit pohodlné sledování chyb v sekcích.

V druhém případě má každá velká sekce webu svůj sitemap.xml a všechny jsou přidány na panel pro webmastery, kde je vhodné sledovat, ve které ze sekcí je nejvíce chyb (viz část Hledání chyb v mapě webu).

Pokud máte 2 nebo více souborů Sitemap, je nutné je zkombinovat do indexového souboru Sitemap, který vypadá stejně jako běžný soubor (s výjimkou přítomnosti značek sitemapindex a sitemap namísto urlset a url), má podobná omezení a může odkazovat pouze na běžné XML mapy (neindexované) ...

Příklad indexu souboru Sitemap:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18: 23: 17 + 00: 00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex(povinné) – Určuje standard aktuálního protokolu.
mapa webu(povinné) – obsahuje informace o jednotlivé mapě webu.
loc(povinné) – umístění mapy webu (formát xml, txt nebo rss pro Google).
lastmod- čas změny mapy webu. Umožňuje vyhledávačům rychle objevit nové adresy URL na velkých webech.

Jak vytvořit soubor sitemap.xml

Metody vytváření XML Sitemap:

  • Interní CMS zařízení. Mnoho CMS již podporuje tvorbu sitemap. Chcete-li to zjistit, přečtěte si dokumentaci k vašemu CMS, podívejte se na položky nabídky v panelu administrátora nebo kontaktujte technickou podporu motoru. Načtěte soubor https: //yoursite.com/sitemap.xml na svůj web, může již existovat a je dynamicky generován.
  • Externí pluginy. Pokud CMS nemá funkci generování sitemap a podporuje pluginy, vygooglujte, který plugin uzavře problém sitemap.xml pro váš engine a nainstalujte jej. V některých případech musíte kontaktovat programátory, aby vám podobný plugin napsali.
  • Samostatný skript na webu. Znáte-li protokol XML map a technická omezení, můžete si vytvořit soubor sitemap.xml sami přidáním generovacího skriptu do CRON. Pokud nejste programátor, použijte ostatní položky v tomto seznamu.
  • Generátory souborů Sitemap. Existuje mnoho generátorů sitemap.xml, které procházejí vaše stránky a stahují hotovou mapu. Nevýhodou je, že při každé aktualizaci webu je nutné ručně vygenerovat mapu webu.
  • Analyzátory. Desktopové programy určené pro technickou analýzu webu obvykle poskytují možnost stáhnout soubor sitemap.xml vygenerovaný z prolezených stránek. Funguje podobně jako generátory sitemap, běží pouze lokálně na vašem počítači.

Populární online generátory sitemap

XML-Sitemaps.com

Umožňuje získat soubor sitemap.xml několika kliknutími. Podporuje formáty XML, HTML, TXT a GZ. Je vhodné jej použít pro malé weby (do 500 stran).

Podobný generátor, ale má trochu více nastavení a umožňuje vám zdarma vytvořit mapu až 2000 stránek.

Má mnoho nastavení, umožňuje importovat adresy URL ze souboru CSV. Zdarma prohledá až 500 adres URL.

Nemá žádné omezení počtu stránek ke skenování. U velkých webů však může proces generování zamrznout na několik desítek minut.

Místní programy pro generování XML Sitemap

Generátor souborů Sitemap G-Mapper

Bezplatná desktopová verze generátoru sitemap pro Windows.

Screaming Frog SEO Spider

Flexibilní nástroj pro generování sitemap s mnoha nastaveními. Pohodlné, pokud již používáte screen frog pro jiné úkoly SEO. Po procházení webu použijte položku nabídky Sitemaps -> Create XML Sitemap.

Netpeak pavouk

Méně flexibilní, ale také pohodlné řešení pro rychlé generování sitemap.xml. Po procházení webu je třeba použít položku nabídky Nástroje -> Generovat mapu webu.

Sitemap je soubor s odkazy na stránky webu, který informuje vyhledávače o aktuální struktuře webu. Yandex podporuje formáty XML a TXT. Formát XML umožňuje přenos dalších informací.

Poznámka. Yandex nezaručuje, že všechny adresy URL uvedené v souboru budou zahrnuty do výsledků vyhledávání.

  1. Požadavky na soubor
  2. Otázky a odpovědi

Kdy potřebujete soubor Sitemap?

Yandex vyvíjí speciální algoritmy, pomocí kterých se indexovací robot dozví o webu. Například pomocí Odkaz, který odkazuje na stránky jednoho webu. Stránky mohou být \ n umístěny v různých adresářích stejné domény nebo na subdoménách.

"}}">vnitřní a Odkaz, který je umístěn na jiném webu. "))"> externí odkazy – přesun z jedné stránky na druhou. Někdy může robot přeskakovat stránky. Použijte soubor Sitemap, pokud váš web:

Formáty podporované Yandexem

Omezení. Vyhledávání Yandex nepodporuje odesílání zdrojů RSS a Atom pomocí souboru Sitemap.

Požadavky na soubor

    Maximální velikost nekomprimovaného souboru je 50 MB.

    Umístěte soubor na stejnou doménu jako web, pro který byl vytvořen.

    Při přístupu k souboru by měl server vrátit kód HTTP 200.

Jak vytvořit soubor a nahlásit jej na Yandex

V případě potřeby můžete odebrat informace ze souboru Sitemap.

Otázky a odpovědi

Sitemap se ve službě zobrazuje jako vyloučená stránka se stavem „Neplatný formát dokumentu“

Zobrazení souboru Sitemap (stejně jako jiných souborů XML) jako vyloučených stránek je pouze pro informační účely a žádným způsobem neovlivňuje indexování webu ani zpracování souboru Sitemap.

Soubor Sitemap lze zobrazit ve skupině vyloučených stránek, protože se jej robot pokusil indexovat jako běžnou stránku, zatímco soubory XML nejsou indexovány ve vyhledávači Yandex a nejsou zahrnuty ve výsledcích vyhledávání.

Při zpracování souboru Sitemap došlo k chybě „Neznámá značka“.

Soubor Sitemap může obsahovat pouze určité prvky XML. Pokud webmaster nalezne v souboru další prvky (například označení mobilní nebo vícejazyčné verze, adresy obrázků), zobrazí webmaster chybu „Neznámá značka“. Nepodporované prvky jsou robotem při zpracování Sitemap ignorovány, přičemž jsou zohledněna data z podporovaných prvků. Proto není nutné měnit mapu webu.

Dojde-li ke změně obsahu souboru, bude aktualizace informací ve správci webu trvat až dva týdny.

Soubor Sitemap má stav „Neindexováno“

Soubor Sitemap nemusí být indexován z několika důvodů:

    Robot nedávno prolezl mapu webu a ještě ji nezpracoval. Počkejte dva týdny. Pokud používáte indexový soubor Sitemap s více soubory, může jejich zpracování trvat déle než u jednoho souboru Sitemap.

    Tento web byl dříve pro indexovací robot nedostupný. Musíte počkat na další návštěvu webu robotem.

Pokud je hlavním účelem souboru robots.txt zakázat indexování, pak soubor sitemap.xml plní přesně opačné úkoly. Je zodpovědná za urychlení indexování stránek a úplnost indexování stránek.

Sitemap.xml sděluje vyhledávači frekvenci, s jakou je nutné znovu indexovat stránky. Sitemap je v tomto ohledu důležitý zejména u stránek s pravidelně aktualizovaným obsahem (zpravodajské portály apod.). Sitemap.xml navíc obsahuje všechny důležité stránky webu s uvedením jejich priority.

Požadavky na soubor Sitemap

Sitemap je soubor XML, který uvádí adresy URL webových stránek v kombinaci s metadaty přidruženými ke každé adrese URL (datum poslední úpravy; frekvence změn; její priorita na úrovni webu), aby vyhledávače mohly tyto stránky inteligentněji procházet.

Celkový počet sitemap.xml na webu by neměl překročit 1000, zatímco počet záznamů (url) v každém by neměl přesáhnout 50 000.

Pokud potřebujete uvést více než 50 000 adres URL, měli byste vytvořit více souborů Sitemap.

Soubor Sitemap lze komprimovat pomocí archivátoru gzip, aby se zmenšila jeho velikost. Velikost každého souboru Sitemap v rozbalené (rozbalené) podobě by však neměla přesáhnout 10 megabajtů.

Mapa stránek nemusí být ve formuláři xml soubor... Protokol umožňuje generování mapy ve formě syndikace (RSS nebo Atom) nebo ve formě jednoduchého textový soubor s řádkovým výpisem adresy URL. Ale takové "sitemapy" buď neobsahují všechny adresy URL stránek (v případě syndikace), nebo nenesou další důležité informace (datum a čas úpravy obsahu stránky), ve skutečnosti se kvůli tomu mapy stránek používají v SEO .

Poskytnutím časového razítka poslední změny Umožníte prohledávačům vyhledávače načíst pouze podmnožinu souborů Sitemap v indexu, to znamená, že prohledávač může načíst pouze ty soubory webu (stránky), které byly změněny po určitém datu. Tento mechanismus pro částečnou extrakci souborů z Sitemap.xml vám umožňuje rychle objevit nové adresy URL na velkých stránkách. Kromě toho vám umožňuje snížit zatížení serveru i prohledávače vyhledávače. A to druhé mají (vyhledávače) velmi rádi.

Kombinace souboru Sitemap se souborem robots.txt a metaznačkami robots

Instrukce sitemap.xml by se při správném použití měly vzájemně doplňovat. existuje tři nejdůležitější pravidla interakce těchto pokynů:

  • sitemap.xml, robots.txt a metaznačky robots by si neměly odporovat;
  • všechny stránky vyloučené (blokované) v souboru robots.txt a metaznačky robots by měly být také vyloučeny ze souboru sitemap.xml;
  • všechny procházené stránky povolené souborem robots.txt musí být obsaženy v souboru sitemap.xml

Výjimky ze tří pravidel

Existují také výjimky z těchto tří pravidel. A jako vždy jsou propojeny se stránkovacími stránkami. Počínaje druhou a další stránkovou stránkou registrujeme noindex, sledujeme metaznačky robots, přičemž stránkovací stránky nejsou uzavřeny před indexováním v robots.txt.

Nastavte datum a čas změny stránky tak, aby bylo shodné s datem a časem změny hlavní (první, hlavní stránky) stránky katalogu. V zásadě se s tím dá souhlasit.

Optimalizátoři staré školy doporučují přidávat do souboru sitemap.xls pouze neindexované nebo změněné stránky. Stránky zahrnuté do indexu by měly být z mapy webu odstraněny. Ale s tímto názorem je již obtížnější souhlasit. Pokud je tam pole lastmod a je správně vyplněno, není o takové libůstky nouze.

Hlavní problémy při používání sitemap.xml

Při provádění jsem se nejčastěji setkal s následujícími chybami:

  1. Nekonzistence souboru sitemap.xml se stránkami webu, zastaralý soubor Sitemap. Tento problém nastává, když mapa webu není generována dynamicky, ale příležitostně spuštěním nějaké služby v CMS, nebo dokonce službami třetích stran. V tomto případě se objeví mnoho mrtvých stránek, které dávají 404 chyb (pokud byla stránka fyzicky odstraněna nebo přesunuta na jiné místo, byla změněna adresa URL). Nové stránky se navíc indexují mnohem pomaleji, protože nejsou v souboru sitemap.xml.
  2. Další chybou je neplatná struktura sitemap.xml. Tato chyba se obvykle vyskytuje na CMS "samo napsaných" nebo při použití nesprávných pluginů pro populární CMS. Tím se vygeneruje soubor sitemap.xml v rozporu se strukturou popsanou protokolem.
  3. Úpravou této chyby je nesprávné zpracování data změny záznamu. Z hlediska protokolu se nejedná o chybu, protože pole lastmod je nepovinné. Z pohledu SEO a vyhledávačů absence správné hodnoty v tomto poli (související s přímou změnou obsahu) zcela neguje význam celého souboru sitemap.xml. Jak již bylo zmíněno výše, vyhledávače přeindexují ty stránky, jejichž pole lastmod se změnilo Co se stane, když se toto pole změní současně pro všechny záznamy (stránky) webu. To znamená, že datum změny je stejné pro všechny soubory webu. S největší pravděpodobností nebudou vyhledávače věnovat pozornost mapě webu a web bude znovu indexován obvyklým způsobem, zatímco hluboce umístěné stránky buď nejsou reindexovány vůbec, nebo budou reindexovány po velmi dlouhou dobu. Takže musíte buď vůbec nepoužívat pole lastmod (což je špatné), nebo nastavit datum poslední významné změny stránky , například když se změnila cena nebo skončil produkt nebo se změnil popis ...
  4. Další skupina chyb, se kterými se setkáváme, jsou logické chyby způsobené porušením tří pravidel pro kombinování robots.txt a sitemap.xml. V tomto případě můžete pozorovat neustálý přístup na stránku v indexu a okamžitý odchod odtud. To však nebude dodrženo, pokud je v souboru Sitemap.xml uvedena metaznačka noindex a záznam. V tomto případě prohledávač (robot, PS spider) vstupující na stránku ji nebude indexovat.
  5. No a poslední chybou, která se na stránkách často vyskytuje, je přítomnost „osiřelých stránek“. Toto jsou stránky, na které je odkaz z mapy webu, ale z žádné ze stránek na webu není jediný přímý odkaz. Často je to způsobeno tím, že stránky byly smazány „logicky“ (například byly umístěny do koše ve WordPressu), nikoli fyzicky. To je také pozorováno na webech, kde je přístup k produktovým kartám prováděn pomocí skriptů a filtrů způsobem, který neumožňuje indexování výsledků těchto skriptů. Mohou existovat jiné důvody pro výskyt takových osiřelých stránek. To vše snižuje důvěru vyhledávačů k webu a je negativním signálem hodnocení.

Podle protokolu můžete po změně mapy webu pingnout vyhledávače. Chcete-li to provést, musíte vytvořit dotaz následujícího typu.

Sitemap nebo Sitemap je speciálně vytvořený soubor se seznamem zdrojových stránek, které je třeba indexovat.

Proč potřebujete soubor Sitemap

Existují dva typy souborů Sitemap, které se liší formátem a účelem:

HTML mapa

Je sestaven pro uživatele, aby jim usnadnil orientaci na stránkách webu. Toto je volitelný prvek, takovou mapu lze sestavit na velkém webu se složitou hierarchií pro pohodlí uživatelů.

XML mapa

Je nezbytný pro vyhledávací roboty, je důležitý pro SEO, protože pomáhá botům indexovat stránky zdroje.Přítomnost tohoto souboru říká vyhledávacím robotům přesně, jak je struktura webu uspořádána. Yandex, Google, Bing a další vyhledávače tak dostanou příležitost lépe indexovat projekt.

V tomto článku budeme analyzovat tvorbu XML mapy.

K čemu je mapa webu:

  1. Urychlete celý proces indexování.
    Prohledávače Google mohou přeskakovat nedávno vytvořené nebo upravené stránky a mapa vám pomůže se v nich orientovat.
  2. Uveďte další informace.
    Další doporučení pro robota jsou uvedena na mapě: dělají si poznámky o důležitosti stránky, frekvenci a datu aktualizací.
  3. Zobrazí počet indexovaných adres URL
    Signály ze souboru Sitemap jsou také potřebné k zobrazení indexovaných odkazů Search Console.
  4. Urychlete proces dávkového deindexování.
    Chcete-li to provést, vytvořte dočasnou mapu webu, která obsahuje stránky, které mají být odstraněny. Na tomto místě doporučuje, abyste uvedli datum poslední úpravy stránek, kdy jim byl přiřazen kód chyby 404 nebo atribut noindex. Tím sdělíte Googlu, aby znovu prošel obsah webu. Po několika měsících lze tento dočasný soubor Sitemap odstranit.

Přitom i když Google najde odkaz v Sitemapu, ale není v navigaci, nedá mu žádnou váhu a index. Odkazy v mapě webu jsou doporučení, nejdůležitější je vytvořit kompetentní, ve kterém vyhledávací robot najde všechny potřebné stránky.

Ve většině případů stačí kompetentní externí a interní propojení stránek, aby se vyhledávací roboti dozvěděli o celém obsahu webu. Vstupní stránky, malé firemní weby o několika stránkách, jednostránkové vizitky nepotřebují mapu webu – bot bude stránkám bez problémů rozumět. Mapy jsou potřeba pro stránky, které se obtížně procházejí, proto se doporučuje vytvořit je pro jiné projekty.

Mapa je rozhodně potřeba pro weby s následujícími vlastnostmi:

  • Projekt vznikl nedávno, má namále externí odkazy... V tomto případě je pro vyhledávacího robota obtížnější najít web.
  • Ve struktuře webu je mnoho archivů webových dokumentů, které spolu nesouvisí.
  • Projekt má velké množství stránek, sekcí a podsekcí;
  • Strukturě dominují dynamické stránky.
  • Stránka má multimediální obsah. Robot bude moci získat další informace ze souboru Sitemap pro zobrazení ve výsledcích vyhledávání.

Vyhledávače nemusí indexovat všechny požadované stránky takových stránek, pokud prohledávači nenabízejí soubor Sitemap. Podívejme se, jak jej vytvořit.


Základní kritéria pro vytvoření mapy webu

Vyhledávače mají své vlastní požadavky na přípravu Sitemap, které musí webmaster mít na paměti.

Obecné požadavky na soubor Sitemap:

  1. Počet URL v souboru sitemap nesmí překročit 50 tisíc. Je-li jich více, je nutné vytvořit několik samostatných map stránek, které se evidují v indexovém souboru Sitemap. K tomu stačí vytvořit několik samostatných souborů Sitemap, každý ne více než 50 tisíc odkazů a celkový počet odkazů může překročit limit. Poté se pro několik map vytvoří společný nadřazený soubor Sitemap.
  2. Maximální velikost souboru je 50 MB. Soubor lze zmenšit pomocí komprese, ale stále musí být menší než 50 MB nekomprimovaný.
  3. Soubor Sitemap musí být na stejné doméně jako web, pro který byl vytvořen.
  4. Můžete použít kódování UTF-8, stejně jako latinská písmena a čísla.
  5. pro přístup k souboru Sitemap musí existovat stav HTTP s kódem 200 OK.
  6. Identifikátory adresy URL relace by neměly být v souboru Sitemap.
  7. Odkazy musí mít stejnou syntaxi.
  8. Mapa obsahuje pouze kanonické adresy URL.
  9. Mapa není v konfliktu s informacemi v souboru robots.txt – pokud jsou některé stránky v souboru robots.txt uzavřeny z indexování, neměly by být v mapě.

Někteří webmasteři se obávají o pořadí odkazů v souboru, ale zástupce Googlu říká, že na pořadí vůbec nezáleží, hlavní je vložit do Sitemap nejdůležitější kanonické odkazy.


Přijatelné formáty souborů Sitemap

Existuje speciální požadavek na formát souboru sitemap. Sitemap můžete vytvořit jako soubor XML, textový soubor nebo prostřednictvím RSS, mRSS a Atom 1.0. Yandex upozorňuje, že vyhledávání nepodporuje přenos RSS a Atom zdrojů pomocí Sitemap. Pokud cílíte na různé vyhledávače, použijte formát XML. Pravidla pro vytvoření souboru jsou popsána ve standardu.

Značky mapy webu služby

Požadované značky souboru Sitemap:

  • - kontejner označující standard protokolu;
  • - родительский тег для каждой записи URL-адреса;
  • https://appcube.ru/cs/ - указание URL, начинается с префикса, к примеру, http или https.

Дополнительные теги:

  • - частота обновления веб-документа с атрибутами never, always, yearly, monthly и так далее;
  • - дата последнего обновления на странице;
  • Указание разной важности страниц ресурса от 0,1 до 1, определяет очередность обработки URL на этом сайте. Google его не поддерживает. Приоритет можно дать самым важным страницам и нет смысла указывать высокий приоритет всем ссылкам, тогда тег вообще ни на что не повлияет.

Другие языковые версии сайта указывают с помощью атрибута hreflang .

Пример Карты сайта в формате XML

Sitemap для сайт, если бы он состоял из одной страницы и содержал упомянутые теги, мог бы выглядеть так:

http://www.сайт/ 2016-03-21 daily 0.8

Jak vytvořit a kam umístit mapu webu?

Pokud si přejete, můžete vytvořit soubor Sitemap ručně, ale je to příliš pracné a zbytečné - soubor Sitemap by měl být dynamický, pokud web pravidelně aktualizujete - publikujte nové příspěvky na blogu, vyvíjejte internetový obchod. Je lepší vytvořit mapu webu automaticky kontaktováním služeb bezplatné online služby a pluginy pro CMS.

Služby vytváření souborů Sitemap