Computers Windows Internet

XML Sitemap: The Complete Guide to Use. Sitemap report How to check a sitemap file in Yandex

In this guide, we will cover the following questions:

What is Sitemap?

This is a file that contains a list of links to all important pages of the site. That is, this document directs search engines to the main content on the site.

What is a sitemap for?

Sitemap is needed if the site has problems with indexing, which are caused by:
1) a large number of pages;
2) lack of links (internal or external) to the pages;
3) deep nesting on the site (confusing structure).

HTML vs XML sitemap

Sitemaps are of the following types:

  • HTML;

The simplest explanation for the difference between these formats is that the XML map is primarily for search engines, and HTML is primarily for users.

HTML Map- this is just a general overview of the site, contains only information and pages that users need to see. If you are on a site and are looking for a specific section, when you go to the Sitemap HTML you will easily find it. While this type of sitemap is user-centric, it can also help your search engine rankings. This is one of the signs that you care about the user-friendliness of the site.

When compiling an HTML sitemap, it is important to consider:

1. Structured content.

The sitemap should be clear and user-friendly. It is desirable that it include sections, categories, subcategories, etc.

2. Link anchors.

Protocol XML Maps the site is intended for search robots. The XML file contains information about when the URL was last updated, how important it is, and how often the changes occur.

Typically, a Sitemap consists of the following XML tags:

Mandatory:
- defines the protocol standard and encapsulates this file.
– содержит в себе информацию о URL-адресе (является родительским тегом).
https://appcube.ru/en/ – содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Подписаться на рассылку

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/!} 2018-06-14 daily 0.9

XML tags
urlset
url(required) - The parent tag for each URL.
loc(required) - The URL of the document, must be absolute.
lastmod- the date of the last modification of the document in the Datetime format.
changefreq- frequency of page changes (always, hourly, daily, weekly, monthly, yearly, never). The meaning of this tag is a recommendation to search engines, not a command.
priority- the priority of the URL relative to other addresses (from 0 to 1) for the crawl order. If not specified, it defaults to 0.5.

XML map for images

Some SEOs insert links to images into sitemap.xml in the same way as links to html documents. You can do this, but it's better for Google to use an extension of the standard protocol and send additional information about images together with urls. It is useful to create XML image maps if images need to be crawled and indexed, and at the same time, they are not directly accessible to the bot (for example, JavaScript is used).

An example of a sitemap containing one page and its associated images

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML tags
image: image(required) - information about one image. A maximum of 1000 images can be used.
image: loc(required) - path to the image file. If a CDN is used, then it is permissible to refer to another domain if it is confirmed in the panel for webmasters.
image: caption- image caption (may contain long text).
image: title- image title (usually short text).
image: geo_location- the shoot place.
image: license- Image license URL. Used in advanced image search.

XML map for video

Similar to a map for images, Google also has a video sitemap extension where you can specify detailed information about video content, affecting display in video search. Video sitemap is necessary when the site uses videos that are hosted locally, and when indexing these videos is difficult due to the technologies used. If you embed a YouTube video on your site, then the video-sitemap is not needed here.

News Sitemap

If your site has news content and is a member of Google News, it is useful to use a News Sitemap so Google can find your latest content faster and index all news articles. In this case, the Sitemap should only contain the URLs of pages published in the last 2 days and contain no more than 1000 URLs.

Using multiple cards

If necessary, you can use multiple sitemaps, combining them into one index sitemap. Several sitemap.xml are used when:

  • The site uses several engines (CMS).
  • The site has more than 50,000 pages.
  • You need to set up convenient error tracking in sections.

In the latter case, each large section of the site has its own sitemap.xml and all of them are added to the panel for webmasters, where it is convenient to observe which of the sections has the most errors (see the section on finding errors in the sitemap).

If you have 2 or more sitemaps, they must be combined into an index sitemap, which looks the same as a regular one (except for the presence of sitemapindex and sitemap tags instead of urlset and url), has similar restrictions and can only link to regular XML maps (not indexed) ...

Example Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18: 23: 17 + 00: 00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex(required) - Specifies the standard of the current protocol.
sitemap(required) - contains information about an individual sitemap.
loc(required) - sitemap location (xml, txt or rss format for Google).
lastmod- time of the sitemap change. Allows search engines to quickly discover new URLs on large sites.

How to create a sitemap.xml

Methods for creating XML Sitemap:

  • Internal CMS facilities. Many CMS already support sitemap creation. To find out, read the documentation for your CMS, look at the menu items in the admin panel, or contact the technical support of the engine. Load the file https: //yoursite.com/sitemap.xml on your site, it may already exist and is being dynamically generated.
  • External plugins. If the CMS does not have sitemap generation functionality, and it supports plugins, google which plugin closes the sitemap.xml issue for your engine and install it. In some cases, you need to contact the programmers to write a similar plugin for you.
  • A separate script on the site. Knowing the XML map protocol and technical limitations, you can create a sitemap.xml yourself by adding a generation script to CRON. If you are not a programmer, use the other items on this list.
  • Sitemap generators. There are many sitemap.xml generators that crawl your site and download a finished map. The disadvantage here is that every time the site is updated, a sitemap must be manually generated.
  • Parsers. Desktop programs designed for technical analysis of a site usually provide an opportunity to download a sitemap.xml generated from crawled pages. Works similarly to sitemap generators, only runs locally on your machine.

Popular online sitemap generators

XML-Sitemaps.com

Allows you to get sitemap.xml in a few clicks. Supports XML, HTML, TXT and GZ formats. It is convenient to use for small sites (up to 500 pages).

A similar generator, but it has a little more settings and allows you to create a map of up to 2000 pages for free.

Has many settings, allows you to import URLs from a CSV file. Scans up to 500 URLs for free.

Has no limits on the number of pages to scan. But for large sites, the generation process can freeze for several tens of minutes.

Local programs for generating XML Sitemap

G-Mapper Sitemap Generator

Free desktop version of the sitemap generator for Windows.

Screaming Frog SEO Spider

Flexible sitemap generation tool with many settings. Convenient if you already use screen frog for other SEO tasks. After crawling the site, use the Sitemaps -> Create XML Sitemap menu item.

Netpeak spider

Less flexible, but also convenient solution for fast sitemap.xml generation. After crawling the site, you need to use the Tools -> Generate Sitemap menu item.

Sitemap is a file with links to site pages that informs search engines about the current site structure. Yandex supports XML and TXT formats. XML format allows for the transfer of additional information.

Note. Yandex does not guarantee that all URLs specified in the file will be included in the search results.

  1. File Requirements
  2. Questions and answers

When do you need a Sitemap?

Yandex develops special algorithms by which the indexing robot learns about the site. For example using A link that links the pages of one site. Pages can \ n be located in different directories of the same domain or on subdomains.

"}}">internal and A link that is located on another site. "))"> external links - moving from one page to another. Sometimes the robot can skip pages. Use a Sitemap if your site:

    a large number of pages;

    separate pages no navigation links;

    deep nesting.

Formats supported by Yandex

Limitation. Yandex Search does not support sending RSS and Atom feeds using a Sitemap file.

File Requirements

    The maximum uncompressed file size is 50 MB.

    Place the file on the same domain as the site for which it was created.

    When accessing the file, the server should return an HTTP 200 code.

How to create a file and report it to Yandex

You can remove Sitemap information if necessary.

Questions and answers

Sitemap is displayed in the service as an excluded page with the status "Invalid document format"

Displaying a Sitemap (as well as other XML files) as excluded pages is for informational purposes only and does not in any way affect site indexing or Sitemap processing.

The Sitemap file can be displayed in the group of excluded pages, because the robot tried to index it as a regular page, while XML files are not indexed in the Yandex search engine and are not included in search results.

An "Unknown tag" error occurred while processing the Sitemap

Sitemap can only contain certain XML elements. If the Webmaster detects other elements in the file (for example, an indication of the mobile or multilingual version, image addresses), the Webmaster will display an "Unknown tag" error. Unsupported elements are ignored by the robot when processing the Sitemap, while data from the supported elements is taken into account. Therefore, it is not necessary to change the sitemap.

If the content of the file is changed, it will take up to two weeks to update the information in the Webmaster.

Sitemap file has the status "Not indexed"

A sitemap file may not be indexed for several reasons:

    The robot has recently crawled the sitemap and has not yet processed it. Wait two weeks. If you are using a sitemap index file with multiple files, it may take longer to process them than a single sitemap.

    The site was previously unavailable to the indexing robot. You must wait for the next visit to the site by the robot.

If the main purpose of robots.txt is to prohibit indexing, then the sitemap.xml sitemap performs exactly the opposite tasks. She is responsible for speeding up site indexing and completeness of site indexing.

Sitemap.xml tells the search engine the frequency with which it becomes necessary to re-index pages. In this regard, a sitemap is especially important for sites with regularly updated content (news portals, etc.). In addition, sitemap.xml contains all the important pages of the site with an indication of their priority.

Sitemap requirements

A sitemap is an XML file that lists the URLs of a website combined with the metadata associated with each URL (date it was last modified; frequency of change; its priority at the site level) so that search engines can more intelligently crawl this site.

The total number of sitemap.xml on the site should not exceed 1000, while the number of entries (urls) in each should not exceed 50,000.

If you need to list more than 50,000 URLs, you should create multiple sitemaps.

The sitemap can be compressed with a gzip archiver to reduce its size. But the size of each sitemap in expanded (unzipped) form should not exceed 10 megabytes.

The sitemap does not have to be in the form xml file... The protocol allows the generation of a map in the form of syndication (RSS or Atom) or in the form of a simple text file with a line-by-line listing of the URL. But such "sitemaps" either do not include all site URLs (in the case of syndication), or do not carry additional important information (date and time of page content modification), in fact, for the sake of which sitemaps are used in SEO.

By providing a timestamp of the last change You allow the search engine crawlers to fetch only a subset of the Sitemaps in the index, that is, the crawler can only fetch those site files (pages) that have been modified after a certain date. This mechanism for partial extraction of files from Sitemap.xml allows you to quickly discover new URLs on large sites. In addition, it allows you to reduce the load on both the server and the search engine crawler. And they (search engines) are very fond of the latter.

Combining a sitemap with robots.txt and robots meta tags

The sitemap.xml instructions, when used correctly, should complement each other. Exists three most important rules interactions of these instructions:

  • sitemap.xml, robots.txt and robots meta tags should not contradict each other;
  • all pages excluded (blocked) in robots.txt and robots meta tags should also be excluded from sitemap.xml;
  • all crawled pages allowed by robots.txt must be contained in sitemap.xml

Exceptions to the three rules

There are also exceptions to these three rules. And, as always, they are linked to pagination pages. Starting from the second and further on the pagination page, we register noindex, follow in the robots meta tags, while the pagination pages are not closed from indexing in robots.txt.

Set the date and time of the page change to be equal to the date and time of the change of the main (first, main page) page of the catalog. In principle, one can agree with this.

Old school optimizers advise adding only un-indexed or changed pages to your sitemap.xls file. Pages included in the index should be removed from the sitemap. But with this opinion it is already more difficult to agree. If there is a lastmod field and it is filled in correctly, there is no need for such delights.

The main problems when using sitemap.xml

During execution, I most often encountered the following errors:

  1. Inconsistency of sitemap.xml with site pages, outdated sitemap. This problem arises when the sitemap is not generated dynamically, but occasionally, by starting some service in the CMS, or even by third-party services. In this case, a lot of dead pages appear, giving 404 errors (this is if the page was physically deleted or moved to another place, the URL was changed). In addition, new pages are indexed much slower, because they are not in the sitemap.xml.
  2. The next error is an invalid sitemap.xml structure. This error usually occurs on "self-written" CMS or when using the wrong plugins for a popular CMS. This generates a sitemap.xml file in violation of the structure described by the protocol.
  3. A modification of this error is incorrect handling of the record modification date. From a protocol point of view, this is not a bug, as the lastmod field is optional. From the point of view of SEO and search engines, the absence of the correct value in this field (coinciding with the direct change of the content) completely negates the significance of the entire sitemap.xml file. As mentioned above, search engines will reindex those pages, the lastmod field of which has changed. What happens if this field changes at the same time for all records (pages) of the site. That is, the modification date is the same for all site files. Most likely, search engines will not pay attention to the sitemap and the site will be re-indexed the usual way, while deeply located pages are either not reindexed at all, or will be reindexed for a very long time. So, you must either not use the lastmod field at all (which is bad), or set the date of the last significant page change, for example, when the price changed or the product ended or the description changed ...
  4. The next group of errors encountered are logical ones, caused by violation of three rules on combining robots.txt and sitemap.xml. In this case, you can observe a constant hit of the page in the index and an immediate departure from there. However, this will not be observed if there is a noindex meta tag and an entry in the Sitemap.xml. In this case, the crawler (robot, PS spider) entering the page will not index it.
  5. Well, and the last mistake that often occurs on sites is the presence of "orphaned pages". These are the pages to which there is a link from the sitemap, but there is not a single direct link from any of the pages on the site. This is often due to the fact that the pages were deleted “logically” (for example, they were placed in the trash in WordPress), and not physically. This is also observed on sites where access to product cards is done using scripts and filters in a way that does not allow indexing the results of these scripts. There may be other reasons for the occurrence of such orphan pages. All this reduces the trust of search engines to the site and is a negative ranking signal.

According to the protocol, after changing the sitemap, you can ping the search engines. To do this, you need to create a query of the following type.

Sitemap or Sitemap is a specially created file with a list of resource pages that need to be indexed.

Why you need a Sitemap

There are two types of Sitemap, which differ in format and purpose:

HTML Map

It is compiled for users to make it easier for them to navigate the pages of the site. This is an optional element, such a map can be compiled on a large site with a complex hierarchy for the convenience of users.

XML Map

It is necessary for search bots, it is important for SEO, as it helps bots to index pages of a resource. The presence of this file tells search robots exactly how the structure of the site is organized. Accordingly, Yandex, Google, Bing and other search engines get the opportunity to better index the project.

In this article, we will analyze the creation XML Maps.

What is the sitemap for:

  1. Speed ​​up the full indexing process.
    Google crawlers can skip recently created or modified pages, and the Map will help navigate them.
  2. Provide additional information.
    Additional recommendations for the robot are indicated in the Map: they make notes about the importance of the page, the frequency and date of updates.
  3. Display the number of indexed URLs
    Signals from Sitemap are also needed to display indexed links in Search Console.
  4. Speed ​​up the batch de-indexing process.
    To do this, create a temporary sitemap, which includes the pages to be deleted. On this, he recommends that you be sure to indicate the date of the last modification of the pages, when they were assigned a 404 error code or the noindex attribute. This will tell Google to re-crawl the site's content. After a few months, this temporary sitemap can be removed.

At the same time, even if Google finds a link in the Sitemap, but it is not in the navigation, it will not give it any weight and index. Links in the Sitemap are recommendations, the most important thing is to create a competent one, in which the search robot will find all the necessary pages.

In most cases, competent external and internal linking of pages is enough for search robots to learn about all the content of the site. Landing pages, small corporate sites of a couple of pages, one-page business cards don't need a sitemap - the bot will understand the pages without difficulty. Maps are needed for sites that are difficult to crawl, so it is recommended to create it for other projects.

A map is definitely needed for sites with the following characteristics:

  • The project was created recently, it has little external links... In this case, it is more difficult for a search bot to find a site.
  • In the structure of the site there are many archives of web documents that are not related to each other.
  • The project has a large number of pages, sections and subsections;
  • The structure is dominated by dynamic pages.
  • The site has multimedia content. The bot will be able to get additional information from the Sitemap for display in search results.

Search engines may not index all the required pages of such sites if they do not offer the crawlers a Sitemap file. Let's see how to create it.


Basic criteria for creating a sitemap

Search engines have their own requirements for the preparation of a Sitemap that a webmaster needs to keep in mind.

General requirements for Sitemap:

  1. The number of URLs in a sitemap file must not exceed 50 thousand. If there are more of them, it is necessary to create several separate sitemaps, which are registered in the Sitemap index file. For this, it is enough to create several separate Sitemap files, no more than 50 thousand links each, and the total of links may exceed the limit. After that, a common parent Sitemap file is created for several Maps.
  2. The maximum file size is 50 MB. The file can be reduced using compression, but it must still be less than 50 MB uncompressed.
  3. The sitemap must be on the same domain as the website for which it was created.
  4. You can use UTF-8 encoding, as well as Latin letters and numbers.
  5. to access the Sitemap file, there must be an HTTP status with a 200 OK code.
  6. Session URL identifiers should not be in the Sitemap.
  7. Links must have the same syntax.
  8. The Map contains only canonical URLs.
  9. The map does not conflict with information in robots.txt - if some pages in robots.txt are closed from indexing, then they should not be in the Map.

Some webmasters are worried about the order of the links in the file, but Google's representative that the order does not matter at all, the main thing is to put the most important canonical links in the Sitemap.


Acceptable Sitemap Formats

There is a special requirement for the sitemap file format. You can create a sitemap as an XML file, a text file, or via RSS, mRSS, and Atom 1.0. Yandex points out that search does not support the transmission of RSS and Atom feeds using Sitemap. If targeting different search engines, use XML format. The rules for creating a file are described in the standard.

Service Sitemap Tags

Required Sitemap Tags:

  • - container indicating the protocol standard;
  • - родительский тег для каждой записи URL-адреса;
  • https://appcube.ru/en/ - указание URL, начинается с префикса, к примеру, http или https.

Дополнительные теги:

  • - частота обновления веб-документа с атрибутами never, always, yearly, monthly и так далее;
  • - дата последнего обновления на странице;
  • Указание разной важности страниц ресурса от 0,1 до 1, определяет очередность обработки URL на этом сайте. Google его не поддерживает. Приоритет можно дать самым важным страницам и нет смысла указывать высокий приоритет всем ссылкам, тогда тег вообще ни на что не повлияет.

Другие языковые версии сайта указывают с помощью атрибута hreflang .

Пример Карты сайта в формате XML

Sitemap для сайт, если бы он состоял из одной страницы и содержал упомянутые теги, мог бы выглядеть так:

http://www.сайт/ 2016-03-21 daily 0.8

How to create and where to place a sitemap?

If you wish, you can create a Sitemap manually, but it is too laborious and pointless - the Sitemap should be dynamic if you regularly update the site - publish new blog entries, develop an online store. Better to create a sitemap automatically by contacting services free online services and plugins for CMS.

Sitemap creation services