Компьютеры Windows Интернет

Как создать большую sitemap xml. Файлы Sitemap. История развития Sitemap

Карта сайта - это файл Sitemap.xml, где находится перечень всех страниц веб-сайта, создаваемый для ускорения индексации ресурса. Также есть карта сайта для пользователей - она скорее похожа на оглавление в книге. Последние называются HTML-картами и являются каталогом страниц проекта, отображающих иерархию.

Сегодня мы расскажем, как самостоятельно создать файл Sitemap.xml, загрузить на сайт и добавить в поисковые системы. Разберём и создание HTML-карты.

Sitemap - это карта сайта, каталог ссылок на категории, подкатегории, страницы проекта с поддержкой заложенной иерархии (уровня вложенности). При помощи Sitemap.xml можно сообщить поисковым системам Google и Яндекс актуальную структуру, уровень вложенности, количество страниц и ссылки на них.

Пример карты сайта

Наиболее подробная информация по необходимости использования Sitemap.xml представлена в справочнике Яндекс.Вебмастер и Google Webmasters.

  1. Гугл поддерживаются четыре формата карт сайта — .txt, RSS, .xml и «Сайты Google» (если ресурс сделан с помощью одноименного сервиса корпорации добра). Яндекс поддерживает только.xml карты.
  2. Google не поддерживает тег .
  3. Для Гугл обязательно добавление ссылки на карту сайта в файле robots.txt – для обозначению ее доступности к просмотру.

Для указания пути к файлу Sitemap.xml можно использовать кабинет вебмастера или указать ссылку в файле robots.txt . Лучше сделать и то, и другое. Если у вас сайт с огромным количеством страниц, карт сайта может быть несколько. Стандартные ограничения Google:

  • Размер Sitemap-файла до 50 мегабайт.
  • Количество ссылок не более 50 000 штук.

Аналогичные требования предъявляет поисковая система Яндекс.

Важность карты сайта нельзя недооценивать. Она и сегодня является одним из первых шагов при начале работы над SEO-продвижением сайта.

Виды карт

Можно выделить два типа карта сайта:

  1. XML Sitemaps – рассчитана на поисковых роботов, для сбора и обработки всех ссылок – категорий, подкатегорий, отдельных страниц. Представляет из себя набор тегов, внутри которых находятся ссылки на страницы и статьи.
  2. HTML карта сайта – для пользователей. Является отдельной страницей, состоящей из ссылок, разбитых в соответствии с категориями и подкатегориями. Реже – в качестве обычного каталога имеющихся статей, если сами категории не несут практической пользы. Нередко на нее можно перейти из меню на главной странице.

Также карты, можно подразделить на созданные вручную и сгенерированные с помощью онлайн-сервисов, плагинов или модулей.

Как создать файл Sitemap.xml

Создание файла Sitemap.xml подразумевает использование различных способов:

  • Ручной. Вы самостоятельно через любой редактор (например, Notepad ++) задаете в определенном порядке теги и ссылки.
  • Сервисы. Загружаете необходимые ссылки или вписываете адрес сайта, на выходе получаете сгенерированный sitemap.xml файл.
  • Плагины/модули. Некоторые движки сайтов (CMS) обладают встроенными плагинами, позволяющими генерировать карты сайта в одно нажатие. Другие – требуют дополнительной установки.

Нет смысла рассматривать в контексте статьи создание карты сайта ручным методом, так как и автоматические справляются точно также. Плюс исключается человеческий фактор. Ведь всегда можно допустить ошибку, не закрыть тег или сделать что-то неправильно.

Создание карты сайта с помощью онлайн-генератора

Предельно простой процесс. Достаточно следовать инструкции ниже:


Данный сервис позволяет сгенерировать карту для сайта размером не более 500 страниц. Существуют и другие аналоги, работающие по такому же принципу.

Подключение с помощью плагинов и модулей

Для начала остановимся на самом популярном движке в мире – WordPress. Предлагаем загрузить плагин «Yoast SEO», он универсальный и потребуется для оптимизации страниц для продвижения в выдаче поисковых систем. В качестве приятного бонуса через него можно сгенерировать карту сайта. Инструкция следующая:


Готово Карта сайта создана и доступна по адресу site.com/sitemap.xml – то есть, находится в корневой папке.

В DataLife Engine (DLE) генератор карт уже встроен и доступен из панели управления проектом, для Joomla следует воспользоваться модулем OSMap, в Bitrix xml-файл формируется автоматически, в Drupal для этого можно использовать модуль XMLSitemap.

Как добавить файл Sitemap.xml на сайт и загрузить в поисковые системы

Если файл создан CMS, он он располагается в корне сайта. А значит, необходимо добавить ссылку в Яндекс.Вебмастер и Google Search Console. Далее вернёмся к этому процессу.

В случае, если файл создавался вручную или с помощью генератора, нужно перед добавлением в кабинет вебмастера загрузить его в корневую папку сайта. Самый простой способ:


Аналогичным образом нужно поступать и с остальными сайтами, где не предусмотрена возможность автоматической генерации карты сайта средствами движка или дополнительного модуля. Разве что уровень вложения корневых папок может различаться – много где для начала нужно зайти по пути public_html.

На очереди – добавление в Яндекс.Вебмастер . Инструкция следующая:


При успешном завершении робот будет знать, где искать карту и при посещении веб-сайта им будут индексироваться все ссылки различного уровня вложенности.

Для добавления файла карты в Google Search Console нужно проделать следующие действия:


Карта сайта Sitemap XML

Карта сайта (Sitemap) – это специальный файл в формате.xml, хранящийся в корневой директории сервера. Владельцы сайтов нередко интересуются – зачем нужен Sitemap и влияет ли наличие/отсутствие этого документа на поисковое продвижение? Чтобы ответить на эти вопросы, рассмотрим назначение и структуру карты сайта.

Итак, зачем нужен xml Sitemap, что он собой представляет? Карта сайта – это своеобразный каталог, состоящий из перечня ссылок, ведущих на все разделы и страницы сайта. Файл Sitemap помогает поисковым системам более быстро и качественно индексировать интернет проект. Это особенно важно в том случае, если объем web-ресурса исчисляется тысячами или десятками тысяч страниц.

[yt=R09Qywy5DXI]

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Это важно! В карту сайта следует включать только те страницы, которые должны быть в поисковом индексе. Документы с запрещенной к индексированию или служебной информацией не следует вносить в Sitemap. В карту сайта также не включают страницы с тегами и динамические URL-адреса.

Влияет ли Sitemap на продвижение?

Поисковики не будут пессимизировать интернет проект за отсутствие этого файла. Теоретически, робот должен самостоятельно просканировать все страницы сайта и включить их в поиск. Однако нужно учитывать, что система может дать сбой и не найти некоторые web-документы. Обычно «проблемными местами» становятся разделы, в которые можно попасть только по длинной цепочке ссылок, и динамически создаваемые URLы.

С точки зрения SEO, Sitemap имеет определенное влияние, поскольку карта сайта значительно ускоряет индексацию. К тому же повышается вероятность, что web-страницы попадут в индекс до того, как недобросовестные конкуренты успеют скопировать и опубликовать контент. Поисковые системы отдают предпочтение первоисточнику, тогда как копипаст подвергается пессимизации.

Как создать сайт мап

Проще всего воспользоваться одним из специализированных сервисов. К примеру, online-генератор http://www.mysitemapgenerator.com/ позволяет бесплатно сделать карту сайта, размером до 500 страниц. Предусмотрена возможность платной генерации Sitemap без каких либо ограничений. Вебмастеру потребуется всего лишь указать адрес своего сайта, а затем поместить полученный файл в корневой папке сервера.

Можно воспользоваться программой SiteMap Generator. В поле http:// следует завести адрес стартовой страницы сайта, кликнуть по клавише «start» и подождать, пока будет сформирована карта сайта. Затем нужно перейти на вкладку «Google Sitemap/XML», скопировать полученный код и вставить его в файл формата.xml.

Файл sitemap xml – доступные директивы

  • Параметр Lastmod указывает роботу, когда документ последний раз обновлялся.
  • Тег priory указывает на приоритет документа, по отношению к другим страницам сайта.
  • Параметром loc обозначают URL адрес страницы.
  • Тег changefreq используется для обозначения динамичности страниц (документы с параметром «0» робот будет посещать очень редко).

Как сообщить поисковику о карте сайта

Чтобы оповестить Яндекс, можно добавить директиву sitemap в файл robots.txt. Код будет выглядеть следующим образом:

Sitemap: http://yoursite.ru/sitemap.xml

Кроме того, можно передать карту сайта через интерфейс Яндекс.Вебмастер. Для этого нужно перейти на вкладку «Настройка индексирования» >> «файлы Sitemap», а затем указать системе адрес карты сайта.

Аналогичным образом можно оповестить Google. В панели инструментов для вебмастеров нужно перейти на вкладку «Сканирование» >> «файлы Sitemap».

Из этой статьи вы узнаете, как создать файл Sitemap и предоставить к нему доступ роботам Google.

Создание и отправка файлов Sitemap

Форматы файлов Sitemap

Google поддерживает несколько форматов файлов Sitemap, описанных ниже. Во всех форматах следует использовать стандартный протокол . Google в настоящее время не учитывает атрибут В файлах Sitemap.

Для всех форматов действуют следующие ограничения: файл Sitemap может содержать не более 50 000 URL, а его размер в несжатом виде не должен превышать 50 МБ. Если объем файла или количество перечисленных в нем адресов превышают эти лимиты, разбейте его на несколько частей. Вы можете создать файл индекса Sitemap , перечислив в нем все файлы Sitemap, и отправить их в Google все сразу.

Пример URL, в котором содержится символ, не относящийся к кодировке ASCII (ü), а также символ, требующий экранирования (&):
http://www.example.com/ümlat.html&q=name
Тот же URL в кодировке ISO-8859-1 (для размещения на сервере, использующем эту кодировку) и с примененным экранированием:
http://www.example.com/%FCmlat.html&q=name
Тот же URL в кодировке UTF-8 (для размещения на сервере, использующем эту кодировку) и с примененным экранированием:
Тот же URL с экранированной последовательностью вместо символа амперсанда:
http://www.example.com/%C3%BCmlat.html&q=name

  • Помните, что мы не гарантируем сканирование каждого URL в файле Sitemap. Такие файлы лишь помогают Google определить, какие страницы вы считаете важными.
  • Значения priority и changefreq игнорируются, поэтому их не нужно добавлять.
  • Google считывает значение lastmod , но только если оно указано корректно.
  • Как сделать файл Sitemap доступным для Google

    Файл Sitemap анализируется только при первом его обнаружении, а не при каждом сканировании сайта. Чтобы файл был обработан повторно, вам необходимо сообщить нам о том, что данные в нем изменились. Это делается с помощью запроса ping. Не добавляйте несколько раз одинаковые файлы Sitemap и не отправляйте запросы ping, если в файл не вносились изменения и он не новый.

    Предоставить роботам Google доступ к файлу Sitemap можно несколькими способами:

    • Отправьте его в Google с помощью специального инструмента в Search Console
    • Вставьте в любом месте файла robots.txt строку, указывающую на расположение файла Sitemap:
      Sitemap: http://example.com/sitemap_location.xml
    • Воспользуйтесь запросом ping. Отправьте HTTP-запрос GET:
      http://www.google.com/ping?sitemap=<polniy_url_faila_sitemap >
      Пример:
      http://www.google.com/ping?sitemap=https://example.com/sitemap.xml

    XML Sitemap is a website"s URLs list in XML format. The Sitemap file is designed to inform search engines (such as Google, Bing, Yahoo, Yandex, MSN, and others) about the pages on the website, which should be indexed. Sitemap significantly speeds up site scans.In addition, the Sitemap allows you to transmit information about all pages of your site, including those that search engines can not get with the usual crawl.

    Creating a Sitemap is especially useful when:

    • On your site new pages are generated automatically and frequently.
    • Your site is new, and it indicates a small number of links.
    • Your site has a large archive of content pages that are poorly or not at all related to each other.

    XML Sitemaps Protocol: What does a Sitemap contain?

    In accordance with the XML Sitemaps Protocol and the requirements of search engines, the Sitemap file should contain no more than 50 000 pages and not exceed the size of 10 MB. This means that if your site contains more than 50,000 pages and file size Sitemap than 10 MB, you must create multiple Sitemap.

    ... URL ... ...

    In addition to the required URL parameter, the XML Sitemaps protocol provides additional tags for each page:

    Lastmod – indicates the date of last modification date.

    Date (ISO 8601)

    Changefreq – the probable frequency of the page content. Valid values are:

    • always – every time the page loads
    • hourly – every hour
    • daily – every day
    • weekly – once a week
    • monthly – once a month
    • yearly – once a year
    • never – means that the page content remains unchanged.
    Syntax:

    Valid value

    Priority – the priority of the page relative to other pages on your site. The valid range - from 0,0 to 1,0. This tag lets the search engines know which pages you think are most valuable.

    Decimal from 0.0 to 1.0

    Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

    В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

    Нужен ли мне sitemap.xml

    Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

    Sitemap.xml важен для сайтов, где:

    • Некоторые разделы недоступны через навигационное меню.
    • Имеется множество изолированных страниц или плохо связанных между собой.
    • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
    • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

    Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

    Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

    Техническая информация

    • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
    • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
    • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
    • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
    • Адреса в sitemap.xml должны быть абсолютными.
    • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
    • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
    • Указанные в карте страницы должны отдавать 200 http-код статуса.
    • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
    • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

    Форматы XML карт

    Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

    Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

    Пример файла Sitemap, содержащий только один адрес.

    https://сайт/ 2018-06-14 daily 0.9

    XML-теги
    urlset
    url (обязательный) - родительский тег для каждого URL-адреса.
    loc (обязательный) - URL-адрес документа, должен быть абсолютным.
    lastmod - дата последнего изменения документа в формате Datetime .
    changefreq - частота изменения страницы (always, hourly, daily, weekly, monthly, yearly, never). Значение этого тега является рекомендацией поисковым системам, а не командой.
    priority - приоритетность URL относительно других адресов (от 0 до 1) для очередности сканирования. Если не указывается, то по умолчанию равна 0.5.

    XML карта для изображений

    Некоторые оптимизаторы вставляют в sitemap.xml ссылки на изображения аналогично ссылкам на html-документы. Так можно делать, но лучше для Google использовать расширение стандартного протокола и вместе с урлами отправлять дополнительную информацию об изображениях. Создавать XML карты изображений полезно, если картинки необходимо сканировать и индексировать, и при этом, они напрямую не доступны боту (например, используется JavaScript).

    Пример карты сайта, содержащей одну страницу и принадлежащие ей изображения

    http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

    XML-теги
    image:image (обязательно) - информация об одном изображении. Максимум может использоваться 1000 изображений.
    image:loc (обязательно) - путь к файлу изображения. Если используется CDN, то допустимо ссылаться на другой домен, если он подтвержден в панели для вебмастеров.
    image:caption - подпись к изображению (может содержаться длинный текст).
    image:title - название изображение (обычно короткий текст).
    image:geo_location - место съемки.
    image:license - URL лицензии изображения. Используется при расширенном поиске по картинкам.

    XML карта для видео

    Подобно карте для изображений, Google также имеет расширение sitemap протокола для видео, где можно указывать подробную информацию о видео-контенте, влияющую на отображение в поиске по видео. Видео-сайтмап необходим, когда на сайте используются видео, которые хостятся локально, и когда индексация этих видео затруднена из-за используемых технологий. Если вы на сайте внедряете видео из YouTube, то video-sitemap здесь не нужен.

    Файл Sitemap для новостей

    При наличии на сайте новостного контента и участии в Google Новостях полезно использовать Sitemap для новостей, так Google будет быстрей находить ваши свежие материалы и индексировать все новостные статьи. В этом случае Sitemap должен содержать только адреса страниц, опубликованных за последние 2 дня и содержать не более 1000 урлов.

    Использование нескольких карт

    При необходимости можно использовать несколько карт сайтов, объединяя их в один индексный сайтмап. Несколько sitemap.xml используются в случаях, когда:

    • На сайте используется несколько движков (CMS).
    • На сайте больше 50 000 страниц.
    • Необходимо настроить удобное отслеживание ошибок в разделах.

    В последнем случае каждый большой раздел сайта имеет свой sitemap.xml и все они добавляются в панель для вебмастеров, где удобно наблюдать, в каком из разделов больше всего ошибок (см. раздел поиска ошибок в карте сайта).

    Если у вас 2 и более сайтмапа, их необходимо объединить в индексный сайтмап, который выглядит также как обычный (за исключением наличия тегов sitemapindex и sitemap вместо urlset и url), имеет аналогичные ограничения и может ссылаться только на обычные XML карты (не на индексные).

    Пример Sitemap Index:

    http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

    sitemapindex (обязательный) - указывает стандарт текущего протокола.
    sitemap (обязательный) - содержит информацию об отдельном sitemap.
    loc (обязательный) - местоположение sitemap (в формате xml, txt или rss для Google).
    lastmod - время изменения сайтмапа. Позволяет поисковикам быстро обнаруживать новые URL на сайтах больших размеров.

    Как создать sitemap.xml

    Методы создания XML Sitemap:

    • Внутренние средства CMS. Многие CMS уже поддерживают создание карты сайта. Чтобы это выяснить, почитайте документацию к вашей CMS, посмотрите пункты меню в администраторской панели или обратитесь в техподдержку движка. Загрузите на вашем сайте файл https://вашсайт.com/sitemap.xml , возможно он уже существует и динамически формируется.
    • Внешние плагины. Если в CMS нет функционала генерации карты сайта, и она поддерживает плагины, погуглите, какой из плагинов закрывает вопрос sitemap.xml для вашего движка и установите его. В некоторых случаях необходимо обратиться к программистам, чтобы они написали вам подобный плагин.
    • Отдельный скрипт на сайте. Зная протокол XML карты и технические ограничения, можно создать sitemap.xml самостоятельно, добавив скрипт генерации в CRON. Если вы не программист, используйте другие пункты этого списка.
    • Генераторы Sitemap. Существует множество генераторов sitemap.xml, которые сканируют ваш сайт и дают скачать готовую карту. Недостаток здесь в том, что при каждом обновлении сайта необходимо вручную генерировать сайтмап.
    • Парсеры. Десктопные программы, предназначенные для технического анализа сайта, обычно предоставляют возможность скачать sitemap.xml, сгенерированный на основе просканированных страниц. Работает аналогично генераторам sitemap, только запускается локально на своей машине.

    Популярные онлайн-генераторы карты сайта

    XML-Sitemaps.com

    Позволяет получить sitemap.xml в несколько кликов. Поддерживает форматы XML, HTML, TXT и GZ. Удобно использовать для небольших сайтов (до 500 страниц).

    Похожий генератор, но имеет чуть больше настроек и позволяет создать карту до 2000 страниц бесплатно.

    Имеет множество настроек, позволяет импортировать URL-адреса из CSV-файла. Бесплатно сканирует до 500 урлов.

    Не имеет лимитов на количество страниц для сканирования. Но для больших сайтов процесс генерации может подвисать на несколько десятков минут.

    Локальные программы для генерации XML Sitemap

    G-Mapper Sitemap Generator

    Бесплатная десктопная версия генератора карты сайта под Windows.

    Screaming Frog SEO Spider

    Гибкий инструмент генерации карты сайта с множеством настроек. Удобно, если вы уже пользуетесь скримин фрогом для других SEO-задач. После сканирования сайта используйте пункт меню Sitemaps -> Create XML Sitemap.

    Netpeak Spider

    Менее гибкое, но тоже удобное решение для быстрой генерации sitemap.xml. После сканирования сайта необходимо использовать пункт меню Инструменты -> Генерация Sitemap.