Friday, July 25, 2008

Какие фрагменты Ваших вебстраниц может пропустить поисковик?

16.07.08

Любой вебмастер, размещая страницу в сети, не хочет, чтобы поисковой системой индексировались все без исключения ее фрагменты.

Большое количество вебстраниц содержит информацию, общую для многих других, например, навигацию по сайту, уведомление об авторских правах, рекламу, ссылки на другие сайты и другие фрагменты страницы, которые могут не содержать информацию об основной теме.

Robots-Noindex Yahoo

В мае 2007 года Yahoo опубликовал сообщение на Yahoo Search Blog под названием Introducing Robots-Nocontent for Page Sections. Этот материал о том, что теперь вебмастера могут дать поисковой системе знать, что данный контент страницы не стоит выводить в результатах поиска системы.

Yahoo Search Help также более детально растолковывают то, как создать класс HTML элементов “robots-noindex” таким образом, чтобы содержание внутри этих элементов не выдавалось поисковой системой как результат запроса. Подробнее об этом в статье How do I mark web page content that is extraneous to the main unique content on the page?

«Поисково-неэффективные» секции

На прошлой неделе Yahoo опубликовал материал, который более глубоко затрагивает эту тему и определяет то, как именно поисковик выполняет команду не выводить фрагменты страницы, соответствующие тэгам “robots-nonindex”.

Также в материале описывается, каким образом поисковик может самостоятельно решить не выводить некоторые фрагменты страниц в результаты поиска, не смотря на то, используем мы “robots-nonindex” или нет, предварительно разбив страницы на фрагменты и проанализировав их содержание.

Yahoo также предлагает способ оценивать разные фрагменты страницы на предмет основной тематики и определять те фрагменты, которые не будут выводится в качестве результатов поисковой системы.

Method for improving quality of search results by avoiding indexing sections of pages (Метод улучшения качества поиска, исключая индексацию фрагментов страниц).
Создан Priyank S. Garg, Amit J. Basu, Timothy M. Converse
US Patent Application 20080168053
Опубликован 10 июля 2008 года
Добавлен в архив 10 января 2007 года

Фрагмент

Обеспечивается метод и аппарат для улучшения поисковых результатов. Метод работает, выделяя те фрагменты документа, которые не релевантные основной теме. Далее содержание документа полностью анализируется. В ответ на запрос отображаются результаты без терминов, включенных в секцию «поисково-неэффективных».

Термины из “поисково-неэффективной” секции не используются в заглавиях и фрагментах результатов. Результаты расположены, по крайней мере частично, по рейтингу, относящемуся к определенным «поисково-неэффективным» секциям.


Этапы процесса выделения “поисково-неэффективных” секций:

1. когда поисковая программа посещает вебстраницу, она может обратить внимание на структуру страницы, разбивая ее на секции
2. эта же программа может определить эти секции, как такие, которые игнорируются и не индексируются поисковой системой
3. игнорируемые секции носят название «поисково-неэффективные», а индексируемые фрагменты страницы – «поисково-эффективные» секции
4. поисковая программа может пропускать фрагменты страниц, отмеченных вебмастерами с помощью “robots-nocontent” в HTML тэге в этом фрагменте, таких как “div”, “span” или другие типы HTML документов (абзацы и другие фрагменты)
5. поисковая программа может также игнорировать фрагменты страницы, идентифицированные с помощью анализа содержания без участия “robots-nocontent”
6. термины всредине «поисково-неэффективных» секций не влияют на частоту появления документа в результатах поисковой системы, таким образом, слова в этих секциях не принимаются во внимание при определении тех слов на странице, которые будут отвечать за рейтинг страницы в результатах поиска. Содержание этих секций также не берется во внимание при выдаче поисковых результатов
7. в то время как информация в “поисково-неэффективных” секциях игнорируется поисковыми системами, она используется в качестве вводных данных для анализа страниц, который может повлиять на суммарный рейтинг страницы
8. ссылки всредине этих секций могут использоваться поисковой программой для выявления нового контента
9. страница может также быть проанализирована на наличие рекламы и других элементов, даже если они не были включены в “поисково-неэффективную” секцию после использования вебмастером “robots-nocontent”
10. единственная причина, почему Yahoo может просмотреть, что входит в “поисково-неэффективную” секцию, - предупредить нахождение здесь поискового спама. Например, страница, которая содержит очень большое количество рекламы и низко качественные ссылки, даже в середине “поисково-неэффективных” секций может быть определена и занять соответствующее место в ранге.

Примеры использования “ no-recall” тэга

Вебмастер использует тэг на странице-уведомлении об авторских правах, секции навигации, ссылках на блоги и рекламу. В секции рекламы появляется слово «обувь», при чем его больше на странице нигде нет. Страница не отобразится в поисковых результатах при запросе «обувь». Если это слово появляется в других фрагментах, страница отобразится при таком запросе.

В то время как содержание внутри секции, отмеченное class=”robots-noindex” в HTML элементе, не индексируется поисковой системой, когда страница отображается в поисковых результатах, элемент считается спамом.


Когда Yahoo сам определяет «поисково-неэффективные» секции

Вебмастера могут отметить фрагменты страницы таким образом, что контент в этих секциях не отображается в результатах поиска за контент в середине “поисково-неэффективных” секций. Поисковая система может самостоятельно определить некоторые фрагменты страницы как «поисково-неэффективные» секции.

Этот процесс происходит в несколько этапов:

1. поисковая система анализирует HTML код страницы для определения различных логических фрагментов
2. анализируется содержание каждого фрагмента созданием абстрактной модели документа с использованием различных приёмов. Обращается внимание на такие элементы, как количество, частота и порядок использования терминов, шрифтов и цветов. Более того, анализируются исходящие ссылки среди различных секций. При этом во внимание принимается то, куда ведет ссылка, текст ссылки, качество и количество ссылок.
3. фрагменты страницы оцениваются в зависимости от того, насколько они релевантные основной теме страницы с использованием различных методов.
4. для определения «поисково-неэффективной» секции могут использоваться и другие методы, такие как частота изменения контента секции, по сравнению с остальным контентом страницы. Например, рекламная секция может изменяться при каждом посещении страницы, в то время как остальные фрагменты остаются без изменений.
5. секции с оценкой, которая показывает, что это именно “поисково-неэффективные” секции, определяются поисковой системой, так же как и секции, отмеченные вебмастерами “robots-noindex” тэгом.

Вывод

В статье The Importance of Page Layout in SEO я уже писал об умении Yahoo разбивать страницу на фрагменты и находит «самую важную часть» страницы. Данный материал показывает нам, как поисковик может проводить анализ страницы и использовать его для игнорирования определенных фрагментов страницы.

Когда Вы совмещаете все свои страницы, помните, что поисковая система может индексировать только определенные части страницы, не взирая на то, используете ли Вы в данных секциях что-то типа “robots-noindex” тэгов или нет.

No comments: