Поисковая система Апорт.

 

Доклад на конференции "Стратегия продвижения сайта в поисковых машинах"., Москва 2002

http://www.optimization.ru/summary.shtml

 

Об авторе: М.Ю. Костин, руководитель проекта "Апорт", OOO "Телеросс".

Аннотация:

В докладе представлены основные особенности поисковой системы Апорт, представляющие интерес при ее использовании для раскрутки сайтов.

Рассмотрены вопросы индексации сайтов (полнота и периодичность, индексация динамических страниц), ранжирования результатов поиска (принципы и критерии, в частности, ссылочное ранжирование и индекс цитируемости), борьбы со спамом (что считается и что не считается спамом, какие меры применяются к спамерам), а также возможности платного продвижения сайтов в Апорте через контекстную рекламу.

 

 

Введение

Поисковая система Апорт (http://www.aport.ru), являющаяся в настоящее время частью информационно-развлекательного портала РОЛ (http://www.rol.ru), относится к числу ведущих поисковых систем российского Интернета.  Как и любая другая поисковая система, она имеет свои особенности, как чисто технические, интересные в первую очередь профессионалам в области информационного поиска, так и те, которые существенны для обычных пользователей. Особый взгляд на особенности поисковых систем имеется у специалистов по раскрутке сайтов и вебмастеров, использующих поисковые системы в качестве одного из наиболее мощных средств увеличения популярности сайтов и привлечения целевой аудитории. В данном докладе особенности Апорта будут рассмотрены именно с этой точки зрения.

Индексация

Общие принципы

Особенностью Апорта является то, что мы не стремимся к максимально полной индексации всего российского Интернета. Наш принципиальный подход к выбору документов для индексации состоит в поиске оптимального компромисса между полнотой базы (от которой зависит полнота результатов поиска) и качеством проиндексированной информации (влияющим на точность результатов поиска).

Регистрация

Для того чтобы сайт был проиндексирован, в первую очередь, поисковой системе должно каким-то образом стать известно о его существовании.

В настоящее время  существуют следующие пути попадания сайтов в поисковую систему:

В будущем мы планируем введение ограничений, основанных на индексе цитирования или на наличии "авторитетных" ссылок, при добавлении в поисковую систему сайтов, не опубликованных в каталоге.

Промежуток времени между добавлением сайта в поисковую систему и его появлением в поисковой базе составляет, как правило, от двух до десяти дней.

Индексация статических и динамических страниц. Квотирование

Максимальное количество индексируемых страниц с одного сайта определяется квотами, зависящими от индекса цитирования данного сайта. Используются две квоты: на сайт в целом и, отдельно, на динамические страницы (динамическими Апорт считает страницы, содержащие символ "?" в URL). Квота на динамические страницы используется только в случае, когда первая квота (на сайт в целом) не выбрана статическими страницами.

Размер квоты для сайта в целом, как правило, ограничивает индексацию только сайтов с невысоким индексом цитирования, для сайтов с достаточно большим индексом цитирования, квота обычно бывает достаточной для полной индексации сайта. Квотирование динамических страниц гораздо более строгое, в частности, квота для динамических страниц может быть нулевой.

Выбор страниц для индексирования в пределах квот определяется глубиной вложенности для статических страниц и количеством параметров в строке запроса для динамических.

Кроме того, на выбор страниц для индексирования может повлиять структура сайта.

Частота переиндексации

Частота переиндексации документов Апортом составляет от недели до двух месяцев и зависит, главным образом, от индекса цитирования сайта, на котором расположен документ.

На частоту переиндексации нельзя повлиять с помощью повторной регистрации сайта или отдельных его страниц. Также игнорируется мета-тег "revisit-after".

Структура сайта

Для индексации страниц сайта они должны быть доступны роботу Апорта по ссылкам (то есть должна быть возможность попасть на них по ссылкам, начиная обход сайта с его главной страницы). При этом следует учитывать, что робот не "понимает" ссылок, сделанных с помощью JavaScript. В качестве возможного решения связанных с этим проблем можно порекомендовать создание карты сайта, доступной по ссылке с главной страницы (использование невидимой пользователю ссылки, например, с картинки 1x1, в данном случае, не будет воспринято как спам).

Индексацию отдельных частей сайта можно запретить с помощью файла "robots.txt" или мета-тегов "robots".

Зеркала

Еще одна проблема, связанная с индексацией сайтов, это проблема зеркал и разных адресов одного и того же сайта. Сайты, опознанные Апортом как зеркала, продолжают обходиться роботом и индексироваться независимо.

В результатах поиска они будут показываться как один сайт, в качестве адреса которого будет выбран адрес,  зарегистрированный в каталоге Апорта, или адрес, имеющий более высокий индекс цитирования. Однако, при показе адресов документов никакого приведения не производится, и сохраняется тот адрес, под которым данный документ был занесен в базу (это может быть его адрес на любом из зеркал).

В случае желания указать Апорту правильный адрес сайта, этого можно добиться, запретив индексацию альтернативных адресов с помощью файла robots.txt или мета-тегов "robots".

Ранжирование

Общие принципы

Задача ранжирования результатов поиска является определяющей с точки зрения качества работы поисковой системы. Разработка хорошей функции ранжирования весьма непростая задача, в частности, из-за большой неоднородности ранжируемых документов и из-за попыток сознательного искажения результатов поиска с помощью поискового спама. Мощным средством повышения качества ранжирования является учет гипертекстовой структуры Интернета: ссылочное ранжирование и индекс цитируемости позволяют (хотя и не всегда) отличить качественный контент от сходного по содержанию “мусора”, а также (что особенно важно для владельцев сайтов) оригинальные материалы от их копий. Однако и здесь приходится иметь дело с теми же проблемами:  неоднородностью ссылочной структуры и ее сознательным искажением спамерами.

Ещё одним важным средством повышения релевантности является использование информации из каталога Апорта, которая обладает высокой степенью достоверности, так как составлена или проверена профессионально подготовленными редакторами.

Принципиальным моментом в ранжировании результатов поиска в Апорте является стремление к учёту максимального количества критериев ранжирования в их взаимосвязи. В частности, заметное преимущество получают документы, имеющие высокий вес сразу по нескольким независимым критериям (например, по частотности слов запроса в тексте и ссылочному ранжированию).

Ранжирование производится исключительно автоматическими методами, мы не осуществляем специальной корректировки результатов поиска для каких-либо запросов или сайтов.

Критерии ранжирования

Апорт применяет следующие критерии при ранжировании документов:

 

Результирующий вес документа рассчитывается по специальному алгоритму, различным образом учитывающему сочетания разных критериев.

Частотные характеристики

Учитывается как абсолютная, так и относительная частота слова в тексте документа.

И для той и для другой величины существуют пороговые значения, после достижения которых дальнейшее увеличение частоты не влияет на вес документа. Для небольших документов, размер которых (в словах) меньше заданной константы, относительная частота рассчитывается не от их фактического размера, а от этой константы.

В заголовке, мета-тегах, а также в названии и описании сайта из каталога частота слов не учитывается.

Ссылочное ранжирование

Алгоритмы ссылочного ранжирования в Апорте учитывают не более одной ссылки с каждого домена второго уровня для отдельного запроса (то есть, для разных запросов могут учитываться разные ссылки).

Вес каждой ссылки зависит (помимо ее текста) от взвешенного индекса цитирования ссылающейся страницы.

Взвешенный индекс цитирования

Алгоритм вычисления взвешенного индекса цитируемости является модификацией классического алгоритма PageRank. В качестве одной из наиболее существенных особенностей следует отметить, что учитывается не более одной ссылки на документ с каждого домена второго уровня.

Индексом цитирования сайта считается  взвешенный индекс цитирования страницы, самый высокий среди всех страниц сайта (в большинстве случаев это бывает взвешенный индекс цитирования главной страницы сайта).

Мета-теги "keywords" и description"

Ключевые слова (meta keywords) учитываются Апортом даже в случае их отсутствия в тексте документа. Индексируется не более 16 ключевых слов для каждого документа. Мета-тег description также учитывается при ранжировании, однако, в большинстве случаев, имеет очень небольшой вес.

Оптимизация и спам

Границы между оптимизацией и спамом

В идеале оптимизация сайта под поисковые системы приносит пользу не только владельцу сайта, получающему дополнительных целевых посетителей с поисковых систем, но и поисковой системе, которой оптимизация помогает более правильно проиндексировать сайт и предложить его пользователю, в случае, когда содержание сайта релевантно запросу. Примером такой оптимизации может служить прописывание осмысленных, соответствующих содержанию документа, заголовков для всех страниц сайта вместо одинакового по всему сайта заголовка с названием компании. Такая оптимизация нами всячески приветствуется и рекомендуется. Однако существует и другая оптимизация, главная идея которой – обмануть поисковую систему и представить раскручиваемый сайт более интересным для пользователей, чем он есть на самом деле. С такого рода оптимизацией, а точнее говоря, спамом, мы вынуждены бороться.

При определении того, переходит или нет оптимизация допустимые границы, мы учитываем как её цели, так и используемые методы.

Наиболее существенным для нас является вопрос о целях – идет ли речь о продвижении релевантного запросу контента или же об обмане пользователя поисковой системы в той или иной форме. Под обманом пользователя мы понимаем как непредоставление  информации по его запросу, так и радикально завышенную позицию сайта в выдаче, то есть ситуацию, когда сайт искусственным образом продвигается на позиции в выдаче, явно не соответствующие качеству его контента.

Например, если кто-то создал лучший в российском интернете сайт на тему торговли слонами, и затем использует самые жесткие методы оптимизации (скажем, клоакинг) для его продвижения по запросам "купить слона" и "продажа слонов", то, несмотря на бесспорные признаки спама с точки зрения используемых методов, мы не будем вносить такой сайт в черный список. И наоборот, любой метод оптимизации может быть сочтен нами спамом, если налицо будут явные признаки обмана пользователей.

В то же время, можно перечислить методы, которые считаются нами сомнительными, и применительно к сайтам, использующим которые, мы применяем жёсткий подход при определении целей их действий:

Использование некоторых из этих методов отслеживается программными средствами.

Автоматические фильтры и модерирование. Черный список

Борьба со спамом ведется нами как автоматическими методами, так и с помощью ручного модерирования.

Автоматические методы используются для фильтрации некоторых видов спама, а также для выявления подозрительных сайтов, которые впоследствии будут просмотрены модераторами.

Решение о занесении сайтов в черный список принимается модераторами. Никаких уведомлений владельцу сайта о таком решении не делается, единственным способом выяснения этого вопроса является обращение в службу поддержки. Удаление сайта из черного списка может быть произведено после соответствующей просьбы в службу поддержки, обязательным условием при этом, естественно, является устранение нарушений, послуживших причиной занесения сайта в черный список. В случае неоднократных попыток спама, сайту может быть отказано в удалении из черного списка.

Платная раскрутка сайтов через Апорт

Возможности раскрутки сайта через Апорт не ограничиваются только его продвижением в результатах поиска. Апорт может быть использован также в качестве эффективной рекламной площадки, как для проведения крупных рекламных кампаний, так и для адресной рекламы, использующей специфику поисковой системы.

Контекстный показ рекламы под поисковые слова – наиболее эффективный способ адресной рекламы в Интернете. Оценивая сравнительную эффективность контекстной и не контекстной рекламы, следует принимать во внимание, что контекстная реклама не только обеспечивает более высокий CTR, но и приводит на сайт именно целевую аудиторию. Поэтому, при равном мгновенном эффекте (то есть количестве привлеченных на сайт посетителей), контекстная реклама  дает значительно больший эффект на более длительную перспективу (так как многие из пришедших на сайт станут его постоянными посетителями) и обеспечивает большее количество клиентов коммерческим сайтам.

Мы предлагаем следующие варианты контекстной рекламы на результатах поиска:

"Нулевая ссылка" – рекламный блок в дизайне, близком к дизайну результатов поиска, помеченный цифрой "0" и располагающийся непосредственно над результатами поиска. Как показывает практика, в случае удачно выбранного набора ключевых слов "нулевая ссылка" позволяет получить очень высокий (до 40%) CTR.

Контекстные баннеры (468x60) располагаются в верхней части страницы результатов поиска.

 

Ещё одна возможность адресного продвижения сайта с помощью Апорта – это регистрация в системе "Бегун" (www.begun.ru), осуществляющей размещение рекламы по ключевым словам с оплатой за клик на различных рекламных площадках российского Интернета.

Апорт показывает три объявления "Бегуна" в верхней части страницы результатов поиска. Кроме того, объявления "Бегуна" показываются в поиске Апорта по товарам.

 

Очень важным моментом при размещении контекстной рекламы является грамотный подбор ключевых слов, на которые она будет показываться. Специалисты нашей компании всегда готовы оказать квалифицированную помощь в этом вопросе, в частности, предоставить статистику запросов по интересующей клиента тематике.

Hosted by uCoz