Раскрутись

Google

Google появился сравнительно недавно, в 1998 г. Его создатели, сотрудники Стенфордского университета (США) Сергей Брин и Лоуренс Пейдж, постарались сделать его механизм более гибким и расширяемым, чем существовавшие на то время у грандов поиска - Аltavista и Inktomi. На данный момент Google и Fast (еще одна ИПС, www.alltheweb.com) имеют самый большой объем проиндексированных страниц - более двух миллиардов (данные на июль 2002 г.). Речь идет не только о собственно html- и xml-документах, но и pdf, doc и даже флэш-анимации. Причем только Google, в отличие от других иностранных ИПС (кроме конечно "Яндекс", "Рамблер> и <Апорт>), хорошо индексирует русскоязычные Web-ресурсы в зоне.ru.

В Google система оценки качества называется PageRank (PR). Суть ее заключается в том, что при решении о порядке выдачи пользователю списка страниц, попадающих под его запрос, во внимание принимается некий коэффициент, зависящий от количества ссылок с других сайтов на эту страницу и от их популярности. На самом деле в этом есть рациональное зерно. Ведь если рассматриваемая страница действительно такая важная, что ее стоит прочитать, скорее всего, на нее уже ссылаются другие источники. Верно и обратное: если на документ никто не ссылается - кому он тогда нужен?! Причем PageRank - это не просто общая сумма ссылок, это нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее.

Еще одна важная черта ИПС Google заключается в том, что в ней хранятся описания ссылок на проиндексированные страницы. Эта особенность позволяет более адекватно проводить поиск в накопленной базе данных. Скажем, автор странички забыл указать ее название между тегами <title></title>. Любая ИПС при выдаче результатов поиска ставит высокий приоритет словам, указанным именно в названии. В этом случае Google будет ориентироваться по текстам ссылок на эту страничку, справедливо основываясь на предположении, что если кто-то ставит ссылку на что-то, то уж, по крайней мере, он эту страничку изучил и постарался наиболее емко отобразить ее содержание в тексте ссылки. Именно поэтому во всех наставлениях по правильному оформлению содержимого документов имеется следующий совет.

Никогда не ставьте ссылку под словами <здесь>, <тут>, <сюда> (например: полную версию постановления смотри <a href=<...>>здесь</a>). Попробуйте написать так: <на сайте есть также и <a href=<...>>полная версия постановления</a>>. Кстати, сказанное верно еще и потому, что почти во всех браузерах текст внутри тега <a> подсвечивается тем или иным образом (выделяется подчеркиванием, цветом). Глаз при беглом просмотре странички более вероятно зацепится за выделенные информативные слова, чем за неконкретное краткое наставление <вам сюда>.

Кроме расчетов PageRank и запоминания текста ссылок, Google хранит шрифтовой размер и смещение каждого слова относительно начала документа. Благодаря тому что система знает конкретное место каждого слова в документе, становится возможен так называемый поиск по наиболее близкому расположению слов друг относительно друга. Например, по запросу <слово1 слово2> ИПС найдет много документов у себя в базе данных, но в отчет в первых строках пойдут только те, в которых <слово1> находится максимально близко слева от <слова2>.

Всю основную работу по просеиванию сквозь себя содержимого Сети выполняют Интернет-роботы. Каждый из них берет один адрес из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов. Необходимо отметить, что все содержимое сервера хранится в заархивированном виде для увеличения его вместимости.

Другая программа - индексатор - занимается тем, что разлагает текст документа на составляющие его слова, запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к категории «особенных» (названия документов, метатеги, URL'ы и тексты ссылок). Вся эта информация складывается в набор контейнеров, именуемых на рисунке прямым индексом.

Идентификаторы слов берутся из словаря, который постоянно пополняется. Одновременно с этим индексатор просматривает содержимое тегов <a></a> и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если ему встретился URL, которого нет в базе данных по doc_id, он пополняет не только ее, но и коллекцию ссылок. В дальнейшем этот Интернет-адрес попадает в URL-сервер и круг замыкается. Система поиска новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной - она сама себя подпитывает.

Для разрешения этой проблемы обновления разработчики предусмотрели ручную форму регистрации ресурсов в поисковой системе. Введенные в нее адреса после проверки на корректность также попадают в URL-сервер.

Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов. Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс. В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.
Качество поисковой системы, как уже было отмечено, зависит не только от количества проиндексированных документов, правил их отбора в итоговый список, но и от того, как часто Интернет-роботы заново проверяют содержимое ранее обработанных сайтов. Google распараллеливает работу между несколькими роботами, причем каждый из них при скачивании может «отвлекаться» на другие дела.

Особенности

Полная поддержка фреймов
Типы индексируемых файлов - PDF, CGI, ASP, JSP, CFM, PHP.
Поддержка метатэгов - самый важный тэг - title.
Обновление базы - раз в 60 дней.
Среднее время индексации - от 48 часов до 2 недель.
Быстрой индексации нет.
Предоставляет данные для - Topclick.com, Yahoo, Netscape, EarthLink.net
Ключевые слова должны упоминаться в первой трети документа. Необходимо использование синонимов и слов по выбранной теме по всему сайту.
Рекомендуемая частота ключевых слов - от 0 до 12%.
При отсутствии внешних ссылок документ не будет проиндексирован.
Зарегистрируйте домен, содержащий ключевые слова.
Каждая страница должна иметь ссылки, ведущие на другие страницы сайта.
Нет необходимости регистрировать саму страницу - в базу она попадет только, если Google знает хотя бы одну страницу, ссылающуюся на вашу.
Изучите запросы, на которые вы ориентируетесь - совпадение порядка слов на странице с порядком слов в запросе очень важно.
Используйте точную фразу запроса в тексте и тэге title. Для большего эффекта удостоверьтесь, что alt-тэги и имена графических файлов на странице содержат ключевые слова или их синонимы.
Используйте текстовые ссылки. Текст ссылок учитывается при определении релевантности.
Старайтесь ставить ссылки на другие сайты, только если они совпадают с вашим по тематике.
Оптимальное число внешних ссылок на ваш сайт - не менее 50.