Русские документы
Ежедневные компьютерные новости RSS rusdoc.ru  Найти :
http://www.rusdoc.ru. Версия для печати.

SEO — Теория. Часть 1: Алгоритмы

Раздел: Programming / Вебмастеру @ 10.03.2009 | Ключевые слова: seo поиск теория индексация обратный индекс yandex google

Автор: Kuropov
Источник: habrahabr

Итак, с этой статьи, я бы хотел начать цикл статей по SEO. Планирую разделить его на 3 части: теория, практика, советы. Начнем, пожалуй, с самых азов — алгоритмы. Но зачастую многие не знают именно азов, практически во всех областях.

Что вы узнаете?


Алгоритмы поиска. Что представляет из себя индексация, инвертированный индекс. Математические модели, используемые современными поисковыми системами.

Алгоритмы поиска


  1. Прямой поиск — последовательный перебор всех данных;
  2. Инвертированных индексов — список слов (индекс-файл) документированные в алфавитном порядке с указание позиции и других параметров вхождения слова документа.

Обратный индекс


Как вы наверное догадались поисковиками используется алгоритм инвертированных индексов, т. к. использование прямого поиска гораздо более ресурсоемко. Восстановление из обратного индекса произойдет с потерями (падежи, дефисы, запятые, и т. п.). Поэтому также хранится прямой индекс документа для отображения сниппета (фрагмент найденного текста документа отображаемый в поиске).

Документ

Жил-был поп,
Толоконный лоб.
Пошел поп по базару
Посмотреть кой-какого товару.

Обратный индекс документа

базар  (3,4)
был     (1,2)
жил     (1,1)
какой  (1,1)
кой     (4,2)
лоб     (2,1)
по       (3,3)
поп     (1,3) (3,2)

Параметры указаны самые примитивные и только для примера — (строка, позиция в строке). В параметрах также хранятся падежи слов, и принадлежность к пассажу.

Математическая модель


При поиске используется 3 типа математических моделей, вот они:
  1. Булевские (логические) — есть слово — найден, нет — не найден;
  2. Векторные (используются всеми ПС) — вес документа = TF * IDF
    TF — частота слова в документе
    IDF — редкость слова в коллекции
  3. Вероятностная — подбор выдачи в ручную (с помощью асессоров) — самостоятельное определение релевантности страниц

Главное


Релевантность — степень отношения к делу. Продвигайте только релевантные документы.


Вернуться в раздел: Programming / Вебмастеру
© Copyright 1998-2012 Александр Томов. All rights reserved.