Поиска информации на сайте. (метод поиска - поиск по ключевым словам)
При дальнейшем развитии проекта, будет постоянно увеличиваться количество информации. Даже имея максимально понятную структуру и навигацию, будет сложно сразу попасть в тот раздел, который необходим, поэтому становится предусмотрительно разместить поисковую форму у себя на сайте.
Есть два варианта решить проблему поиска. Написать самой или воспользоваться уже готовым вариантом.
Проанализировав информацию, которая будет располагаться на страницах сайта, пришла к выводу, что поисковой механизм, удовлетворяющий всем требованиям, будет невозможно.
Почему был выбран уже готовый вариант?
С ростом проекта, увеличивается и информационное содержание сайта. Помимо текстовой информации, которая может находиться в разных словоформах и языках, может присутствовать и графическая информация. Помимо всего прочего, информация может храниться в форматах xls, doc, pdf и пр. Поэтому поиск должен находить информацию не только в базе данных нашего проекта.
Существует два типа поисковых машин:
- Индексные – Google, AltaVista, Рамблер, HotBox, АПОРТ!, Яндекс и пр,
- Классификационные (каталоговые) – Рамблер, Yahoo! и др.
Поисковая машина Рамблер является и индексной, и классификационной.
Как работает поисковая машина(ПМ)? ПМ запускает специальную программу, которая просматривает содержимое web-сервисов, индексируя информация: она заносит в свою базу данных ключевые слова той или иной web-страницы, некоторую информацию из web-страницы.
Классификационные ПМ работают совсем по-другому. ПМ – это огромный каталог, в котором хранится некоторые первичные элементы (темы) каталога. Если нужно найти необходимую информацию, то необходимо проследовать по рубрикам к требуемому разделу каталога.
Есть ПМ смешанного типа.
Порядок документов, показанные ПМ зависят от алгоритма поиска. Алгоритм поиска – это четкая последовательность действий поисковой системы для отбора нужной информации (релевантной) по запросу пользователя. Релевантность – это степень нужности, полезности, т.е. насколько точно найденная информация удовлетворяет запросу пользователя.
На любом сайте есть три типа информации:
- Информация, которая видна пользователю, т.е. та информация, которую можно увидеть при просмотре страницы;
- Информация действия – эту информацию можно увидеть при выполнении каких-либо действий, например, при щелчке на кнопке или подведении указателя мыши к какому-нибудь объекту (рисунку, гиперссылке и т.д.);
- Программный код сайта – это тоже информация, в программном коде находятся не только HTML-теги, но и информация, заключенная в них, - например, информация заключенная в мета-теги, скрытые поля и т.д.
Алгоритм работы поисковой системы.
Основные данные, по которым ранжируются документы:
- Ключевые слова на странице (сайте);
- Отношение слов на странице к ключевым словам на странице;
- Объем текста страницы;
- Объем сайта;
- Дата последнего обновления страницы;
- Альтернативные название изображений (alt теги);
- Язык страницы;
- Мета-теги;
- Внутренние и внешние ссылки.
Алгоритм работы:
- Программа-робот (она же программа-паук, spider) начинает сбор информации с сайтов. «Паук» посещает все сайты, которые внесены в базу данных (каталог), просматривает их, запоминает страницы, рисунки, названия и т.д.;
- Собранная роботом информация заносится в базу поисковой системы;
- Используя базу данных, ПМ индексирует страницы. Суть индексации заключается в том, что ПМ пытается понять, о чем эта страница. Тут же происходит анализ ключевых слов – такими считаются наиболее значимые слова с точки зрения ПМ, а не только слова, заключенные в соответствующий метатег. На основе ключевых слов строится рейтинг страницы. Затем сравниваются различные страницы (сайты), проводится анализ их ключевых слов и строится рейтинг сайтов ПМ. Затем этот рейтинг сравнивается с предыдущим рейтингом. После этого вычисляется результирующий рейтинг, который будет существовать в базе данных до следующего цикла;
- Пользователь, который ввел запрос к поисковой машине, получил нужную ему информацию в соответствии с результирующим рейтингом.
Самые распространенные в России ПМ: Yandex, Google, Rambler. Все они предоставляют возможность поиска на сайте. Для этого необходимо установить форму на сайте.
Мною был выбран поиск от Google, т.к. он удовлетворяет потребностям проекта. Поиск легко настраивается, дизайн и цветовая модель которого выбрана при установке. Важным преимуществом является быстрая индексация, которая зависит от частоты обновления информации на сайте, работа не только со спецификой русских текстов, но и иностранных, способность индексировать картинки (alt-теги, документы pdf, doc, xls).
Для установки формы поиска нужно указать сайт, по которому нужно производить поиск (в нашем случает, lib.gpi-mpei.ru/diplom), формат поиска, размер окна ввода, стиль кнопок, вид поиска, где будут показаны результаты поиска.
После чего будет представлены два кода, которые нужно разместить в теле документа там где будет находится форма поиска и там где будет показаны результаты соответственно.
Единственным недостатком является то, что документ может индексироваться в течении 2х недель после установки кода. Для ускорения индексации можно зарегистрироваться в каталогах или на различных сайтах, чтобы получить ссылку на наш сайт. При следующем обновлении базы поисковой робот найдет наш документ по проставленной ссылке.

