📘 ГЛАВА 1. КАК РАБОТАЕТ ПОИСКОВАЯ СИСТЕМА

1.0. Введение в работу поиска
  • Представьте, что поисковая система — это не «волшебная коробка», а огромная сеть взаимосвязанных модулей, которые работают так быстро, что весь процесс кажется мгновенным. Но внутри это сотни процессов, распределённых серверов, моделей и таблиц весов.

    Чтобы понимать SEO на профессиональном уровне, важно чётко понимать:

    • как поисковая система видит сайт
    • как она читает код
    • как она определяет тему страницы
    • как принимает решение, какой сайт показать выше
Эта глава объяснит путь от «бот пришёл на сайт» → до «страница показана в выдаче». Постепенно, без пропусков, с погружением в сложные вещи, но простым языком.

Из чего состоит поисковая система

Любой поиск (Google, Яндекс, DuckDuckGo) можно условно разделить на пять огромных модулей:
┌──────────────────────────┐
 │        1. Краулинг       │ 
└──────────────────────────┘

┌──────────────────────────┐
 │       2. Индексация      │ 
└──────────────────────────┘

┌──────────────────────────┐
 │      3. Анализ контента  │ 
└──────────────────────────┘

┌──────────────────────────┐
 │      4. Ранжирование     │
└──────────────────────────┘

┌──────────────────────────┐
 │     5. Выдача (SERP)     │ 
└──────────────────────────┘
← боты посещают сайты
← страницы в базе
← весовые факторы, ML
← выбор позиций
← что видит пользователь
Из чего состоит поисковая система
Каждый шаг важен для SEO.

Как работает краулинг

Краулинг — это «сканирование» сайтов

Поисковый бот действует как очень быстрый браузер без визуального интерфейса.

Он делает:

  1. Получает список адресов для обхода
  2. Посещает страницу
  3. Забирает HTML, CSS, JS
  4. Сохраняет копию страницы
  5. Анализирует структуру
  6. Извлекает ссылки
  7. Ставит новые URL в очередь обхода
1.2.1. Очередь обхода (Crawl Queue)У каждого сайта есть crawl budget — лимит того, сколько страниц бот может обойти за единицу времени.

На него влияют:

  • скорость ответа сервера
  • ошибки 404/500
  • дубликаты страниц
  • отсутствие sitemap
  • слишком глубокая структура
  • блокировки robots
Это критически важно для больших сайтов (маркетплейсы, каталоги, интернет-магазины).

Что такое Индексация

Когда бот скачал страницу, он ещё не показывает её в поиске. Её нужно обработать.

Индексация — это:

  • хранение текста
  • извлечение тематики
  • выделение важных элементов
  • построение обратных ссылок
  • определение интента
  • сравнение с другими документами
Индексация - скорость обхода фото
Индексация - скорость обхода - фото

Как поисковик хранит страницы

Хранение идёт в виде:

  • токенов (слов)
  • n-грамм
  • векторов
  • матриц признаков
  • графов ссылок

На этом уровне уже начинается машинное обучение.

Анализ контента

Задача поисковика — понять:

  • О чём страница
  • Насколько она экспертная
  • Полезна ли для пользователя
  • Под какой запрос её показывать

Здесь работает много модулей:

  • модели анализа текста
  • генерирование эмбеддингов
  • определение интента
  • определение коммерческого потенциала
  • анализ поведения пользователей
  • анализ качества сайта
  • оценка технической корректности

Что такое Ранжирование

Ранжирование — это финальное вычисление позиции

Факторы ранжирования

Ранжирование — это финальное вычисление позиции.1.5.1. Факторы ранжирования

Традиционно делятся на:

Технические

  • скорость
  • мобильность
  • доступность
  • структурирование
  • исправность

Контентные

  • полнота ответа
  • точность
  • семантическое соответствие
  • экспертность

Поведенческие

  • клики
  • возвраты
  • время на сайте

Ссылочные

  • внешний вес
  • тематичность
  • авторитет доноров
  • риск

Как поисковик понимает интент (важно для SEO)

Интент — это намерение пользователя.
Алгоритмы проверяют:

  • слова запроса
  • предыдущие клики
  • гео пользователя
  • его историю поведения
  • параметры страницы