Поисковый бот действует как очень быстрый браузер без визуального интерфейса.
Он делает:- Получает список адресов для обхода
- Посещает страницу
- Забирает HTML, CSS, JS
- Сохраняет копию страницы
- Анализирует структуру
- Извлекает ссылки
- Ставит новые URL в очередь обхода
1.2.1. Очередь обхода (Crawl Queue)У каждого сайта есть crawl budget — лимит того, сколько страниц бот может обойти за единицу времени.
На него влияют:- скорость ответа сервера
- ошибки 404/500
- дубликаты страниц
- отсутствие sitemap
- слишком глубокая структура
- блокировки robots
Это критически важно для больших сайтов (маркетплейсы, каталоги, интернет-магазины).