|
SiteSputnik. Невидимый интернет.
SiteSputnik. Поиск невидимых ссылок, папок и файлов. |
Автор Алексей Мыльников |
Предисловие..В настоящей публикации рассматриваются базовые функции программы SiteSputnik (вариант Invisible), предназначенные для работы с невидимым интернетом. Выражаю благодарность членам СПКР (Сообщества Практиков Конкурентной Разведки) с никами "Vinni" и "CI-КР", а также "Николаичу", "kvisnilainen", "Искендер", "MOS" и другим специалистам за полезные советы и замечания, высказанные на форуме и в личной переписке.
Основные понятия, терминология и сокращения.Основные поисковики. К ним отнесем Яндекс, Google, Yahoo, MSN (Live Search, Bing) и Altavista.
Видимый интернет - это проиндексированные хотя бы одним основным поисковиком ссылки. Другими словами, информация, размещенная на видимых ссылках, может быть найдена при помощи хотя бы одного поисковика.
Невидимый интернет (глубокий веб, Deep Web, Invisible Web, Hidden Web) - это ссылки, непроиндексированные ни одним из основных поисковиков. Соответственно, не существует такого запроса, при помощи которого можно найти информацию, размещенную на невидимой ссылке.
Веб-карта. Упорядоченная иерархическая структура сайта, ресурса или папки, составленная на основе видимых ссылок.
Цель, назначение, базовые функции программы.Одна из причин существования невидимого интернета - его огромный размер, высокая скорость обновления и появление в большом количестве новых ссылок и сайтов. Поисковики не в силах своевременно, полно и точного проиндексировать, другими словами, "увидеть" все эти изменения.
Цель, назначение.
Целевое назначение программы SiteSputnik Invisible - поиск информации, по тем или иным причинам, непопавшей в поле зрения основных поисковиков, повышение точности и полноты поиска.
Функции программы. В настоящей публикации рассматриваются следующие базовые функции программы SiteSputnik Invisible.
Сбор видимых ссылок и построение на их основе веб-карты сайта. Веб-карта - критерий видимости ссылок
О критерии видимости ссылок.
Для того, чтобы приступить к поиску невидимых ссылок, сначала собираются видимые ссылки. Для этого SiteSputnik использует несколько поисковиков, а именно: Google, Yahoo, Яндекс, MSN (Live Search, Bing) и Altavista. Кроме составления списка "Объединение", содержащего все уникальные ссылки, найденные всеми поисковиками, он строит еще карту сайта - специальную упорядоченную иерархическую структуру этих ссылок. Эта структура содердит все видимые ссылки и будет использована как плацдарм для поиска невидимых ссылок.
Есть два варианта построения карты сайта: стандартный и углубленный.
Стандартный вариант.
Выполняется один пакет из пяти запросов: по одному на каждый поисковик. Результаты поиска объединяются, дубли ссылок отбрасываются. Для Гугля, например, для ресурса ab.vlink.ru выполняется запрос "site:ab.vlink.ru". Стандартного варианта, по моим оценкам, вполне достаточно для сайтов, содержащих до 300 ссылок - он сумеет найти практически все видимые ссылки.
Углубленный вариант.
Выполняется до 2100 пакетов, каждый из которых содержит по пять запросов: по одному на каждый поисковик. Первым выполняется пакет из Стандартного варианта. Для каждого найденного ресурса или папки, принадлежащего сайту, например, ab.vlink.ru/FFF, создается и выполняется очередной пакет из пяти запросов. Результаты его выполнения будут объединены с результатами, полученными при выполнении предыдущих пакетов, дубли ссылок отбрасываются.
Указанным способом SiteSputnik "вгрызается" в сайт, пятью поисковиками "обыскивает" каждый ресурс и каждую его папку и приносит практически все ссылки, видимые из интернета. На их основе он строит карту сайта. Имею опыт построения карт "размером" около 50000 ссылок. Формирование карты сайта не заметно для его владельца, так как вся информация берется только из поисковиков.
Последовательность действий
Это все действия, которые требуются от пользователя для сбора видимых ссылок. Остальное сделает SiteSputnik.
- Обращаемся к подменю "Золотого ключика" и выбираем пункт Карта сайта → Базовая или Карта сайта → Углубленная .
- На появившейся картинке вводим имя сайта, ресурса или папки (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).
- Нажимаем на кнопку Карта .
Подробнее о карте сайта с картинками и пояснениями можно прочитать в отдельной публикации о построении веб-карт ресурсов и объектов.
Основное назначение
Поиск недавно созданных ссылок. Поиск недавно удаленных ссылок. Поиск архивных и других неофисных файлов.
Последовательность действий
Спайдер запускается С карты сайта . Он загружает все видимые ссылки и ищет в них невидимые. Если таковые находятся, то спайдер загружает невидимые ссылки и ищет в них невидимые. Процесс продолжается до тех пор, пока не будет обработана последняя ссылка или пользователь не остановит его. На приведенном ниже рисунке показано как добраться до обращения к спайдеру.
![]()
С точки останова можно продолжить работу спайдера, если его работа была остановлена.
Включение в карту сайта найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.
Результаты своей работы спайдер оформляет в двух списках: невидимые ссылки и серые ссылки.
Невидимые ссылки.
Список "Невидимые" содержит все найденные невидимые ссылки.
Большая вероятность того, что эти ссылки были созданы сравнительно недавно: менее, чем две недели назад.
Серые ссылки.
Список "Серые" содержит ссылки, которые не удалось открыть.
Большая вероятность того, что это несуществующие ссылки. Возможно, что они были удалены сравнительно недавно: менее, чем две недели назад.
Основное назначение
Поиск ссылок и файлов в окрестности ссылки или файла по "образу и подобию".
Последовательность действий
Еще три примера.
- Выбираем построенную карту сайта. На рисунке ниже представлен ее фрагмент для ресурса 1001.ru/arc/businessman.
![]()
- Переходим в режим редактирования. Для этого на панели инструментов, расположенной в правом нижнем углу, нажимаем на кнопку "Редактировать". На картинке ниже эта кнопка обведена красной окружностью.
![]()
- Для произвольной ссылки, например, под номером 5,
1001.ru/arc/businessman/issue1673, вводим с клавиатуры прямо живьем в карту сайта правило [73,74,82]: 1001.ru/arc/businessman/issue16[73,74,82], Это правило означает, что сгенерятся девять ссылок, за исключением трех видимых, а именно шесть следующих: 1001.ru/arc/businessman/issue1674 1001.ru/arc/businessman/issue1675 1001.ru/arc/businessman/issue1677 1001.ru/arc/businessman/issue1679 1001.ru/arc/businessman/issue1680 1001.ru/arc/businessman/issue1682.На рисунке ниже показано как будет выглядеть отредактированный фрагмент карты сайта. Он обведен красной линией.
![]()
- Выполняем Невидимый интернет → Поиск в окрестности → Найти ссылки и файлы . Это приведет к проверке на существование каждой сгенерированной ссылки. Найденные существующие ссылки будут помещены в список невидимые. На картинке ниже приведен фрагмент этого списка.
![]()
- Включение в карту сайта найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.
Результат включения невидимых ссылок в карту сайта для нашего случая приведен на картинке ниже.
![]()
1. Для ссылки dvfo.nalog.ru/new/2006.htm при помощи одного правила dvfo.nalog.ru/new/200[6,5,9].htm сгенерятся пять ссылок за минусом одной видимой, а именно следующие четыре:
dvfo.nalog.ru/new/2005.htm
dvfo.nalog.ru/new/2007.htm
dvfo.nalog.ru/new/2008.htm
dvfo.nalog.ru/new/2009.htm
Тотже результат Вы получите, если напишите dvfo.nalog.ru/new/[2006,2005,2009].htm
2. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при помощи другого правила dvfo.nalog.ru/new/2006.[htm;doc;xls;ppt] сгенерятся три ссылки, а именно:
dvfo.nalog.ru/new/2005.doc
dvfo.nalog.ru/new/2007.xls
dvfo.nalog.ru/new/2008.ppt
Обратите внимание, что в примере 1 для разделения чисел используется знак - ",", а в примере 2 для разделения символов знак - ";".
3. Для этой же ссылки: dvfo.nalog.ru/new/2006.htm при одновременном применениb двух других правил dvfo.nalog.ru/new/200[6,5,7].[htm;doc;xls;ppt;htm] сгенерятся двенадцать ссылок за минусом одной видимой, а именно следующие одиннадцать:
http://dvfo.nalog.ru/new/2005.doc
http://dvfo.nalog.ru/new/2005.xls
http://dvfo.nalog.ru/new/2005.ppt
http://dvfo.nalog.ru/new/2005.htm
http://dvfo.nalog.ru/new/2006.doc
http://dvfo.nalog.ru/new/2006.xls
http://dvfo.nalog.ru/new/2006.ppt
http://dvfo.nalog.ru/new/2007.doc
http://dvfo.nalog.ru/new/2007.xls
http://dvfo.nalog.ru/new/2007.ppt
http://dvfo.nalog.ru/new/2007.htm
Сложный пример.
С более сложным примером и формальными правилами описания окрестности можно ознакомиться здесь.
Проверка.
Можно предварительно проверить себя на предмет правильного ввода и генерации множества ссылок.
Для этого выполните Невидимый интернет → Сервисные функции → Просмотр окрестности
Добавить ссылку.
Можно добавить произвольную ссылку в карту сайта, для того чтобы ввести на ней правила.
Для этого выполните Невидимый интернет → Сервисные функции → Добавить ссылку в карту
Внимание.
Очень тщательно отнеситесь к набору правил генерации имен ссылок во встроенном редакторе:помните о синтаксисе и семантике правил, не изменяйте символы в имени ссылки - только добавляйте символы, не рекомендуется пользоваться буфером обмена - набирайте правила прямо с клавиатуры.
Ограничение.
В настоящей версии программы SiteSputnik Invisible для некоторых сайтов (около 5%) возможны погрешности при определении существования ссылок. Для достижения 100% точности на этих сайтах необходимо скачивать все сгенерированные ссылки и анализировать их контент, что существенно замедлит процесс поиска невидимых ссылок.
Основное назначение
Поиск при помощи основных поисковиков папок открытых (доступных любому пользователю) и нахождение в них невидимых ссылок.
Существуют два варианта поиска невидимых ссылок в папках открытых: автоматический и интерактивный.
Последовательность действий в автоматическом режиме
SiteSputnik, используя специальный пакет запросов, отыщит папки открытые, откроет все вложенные в них папки, соберет во всех папках все невидимые ссылки, папки и файлы, сохранит их в списке "Невидимые" и вставит их на свое место в карту сайта.
- Выбираем: Невидимый интернет → Папки открытые → Поиск автоматический .
- На появившейся картинке вводим имя сайта, ресурса или папки, в которых следует осуществить поиск папок открытых (префиксы http:// и www. перед именем сайта не обязателены, кавычки не нужны).
- Нажимаем на кнопку Папка .
Для того, чтобы увидеть как работает робот СайтСпутник''а в автоматическом режиме, попробуйте запустить его для ресурса ФНС: dvfo.nalog.ru. По крайней мере на момент публикации он содержал три открытые папки, видимые из Yahoo.
Последовательность действий в интерактивном режиме
В интерактивном режиме все перечисленные для автоматического режима действия SiteSputnik''a могут целенаправлено выполняться под управлением пользователя.
Основное назначение
Поиск ссылок, папок и файлов со стандартными именами на основе заранее подготовленных списков стандартных имен, называемых словарями.
Предварительные действия
Формируем словари. Максимальное число словарей - 8. Для этого открываем Настройки → Параметры → Вкладка Invisible , выбираем словарь и вводим в него стандартные имена (слова). Можно задействовать до трех словарей под имена папок и до трех словарей под имена ссылок и файлов. Четвертая пара словарей, называемая Словари-Own, создается автоматически перед выполнением "Поиска со словарем" и содержит все имена (слова) из всех ссылок, папок и файлов видимых и найденных невидимых.
Основные действия
- В карте сайта выбираем список "Папки". На базе этого списка осуществляется поиск со словарем, а именно, к каждому элементу видимой из интернета папочной структуры сайта, СайтСпутник присоединит имена (слова) из четырех пар словарей и определит физическое существование получаемых таким образом ссылок, папок и файлов.
- В подменю "Золотого ключика" выбираем Невидимый интернет → Поиск со словарем → Найти папки и файлы , что приводит к инициированию поиска невидимых ссылок, папок и файлов с использованием словарей. Как отмечалось выше, невидимыми считаются физически существующие ссылки, папки или файлы, которые не содержатся в карте сайта.
- Включение в карту сайта найденных невидимых ссылок целесообразно выполнить для того, чтобы они были задействованы в других базовых функциях поиска в невидимом интернете.
От пользователя не требуется никаких специальных знаний: языка HTML, языков запросов и других профессиональных навыков. При помощи мышки он выбирает базовые функции поиска в невидимом интернете и вводит имя исследуемого сайта, ресурса или папки. Остальную работу выполнит SiteSputnik Invisible. Все рассмотренные базовые функции могут применяться в любой последовательности. Включение найденных невидимых ссылок в карту сайта может быть произведено в любое время. Целесообразно это делать сразу по факту их нахождения. Возможно, что повторное применение любой базовой функции после удачного применения другой базовой функции, приведет к нахождению новых невидимых ссылок. Для больших сайтов целесообразно разбить поиск на более "мелкие" поиски по его составным частям, например, aa.bb.ru/xx/yy/01. Для всего сайта можно построить карту только для того, чтобы увидеть эти составные части. Включенные невидимые ссылки, папки и файлы в карте сайта выделяются зеленоватым фоном.
Приложение FileForFiles & SiteSputnik хорошо документировано.
Полный список инструкций, очерков, статей, отзывов, пресс-релизов, обсуждений на нескольких форумах, полевых испытаний, - собран на этой странице.