Кто ищет,
тот всегда найдет
Автор: Георгий Филягин
Опубликовано в журнале "Домашний компьютер" №12 от 14 декабря 2003 года.
Задача поиска выходит за рамки компьютерных приложений и во многом характеризует нашу способность распорядиться имеющейся информацией. Разработчики операционных систем, офисных пакетов и файловых оболочек оснащают свои продукты механизмами поиска. Возможностей встроенных средств будет достаточно, если у вас небольшая база документов или вы редко ею пользуетесь. В противном случае файлы помощи, документация, сохраненные копии страниц и справочные данные на компакт-дисках рискуют превратиться в однородную малополезную кашу. Итак, вам нужно найти файл. Как сориентироваться в залежах информации? Может статься, что помощь рядом, стоит только внимательнее присмотреться к функциям операционной системы.
К вашим услугам
О том, что оболочка Windows оснащена функцией поиска, знают все. А вот что пользователи современных версий этой операционной системы (Windows 2000 и XP) могут воспользоваться «Службой индексирования», значительно повышающей эффективность и скорость поиска, для некоторых может оказаться приятной новостью.
Принцип работы «Службы» основан на индексации файлов. После установки в системе служба остается неактивной, и для ее активации и настройки параметров следует открыть окно «Панель управления»|«Администрирование»|«Управление компьютером». Здесь можно ограничить область индексации, указав накопители и папки, в которых должно выполняться индексирование. Помимо этого для каждого каталога можно подготовить форму построения запросов, которые обязательно будут обрабатываться через индекс (в стандартной функции поиска использование индексов зависит от выбранной области поиска). В этом окне также выводится статистика службы: размещение и размеры индексов, общее и проиндексированное количество документов, другие данные. Чтобы не перегружать рядового пользователя ненужными техническими подробностями, разработчики Microsoft пошли на очень разумный шаг: большинство операций служба выполняет автоматически. После активизации она работает по своему усмотрению, главным образом, используя моменты простоя системы. Это позволяет снизить влияние работы службы на действия пользователя. На практике (особенно это справедливо в отношении томов с файловой системой NTFS) обновление индексов выполняется в реальном времени. Оборотной стороной отказа от отдельного этапа построения индекса является пониженный эффект индексации на скорость поиска на начальном этапе.
В процессе обработки из файлов извлекается сам текст и поля «свойств» (при условии, что они предусмотрены форматом). Например, это может быть имя автора или ключевые слова для документов Microsoft Office. Что интересно, сам Office может на компьютере отсутствовать. Поскольку новые версии Windows используют кодировку Unicode, индексация не накладывает заметных ограничений на язык документов. Доступ к данным обеспечивается при помощи так называемых фильтров. Предустановленные фильтры, помимо документов Microsoft Office, обеспечивают индексацию текстовых файлов (включая HTML и другие варианты форматирования). Благодаря открытости интерфейса фильтров, независимые разработчики могут добавлять индексацию своих собственных форматов.
Другими словами, «Служба индексирования» ? серьезный, наращиваемый инструмент поиска, интегрированный в операционную систему. Казалось бы, его присутствие должно обескуражить авторов бесплатных и условно бесплатных программ, но на деле им удается найти свою нишу, о чем свидетельствует дальнейшая часть нашего обзора.
Сайт: www.microsoft.com/rus
Загрузка и условия распространения: входит в состав Windows 2000 и более поздних версий.
На своих тридцати двух
«Служба индексирования» хороша, но как быть тем, кто не спешит расставаться с Windows 98, а то и Windows 95? Поддержка прежних версий ОС прекращена, но обновление операционной системы не всегда оправданно. Тут пригодится старая и вполне работоспособная программа ? Search32.
Она поддерживает русскую морфологию (то есть вы сможете находить не только слова из образца, но и словоформы) и обеспечивает довольно высокую скорость работы. При первом же запуске вам будет предложено создать индексный файл. После его генерации Search32 помещает свою пиктограмму в системную область панели задач и отслеживает изменения файловой системы, выполняя автоматическое обновление индексного файла незаметно для пользователя.
Search32 позволяет искать файл по целому слову, его частям и словоформам. Несколько образцов могут быть объединены в выражение при помощи логических операторов AND, OR и NOT. Предусмотрен также поиск фраз. Результаты поиска отображаются во встроенном окне просмотра (без форматирования). Двойной щелчок по строке результата открывает документ в ассоциированной с ним программе. Интересная особенность программы ? индексация и наблюдение за содержимым кэша браузера (Cache Watcher). Найденные страницы открываются в браузере, используемом в системе по умолчанию, или во встроенном браузере Search32.
К сожалению, возраст программы дает о себе знать. Search32 не учитывает форматирование файлов, рассматривая их содержимое, как «гладкий» текст. Список форматов, которые она «понимает», сильно ограничен (например, в индексацию не включаются документы новых версий Microsoft Office).
Сайт: www.anetsoft.com/indexr.htm
Загрузка: www.anetsoft.com/ s32_12rm.exe
Условия распространения: shareware, стоимость полной версии ? $9.
Настольный вариант
Совсем другое дело ? программа dtSearch Desktop. Она автоматически распознает кодировки, поддерживает работу с документами в кодировке Unicode, справляется с впечатляющим количеством форматов файлов.
Интересная особенность dtSearch Desktop в том, что по результатам индексации формируется специальный словарь, который можно использовать для поиска. Еще одна изюминка ? способность программы выполнять поиск по неиндексированному множеству файлов. Высокая скорость индексации позволяет быстро построить индекс на начальном этапе, а эффективный алгоритм мониторинга изменений в файлах дает возможность обновлять индексы в реальном масштабе времени, практически синхронно с изменениями документов. Программа может индексировать ресурсы, расположенные, как на локальном компьютере, так и на компьютерах, доступных по сети. Список форматов включает документы офисных пакетов, PDF, базы данных, базы Outlook Express, HTML и XML. Вывод результатов поиска выполняется с сохранением форматирования (включая графические элементы) во встроенном браузере, занимающем нижнюю часть главного окна программы. Вхождения образцов поиска выделяются, чтобы легче было воспринимать информацию. В dtSearch Desktop имеется множество настроек и вариантов поиска, есть отдельный менеджер индексов, модуль индексации и подробное руководство в формате PDF. За такое изобилие приходится платить, поэтому цена программы довольно высока.
Сайт: www.dtsearch.com/desktop.html
Загрузка: www.dtsearch.com/ftp_pub/ dtSearchEval621.exe
Условия распространения: стоимость полной версии ? $199.
С-с-сканер
Предыдущая программа наряду с индексированием выполняет прямой поиск, начиная анализировать содержимое файлов только после того, как введен запрос. Такой подход характерен для встроенных функций поиска. Например, файловый менеджер FAR открывает окно поиска по нажатию Alt+F7. SSScanner доводит идею до совершенства, выполняя поиск на разных языках (включая русский) в файлах TXT, RTF, HTML, HLP, PDF, DOC, PPT и XLS.
Скорость работы заслуживает похвалы. Предусмотрен контекстный поиск, учитывающий релевантность документов, и поиск по строгим формальным критериям. Результаты выводятся в специальном окне в виде таблицы с названием и выдержкой из документа (к сожалению, пробная версия показывает эту информацию только для первых двух документов).
Сайт: www.kryltech.com/scanner.htm
Загрузка: www.kryltech.com/download/ SSScanner.exe
Условия распространения: стоимость полной версии ? $27,95.
Служебное собаководство в цифровую эпоху
На сладкое у нас приготовлена, пожалуй, самая интересная программа ? «Ищейка». Поддерживая большое количество форматов, она индексирует даже заархивированные файлы (формат ZIP). После установки и определения зон поиска (это могут быть как локальные, так и сетевые ресурсы) выполняется индексация. В дальнейшем индексы можно обновлять автоматически по расписанию или вручную.
Доступно три варианта программы. Бесплатный позволяет определять две зоны поиска и индексирует до пятисот документов TXT, DOC и HTML. Вариант «Проф» гораздо мощнее: «понимает» больше форматов файлов, работает с несколькими кодировками, не имеет ограничений на количество зон поиска и документов в каждой зоне. Но главное ? функции «Проф» легко наращиваются за счет подключаемых модулей (всего доступно около двух десятков), позволяющих индексировать документы PDF, PHP, PPT, XLS, ZIP и другие. В комплект третьего варианта ? «Ищейка Проф Deluxe» ? входят все дополнительные модули.
Пользоваться программой легко. Ее интерфейс во многом напоминает привычные поисковые системы Сети. Высокая эффективность обеспечивается за счет использования морфологического поиска и логических функций. «Ищейка» позволяет сохранять запросы для повторного применения, что полезно при использовании сложных условий поиска. Результаты отображаются в окне просмотра в виде списка, содержащего ссылки и небольшие фрагменты документов. Из окна результатов можно быстро перейти в папку с документом, открыть документ для просмотра или редактирования.
Сайт: www.isleuthhound.com/ru
Загрузка: www.isleuthhound.com/ru/ download/sleuthr.exe
Условия распространения: бесплатно, $15 или $29 в зависимости от версии.
Перечень поисковых программ на этом не исчерпывается, но мы вынуждены остановиться. Напоследок ? несколько ссылок, чтобы вы могли самостоятельно продолжить поиск:
Effective File Search ? www.sowsoft.com/file-search.htm «Следопыт» ? www.sledopyt.ru
Greenstone ? www.greenstone.org/
cgi-bin/ library
Searchopia ? www.sunrizen.com
AFSearch ? www.afsearch.com
Everyfind ? www.atrise.com/everyfind
Cros ? www.cronos.ru/products-c.html