Информационно-поисковые системы Internet. Как я узнаю, что моя посылка дошла до офиса IPS за рубежом

Инструмент 15.06.2019
Инструмент

Городилов А.В.
Крагин А.Н.

Источник: archive.alee.ru

Система разработана в рамках дипломного проекта. Кафедра ИПОВС, МИЭТ. В ближайшее время будут выложены подробные описания системы, а также исходный код модулей.

Обзор существующих технологий построения и организации электронных архивов.

В данном разделе я постарался выделить общее в технологиях построения и организации электронных архивов.

Технология построения электронного архива.

Процесс построения электронного архива включает:

  • сканирование документов и создание их электронных образов;
  • организацию надёжного и защищённого хранилища образов документов;
  • индексирование документов;
  • распознавание текста и коррекцию ошибок;

Существует несколько типовых решений проблемы создания Электронного архива документов.

«Минимальное решение»

Это самое дешёвое решение для организаций, стремящихся упорядочить доступ к архивной информации, но не предполагающих активно использовать электронные образы документов.

При таком решении создаётся электронная картотека архива - база данных с полноценным формализованным описанием документов по нескольким поисковым полям (обычно 5–10) и точным физическим адресом (раздел, шкаф, стеллаж) расположения бумажного документа.

Зная характеристики документа, архивариус запрашивает систему о его местонахождении в хранилище, а, получив физический адрес, легко находит и сам документ. Такая электронная картотека во много раз облегчает структуризацию бумажного архива, упрощает поиск документов и учёт их использования.

«Стандартное решение»

Более распространённое и функциональное решение - электронная картотека, дополненная массивом графических образов документов (отсканированных изображений).

Такой архив позволяет полностью отказаться от использования в повседневном обороте оригиналов документов, которые могут в этом случае храниться удалённо, на площадях с низкой стоимостью и, при необходимости, под надёжной охраной.
Стандартный программно-аппаратный комплекс архива гарантирует, что в результате поиска по электронной картотеке сотрудник организации получит в своё распоряжение точный образ нужного документа, который можно использовать для просмотра, передачи по сети или печати бумажной копии. При этом автоматизированная система управления доступом обеспечит учёт и авторизацию всех обращений, а также надёжную защиту от несанкционированного использования документов.

Стандартное решение позволяет организовать единое управление архивом даже для территориально распределённой организации и обеспечить полноценный контроль за всеми её документами из единого центра.

«Максимальное решение»

Наиболее эффективный электронный архив, в котором электронная картотека и массив графических образов дополняются файлами, содержащими тексты всех документов архива.

Тексты документов создаются набором вручную или путем автоматического распознавания и верификации их графических образов. Поиск в таком архиве может быть организован как по поисковым полям (картотеке), так и по содержанию самих документов (контекстный поиск). Найденные документы можно просматривать, пересылать и распечатывать как в виде их исходных образов, так и в виде текстовых файлов, доступных для редактирования стандартными текстовыми редакторами.

Выбор «Решения»

Для создания Электронного архива Управления было выбрано наиболее полное и функциональное решение. Проанализировав Максимальное решение в контексте технологии построения электронного архива, было принято решение о создании программного комплекса для решения следующих задач:

  • организация надёжного и защищённого хранилища документов;
  • индексирование документов;
  • создание системы поиска и отображение документов;
  • создание системы управления электронным архивом.

Концепция функционирования ИПС

В концепции функционирования Электронного архива ИПС я выделил следующие основные информационные и функциональные сущности:

  • контрольно-регистрационная карточка документа;
  • файл документа;
  • сервер контекстного поиска;
  • приложение документа.

Контрольно-регистрационная карточка документа содержит учетно-регистрационную информацию, различные признаки документа и его атрибуты. Кроме того, карточка документа содержит ряд признаков, по которым можно провести однозначную идентификацию документа, его место хранения, параметры привязки отдельного документа в комплекте документации в целом и т. п.

В файле документа представлено собственно содержание документа в электронном виде.

Приложение документа служит программным средством для работы с документом.

Таким образом, можно выделить основные программно-аппаратные компоненты системы ИПС:

Ядро системы управления документами (СУД);
Сервер БД архивной системы (Картотека);
Файловый сервер документов (Хранилище документов);
Сервер приложений (Поисковый сервер);
Сеть клиентских рабочих мест.
Ядро системы управления документами.

Ядро системы управления документами или другими словами, бизнес-логика функционирования системы, встроено в клиентское приложение. Вся работа по авторизации пользователей ИПС, аутентификации пользователей ИПС, работе с документами, администрированию и настройке системы проводится с помощью клиентского приложения ИПС. Именно ядро отвечает за правильность и целостность хранения данных в БД и на файловом сервере документов.

Сервер БД архивной системы (Картотека).
Сервер БД архивной системы (Картотека). Роль сервера БД в системе играет SQL-сервер Borland InterBase6. С версии 6.0 этот продукт является совершенно бесплатным и распространяется с открытыми исходными текстами.
Файловый сервер документов (Хранилище документов).
Файловый сервер документов

(Хранилище документов) - это файловый сервер с большим дисковым пространством под хранение текстов документов, а также их txt-образов и индекса документов. Взаимодействие Хранилища документов с ядром системы осуществляется посредством протокола обмена файлами (FTP).

Сервер приложений (Поисковый сервер). Полноценный поиск по документам включает в себя две составляющие:

  1. Поиск по реквизитам.
  2. Поиск по содержимому документа.

Если с первой задачей можно успешно справится средствами языка структурированных запросов (SQL) к базе данных, то в задаче поиска по контексту без полнотекстовой индексации документов не обойтись. Учитывая то, что в функциональности Электронного архива первое место отводится мощности, скорости и простоте контекстного поиска было решено для полнотекстовой индексацией в ИПС применить библиотеку ABBYY RETRIEVAL & MORPHOLOGY 4.0 ENGINE. Эта библиотека предоставляет разработчику Retrieval API в. реализацию которого входят следующий функции:

1) Полнотекстовая индексация. Инструментарий позволяет создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (файловых серверах, WEB-серверах или базах данных). Для того, чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система использует знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 150 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительного размера индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного «гладкого текста» в формате TXT:
Скорость индексирования 20 мб\мин
Отношение размера индекса к информационному источнику 40%.

2) Полнотекстовый поиск. Функции полнотекстового поиска позволяют, указав в запросе любую форму нужного слова, найти в проиндексированных документах все вхождения этого слова как в заданной, так и в остальных его формах. ARM Engine позволяет осуществлять как простой, так и расширенный поиск. При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов (AND, OR, NOT). Так как индекс содержит информацию о координатах каждого слова в проиндексированных документах, возможно также задать дистанцию между искомыми словами и их относительную позицию. Запрос для расширенного поиска представляет собой строку на специальном «языке запросов», что позволяет более точно задать параметры поиска, используя произвольную комбинацию логических операторов. В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стоп-слов, поиск даже в многоязычных документах осуществляется настолько эффективно, что скорость поиска составляет доли секунды и практически сравнима со скоростью реакции пользователя.

3) Нечеткий поиск. ARM Engine позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случае, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.

Проанализировав возможности этой библиотеки, а также, учитывая возможность довольно безболезненной интеграции библиотеки в ИПС, нами было принято решение об использовании ее в качестве Полнотекстового Индексирующего Механизма.

Лицензионная политика компании ABBYY позволяет разработчикам программного обеспечения (потенциальным покупателям их продукта) получить бесплатную полнофункциональную версию ARM Engine для тестирования и разработки механизмов взаимодействия.

Сеть клиентских рабочих мест

Сеть клиентских рабочих мест состоит из клиентских приложений ИПС. Для взаимодействия с сервером БД (Хранилищем документов) клиентское приложение использует InterBase API. Для взаимодействия с Поисковым сервером клиентское приложение использует Retrieval API. Взаимодействие с пользователем осуществляется с помощью стандартных графических средств MS Windows - Windows GUI.

Техническое обеспечение ИПС

Для функционирования системы ИПС «НПДок» необходимо следующие техническое обеспечение:

1) Локальная вычислительная сеть под управлением домена MS Windows. Обязательное присутствие домена объясняется использованием ARM Engine технологии DCOM (Distributed Component Object Model). DCOM - это программная архитектура, разработанная компанией Microsoft для распределения приложений между несколькими компьютерами в сети. Программный компонент на одной из машин может использовать DCOM для передачи сообщения (его называют удаленным вызовом процедуры) к компоненту на другой машине. DCOM автоматически устанавливает соединение, передает сообщение и возвращает ответ удаленного компонента.

2) Сервер InterBase 6. Системные требования для сервера InterBase6:

Свободное дисковое пространство: на начальном этапе достаточно 50 мб, но с ростом базы потребуется дополнительное дисковое пространство

3) Сервер ABBYY FTRE. Библиотека полнотекстовой индексации устанавливается сервисом в систему MS Windows NT 4.0/5.0/5.1. Системные требования Поискового сервера:
Операционная система: MS Windows NT\2000
Компьютер на базе Intel Pentium II
Оперативная память: не менее 128 мб
Свободное дисковое пространство: на начальном этапе достаточно 500 мб, но с ростом базы потребуется дополнительное дисковое пространство

4) Клиентские места системы ИПС. Системные требования для компьютеров, обеспечивающих работу Клиента ИПС:
Операционная система: MS Windows 9x\NT\2000
Компьютер на базе Intel Pentium 200Mhz
Оперативная память: 32 мб
Свободное дисковое пространство: 3 мб

Семинар

Проектирование систем управления документами

Понятие информационно-поисковой системы (ИПС).

Состав компонент и технология работы с ИПС.

В работе современных предприятий важную роль играют его информационные ресурсы, под которыми можно понимать проектную документацию, переписку с партнерами, внутренние приказы и распоряжения, финансовые данные и другие документы, которые служат основой для принятия новых решений и используются в процессах управления предприятием. И если для хранения структурированных данных можно применять специализированные информационные системы (типа бухгалтерской или торговой системы или системы планового отдела), основанные, на использовании СУБД, то для неструктурированных данных нужны системы общего назначения – электронные архивы, работающие на принципах информационно-поисковой системы.

Информационно-поисковая система (ИПС) – это система, предназначенная для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области. Выделяют ИПС двух типов: фактографические и документографические системы. ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов (например, сведения о работниках, о предприятиях, акционерах и т.д.). Документографические ИПС отличаются тем, что объектом хранения и поиска в этих системах служат документы, отчеты, рефераты, обзоры, журналы, книги и т.д. Сценарий поиска документа при помощи ИПС обычно сводится к вводу запроса на поиск, состоящего из одного или нескольких слов, после чего предъявляется список имен найденных документов. Пользователь может открыть любой из найденных документов и если поисковая система позволяет, вхождения искомых слов в документе выделяются - «подсвечиваются». Можно выделить следующие особенности организации и



функционирования документографической ИПС, отличающие ее от систем управления базами структурированных данных: – Документы могут храниться на бумаге, микрографических носителях или существовать в электронных форматах. Микрографические форматы включают микрофильмы, микрофиши, слайды и другие микроформы, производимые разнообразными документными камерами. Электронные форматы еще многочисленнее, они включают документы, подготовленные в текстовых процессорах, системах электронной почты и других компьютерных программах, оцифрованные изображения прошедших сканирование документов и проч. При этом предполагается обязательное хранение как электронных копий документов, так и их бумажных оригиналов.

Если документы занимают большой объем и полные электронные копии выдавать на просмотр или хранить не возможно, то для таких документов создают и хранят электронные адреса их хранения.

Поиск осуществляется нахождением документа по двум принципам: по

атрибутам документа – дате создания, размеру, автору и пр. и по его содержанию (тексту). Обычно поиск по содержанию документа выполняется двумя способами: по ключевым словам и по всему тексту, который называют полнотекстовым, подчеркивая тем самым, что для поиска используется весь текст документа, а не только его реквизиты.

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) – совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа.

Ключевые слова и их коды хранятся в специальном словаре – тезаурусе .

Для того, чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ) , который представляет собой совокупность закодированных ключевых слов, описывающие те документы, которые нужно найти.

Схема взаимодействия компонент ИПС представлена на рис. 1.

Рис. 1. Схема взаимодействия компонент ИПС

ИПС состоит из следующих обеспечивающих подсистем:

Лингвистическое обеспечение, включающее в свой состав информационно-поисковый язык;

Техническое обеспечение системы, включающее ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях, в микроформатах и в электронной форме;

Информационное обеспечение, состоящее из БД документов (БД Док.), адресов (БД Адр.) и БД поисковых образов документов (БД ПОД) и списков дескрипторов и их кодов - тезауруса;

Программное обеспечение.

Программное обеспечение ИПС предназначено для автоматизации следующих основных функций, которые должна выполнять эта система:

Составления, кодирования и загрузки базы данных ПОД;

Загрузки БД документов и их адресов хранения;

Составления, кодирования ПОЗ;

Выполнение операции поиска и выдачи ответа на запрос в виде документа или адресов хранения документов на экран ЭВМ, на бумагу, в файл;

Актуализация баз данных ПОД, документов и адресов;

Актуализация тезауруса;

Выдача справок.

Рассмотрим основные понятия, употребляемые в сфере поиска документов.

Релевантность - степень соответствия найденного документа запросу. Найденный по запросу документ может иметь отношение к запросу, т. е. содержать нужную (искомую) информацию, а может и не иметь никакого отношения. В первом случае документ называется релевантным (по-английски relevant - «относящийся к делу» ), во втором - нерелевантным , или шумовым. Как правило, в любой поисковой системе по запросу выдается несколько (чаще много) найденных документов. Многие из них могут повествовать не о том. И наоборот, некоторые важные, релевантные, документы могут быть пропущены при поиске. Ясно, что количество тех и других определяет качество поиска, которое можно определить достаточно точно. Основными понятиями в мире поисковых средств являются идеи точности и полноты поиска.

Точность поиска (Т) определяется тем, какая часть информации, выданная в ответ на запрос, является релевантной, т.е. относящейся к этому запросу и является параметром, показывающим, какова доля релевантных документов в общем числе найденных. Этот показатель рассчитывается по формуле:

Если, например, все выданные по запросу документы относятся к делу, то точность равна 100%; если, напротив, все документы шумовые, то точность поиска равна нулю.

Полнота поиска (П) - дополнительный параметр, показывающий, какова доля (или процент) найденных релевантных документов в общем количестве релевантных документов, т.е. характеризуется соотношением между всей релевантной информацией, имеющейся в базе, и той ее частью, которая включена в ответ и рассчитывается по формуле:

Если в области поиска на самом деле имеется 100 документов, содержащих нужную информацию, а по запросу найдено из них всего 30, то полнота поиска равна 30%. Кроме этого при оценке поисковых систем учитывается, с какими типами данных может работать та или иная система, в какой форме представляются результаты поиска и какой уровень подготовки пользователей необходим для работы в этой системе. Следует отметить, что точность поиска и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субъективного представления пользователя о том, какая нужна ему информация. Если стоит проблема оценки нескольких систем и выбора наиболее эффективной, можно вычислить средние значения полноты и точности рассматриваемых конкретных систем, протестировав их на эталонной базе документов.

Индексация документов (т.е. составление ПОД), которая означает предварительную подготовку текстов для поиска и применяется главным образом для ускорения поиска; как правило, текстовые базы данных, предназначенные для многократного поиска, обрабатывают заранее, составляя так называемый индекс (ПОД) . При индексации поисковая система составляет списки слов, встречающихся в тексте, и приписывает каждому слову его код - координаты в тексте (чаще всего номер документа и номер слова в документе). При поиске слово ищется в индексе, и по найденным координатам выдаются нужные документы. Если слов в запросе несколько, над их координатами производится операция пересечения. В том случае, если множество документов пополняется, приходится пополнять и индекс.

Единица поиска - это квант текста, в пределах которого в данной поисковой системе осуществляется поиск, от величины которого зависит показатель точности поиска, величина шума и время ответа на запрос. Единицей поиска может быть документ, предложение или абзац. В технологии использования ИПС можно выделить три группы операций:

Операции, связанные с получением поисковых образов документов (ПОД), описывающих содержание документов и загрузкой их в базу данных (БД ПОД), а также загрузкой самих документов или их адресов хранения в БДДок и БДАдр.;

Операции составления поисковых образов запроса (ПОЗ) с использованием тезауруса, поиска и выдачи результатов на просмотр и отбор или файл или на печать найденных документов или списка адресов;

Операции ведения информационно-поисковой системы, включающие актуализацию БД ПОД, БДДок., БДАдр. и тезауруса вследствие возникновения и необходимости пополнения памяти системы новыми документами или ключевыми словами. В состав операций ведения ИПС входит также процедура выдачи справок о работе системы, о ее структуре, методах поиска и классах и видах хранимых u1076 документах.

Добрый день, мои уважаемые читатели. Сегодня мы коснемся чрезвычайно интересной и важной темы – информационно поисковые системы. Умение правильно работать с ними, знание основных понятий и принципов работы смогут помочь начинающим пользователям научиться быстро и оперативно искать различную информацию в сети, получать нужные данные и быстро развивать свой интернет бизнес.

В данной статье я расскажу об истории создания систем поиска, принципах их работе и структуре. Помимо этого, остановлюсь на очень важных фишках, которые необходимо обязательно знать при работе с ИПС.

Итак, давайте более подробно изучим, что такое ИПС, какие компоненты входят в их состав.

Информационно – поисковые системы (ИПС) и их виды

Данное понятие возникло еще в конце 80 – х, начале 90 – х годов прошлого века. Именно тогда и возникли их первые прототипы, как в России, так и за рубежом. Согласно определению – это система, которая позволяет искать, обрабатывать, отбирать требуемые данные запроса в своей особой базе, где находятся описания различных источников информации, а также правила пользования ими.

Основной ее задачей является поиск нужной пользователю информации. Для того, чтобы он был более эффективным, используется понятие релевантности, то есть то, насколько сами результаты поиска точно подходят тому или иному запросу.

К основным типам ИПС относятся следующие понятия:

Индексация каталога может производиться, как вручную, так и автоматически с обновлением индекса. В свою очередь сам результат работы системы включает в себя особый список. В него входят гиперссылка на требуемые ресурсы и описание того или иного документа в интернете.

Из наиболее популярных каталогов можно выделить: Yahoo , Magellan (зарубежные) и Weblist , Улитка и @ Rus из отечественных.


К наиболее распространенным зарубежным ИПС относят – Google, Altavista, Excite. Русские – «Яндекс» и «Рамблер».

  • В мире существует огромное количество различных видов ИПС, которые содержат множество источников информации. Разумеется, что даже наличие самого современного и мощного сервера не может удовлетворить запросы миллионов пользователей. Именно поэтому, появились специальные метапоисковые системы. Они могут одновременно пересылать запросы пользователей различным поисковым серверам, а на основе своего обобщения имеют возможность предоставить пользователю документ, содержащий ссылки на требуемый ресурс. К их числу можно отнести – MetaCrawler или SavvySearch.

История создания ИПС

Самые первые ИПС появились в середине 90 – х годов 20 века. Они весьма напоминали обычные указатели, которые находятся в любых книгах, некие справочники. В их базе данных содержались специальные ключевики (слова), которые различными способами собирались с многочисленных сайтов. Так, как интернет – технологии были не совершенными, то и сам поиск выполнялся только по ключевым словам.

Значительно позднее был разработан специальный полнотекстовый поиск, облегчающий нахождение необходимой пользователю информации. Система производила фиксацию ключевых слов. Благодаря ей, пользователи могли производить нужные запросы по тем или иным словам и различным словосочетаниям.

Одной из первых, была «Wandex». Ее разработкой занимался очень известный программист Мэтью Греэм в 1993 году. Также, в этом же году возникла и новая «поисковка» «Aliweb» (кстати, и по сей день успешно работает). Однако все они имели достаточно сложную структуру и не обладали современными технологиями.

Одной из наиболее удачных явилась «WebCrawler», которая впервые была запущена в 1994 году. Отличительной особенностью и главным преимуществом, выгодно выделяющим ее среди других систем поиска, явилось то, что она могла находить любые ключевики на той или иной странице. После этого, это стало своего рода эталоном и для всех остальным ИПС, которые разрабатывались позднее.

Значительно позже возникли и другие поисковики, которые иногда конкурировали между собой. Это были – «Excite», «AltaVista», «InfoSeek», «Inktomi» и многие другие. Начиная с 96 года, российские пользователи сети начали работать с «Рамблером» и «Апортом». Но, настоящим триумфом для российского интернета, стал созданный в 1997 году «Яндекс».

Этот российский аналог «Google» стал настоящей гордостью российских программистов. Сегодня, он уверенно теснит конкурента в рунете и также является одним из лидеров по поисковым запросам среди ИПС в России.

На сегодняшний день, имеются многочисленные специальные «поисковики», которые созданы для решения определенных задач. Так, например, информационно – поисковая система «Патрон», разработана для того, чтобы хранить и искать данные по патронам для различного оружия и сейчас применяется, как в органах Министерства Внутренних Дел и спецслужб, так и для охотников – профессионалов и любителей.

Имеются и другие, разработанные для нотариусов, врачей, инженеров, военных, автолюбителей и т д

Как работает ИПС

Работа информационно – поисковой системы является очень сложной. Однако при желании можно разобраться в ее структуре. Первое, что необходимо отметить, что существует особая программа – она называется поисковым роботом (пауком). Данная программа систематически мониторит различные страницы и индексирует их.

Веб сервер создает запрос пользователя на получение той или иной информации, а затем предоставляет данный запрос машине поиска. Поисковик исследует требуемую базу данных, потом составляет полный список страниц, а затем передает веб-серверу. Он в свою очередь окончательно формирует все результаты запроса в «читаемый» вид, затем передает их на «комп» пользователя.

ИПС предназначена для следующих целей:

  • Хранить значительные объемы данных;
  • Производить оперативный поиск нужной информации;
  • Добавлять, а также удалять различные данные;
  • Выводить информацию в простом и удобном виде.

Существуют несколько основных типов ИПС:

  • Автоматизированные
  • Библиографические
  • Диалоговые
  • Документальные

Какие поисковые системы наиболее популярны сегодня?

На первом месте, без всякого сомнения, находиться неотъемлемый лидер – «Google». На сегодняшний день, к нему адресуется около 80 процентов различных мировых запросов по самым различным сферам. Что касается второго места, то его, также заслуженно, занимает американский «eBay».

На третьем месте, наш, отечественный, российский «Яндекс». На четвертом – «Yahoo» и на пятом – MSN. Еще одним отечественным браузером, но занимающим только 10 место в рейтинге Европы – это российский «Rambler».

Google

Этот поисковик знают огромное количество пользователей. На сегодняшний день это первая по популярности система в мире! Ежемесячно она обрабатывает более 41 млрд запросов и проводит индексацию 25 миллиардов страниц.

Что касается истории создания компании «Google», то еще в 1996 году, пара студентов университета Стэнфорда – Ларри Пейдж и Сергей Брин разработали браузер, созданный на новых методах поиска. Назвали они ее просто и лаконично, как собственно и дизайн поисковой системы «Google». Собственно название google – это искаженный googol (число десять в сотой степени).

В основе нее специальный поисковый робот, который называется «Googlebot». Он производит сканирование страниц и их индексацию. В качестве алгоритма авторитетности, эта ПС . Собственно именно он обеспечивает то, как будут выдаваться страницы посетителю в поисковых результатах.

Одним из первых, эта фирма разработала и на различных языках, который значительно облегчает введение данных в систему. Ну, и наконец, именно и послужил основой для слова «гуглить», которое все чаще встречается в сленге молодых тинейджеров.

«Yahoo » – вторая по популярности в США. Ее организовали в 1994 году два аспиранта Стэнфорда – Дэвид Фило и Джерри Янг. В конце 90 –х ими был приобретен портал RocketMail и на основе него создан бесплатный почтовый сервер «Yahoo». Сегодня на ее серверах можно хранить любое количество писем. В 2010 году появляется и русскоязычный ресурс почты – Yahoo! Почта.

Яндекс

Одним из лучших российских поисковиков, вне всякого сомнения, является «Яндекс». На сегодняшний день он стоит на четвертом месте по общему количеству запросов. В то же самое время, по популярности «Яндекс» занимает сегодня первое место в Российской Федерации. Общее количество произведенных запросов превышает 250 миллионов каждый день

Он был представлен в сентябре 1997 года, а уже в мае 2011, произведя размещение своих акций на IPO, эта фирма смогла заработать наибольшее количество акций среди других интернет – компаний.

Сегодня, «Yandex» имеет 50 сервисов, из которых некоторые уникальные – Яндекс.Поиск, Яндекс.Карты, Яндекс.Маркет. Помимо этого, российских пользователей очень интересуют такие сервисы, как «Поиск по блогам», «Яндекс Пробки». Основные запросы для пользователей в основном из следующих стран ближнего зарубежья: Россия, Белоруссия, Турция и Казахстан.

Исторически фирму основал бизнесмен – программист Аркадий Волож в 1989 году. Само название компании было придумано Ильей Сегаловичем, директором «Яндекса». Благодаря сотрудничеству с институтом проблем передачи информации был создан справочный словарь с поиском.

В отличие от других браузеров, учитывает и морфологию русского языка. Таким образом, сама система предназначена именно для работы в русскоязычном сегменте интернета.

Начиная с 2010 года, помимо браузера «Yandex.ru» появился еще один поисковик «Yandex.com». Данный интернет – ресурс используется для поиска по зарубежным порталам.

Поисковая система « Ebay »

Ebay представляет собой интернет – компанию из США, которая специализируется на проведении интернет – аукционов. Она производит управление портала eBay.com, а также версиями в других странах мира. Помимо этого, в собственности фирмы есть еще одна eBay Enterprise.

Основателем фирмы является американский программист Пьер Омидьяр, который в середине 90 – х годов разработал интернет – аукцион для своего личного портала. В то же время, eBay – это своего рода посредник при купле продаже. Чтобы использовать его продавцы вносят определенный взнос, а покупатели получают возможность бесплатного использования сайта.

Общие принципы его работы следующие:

  • В основном все люди добропорядочны
  • Каждый может внести свой вклад
  • В открытом общении люди проявляют свои лучшие качества

Уже в 1995 году на тысячах онлайн аукционов продавались миллионы различных предметов. Сегодня, это мощная платформа для купли продажи, как физлицами, так и юрлицами.

С 2010 года возникла и русскоязычная версия популярного ресурса и стала называться «Международный торговый центр eBay». Оплата на аукционе производится через платежную систему «PayPal».

Для того, чтобы продать предметы на данном портале необходимо написать сколько он стоит, его стартовая цена, когда начнутся торги, а также сколько будут длиться торги. Как и в обычном аукционе, выбранный товар получает заплативший самую высокую цену.

Из плюсов подобного аукциона стоит отметить то, что продавец и покупатель могут находиться в любом месте земного шара, а наличие локальных филиалов и временных рамок предоставляют возможность участвовать в аукционах огромному количеству продавцов и покупателей.

Данная поисковая система является ведущим интернет – браузером, разработанным компанией «Microsoft». Он появился одновременно с выпуском первой операционной системы Windows 95. Далее этим названием стал пользоваться и сервис электронной почты Hotmail, а также различные веб-узлы Майкрософт. В начале 2002 года он являлся одним из самых крупных интернет – провайдеров в США и имел 9 миллионов подписчиков.

Поисковая система Rambler

Вторым крупным российским поисковиком, является интернет – портал «Rambler». По своей сути, вместе с «Яндекс» он является родоначальником рунета, а также главным игроком на рынке медиа услуг.

Основателем его является Сергей Лысаков, который в 1994 году разработала поисковую систему, а в 1996 году был зарегистрирован и домен www.rambler.ru. Начиная с 2012 года, «Рамблер» стал работать, как новостной портал.

Сегодня он имеет 11 место по популярности среди других сайтов РФ. Также, был разработан и специальный классификатор Rambler Top-100. По своей сути он был первый и в России. Сегодня – это удобный каталог объектов недвижимости «Rambler – недвижимость».

Поисковик mail

Одной из самых крупных почтовых служб явилась, созданная в 1998 году, Mail.ru. Сегодня она представляет собой службу электронной почты, каталог интернет – ресурсов и информационные разделы. Помимо очень удобной почты, она имеет ряд специальных проектов, которые весьма популярны и нужны подписчикам: «Авто Mail.ru», Афиша «Mail.ru», «Дети mail.ru», «Здоровье mail.ru», «Леди mail.ru», «Новости mail.ru» и «Недвижимость mail.ru».

Для любителей спорта и Hi-Tech есть соответствующие рубрики.

На этом я завершаю свой материал. Если вам нравилось, то, пожалуйста, подписывайтесь на мой блог и приглашайте своих родных, друзей и знакомых.

(Пока оценок нет)

Прочитано: 469 раз

В данной статье я хотел бы рассмотреть различные техники поиска информации о VoIP-устройствах в сети, а затем продемонстрировать несколько атак на VoIP.

Введение

В последние несколько лет наблюдались высокие темпы внедрения IP-телефонии (VoIP). Большинство организаций, внедривших VoIP, либо игнорируют проблемы безопасности VoIP и ее реализации, либо попросту не знают о них. Как и любая другая сеть, сеть VoIP чувствительна к неправильной эксплуатации. В данной статье я хотел бы рассмотреть различные техники поиска информации о VoIP-устройствах в сети, а затем продемонстрировать несколько атак на VoIP. Я сознательно не стал спускаться до деталей уровня протокола, поскольку данная статья предназначена для пентестеров, которые хотят для начала попробовать основные приемы. Однако я настоятельно рекомендую изучить протоколы, используемые в VoIP-сетях.

Возможные атаки на VoIP

  • Отказ в обслуживании (DoS)
  • Похищение регистрационных данных и манипуляция ими
  • Атаки на систему аутентификации
  • Подмена (спуфинг) Caller ID
  • Атаки типа "Человек посередине"
  • "Шаманство над VLAN-ами" (Vlan hopping)
  • Пассивное и активное прослушивание
  • Спам через интернет-телефонию (SPIT)
  • VoIP фишинг (Vishing)

Конфигурация лаборатории для тестирования VoIP

Чтобы продемонстрировать проблемы безопасности VoIP в рамках данной статьи, я использовал следующую конфигурацию лаборатории:

  • Trixbox i (192.168.1.6) - IP-PBX сервер с открытым исходным кодом
  • Backtrack 4 R2 (192.168.1.4) - ОС на машине атакующего
  • ZoIPer ii (192.168.1.3) - программный телефон для Windows (пользователь A - жертва)
  • Linphone iii (192.168.1.8) - программный телефон для Windows (пользователь B - жертва)

Конфигурация нашей лаборатории

Рисунок 1

Рассмотрим схему лаборатории, представленную выше. Это - типичная конфигурация VoIP-сети небольшой организации с маршрутизатором, который выделяет IP-адреса устройствам, IP-PBX системе и пользователям. Если пользователь A данной сети захочет связаться с B , произойдет следующее:

  1. Звонок A направляется на IP-PBX сервер для аутентификации пользователя.
  2. После успешной аутентификации A IP-PBX сервер проверяет присутствие экстеншена (внутреннего номера) пользователя B . Если экстеншен присутствует, звонок перенаправляется B .
  3. На основании ответа B (например, прием звонка, сброс и т. п.) IP-PBX сервер отвечает пользователю A .
  4. Если все в порядке, A начинает общение с B .

Теперь, когда у нас есть ясная картина взаимодействия, давайте перейдем к развлекательной части - атакам на VoIP.

Поиск VoIP устройств

Поиск устройств (enumerating) - лежит в основе каждой успешной атаки/пентеста, поскольку он обеспечивает атакующего как необходимыми подробностями, так и общим представлением о конфигурации сети. VoIP - не исключение. В VoIP-сети нам, как атакующим, будет полезна информация о VoIP-шлюзах/серверах, IP-PBX системах, клиентских программных и VoIP-телефонах и номерах пользователей (экстеншенах). Давайте посмотрим на некоторые широко используемые инструменты для поиска устройств и создания отпечатков (fingerprints). Для упрощения демонстрации предположим, что нам уже известны IP-адреса устройств.

Smap

Smap iv сканирует отдельный IP-адрес или подсеть на предмет включенных SIP-устройств. Давайте используем smap против IP-PBX сервера. Рисунок 2 показывает, что мы смогли найти сервер и получить информацию о его User-Agent.

Рисунок 2

Svmap

Svmap - другой мощный сканер из набора инструментов sipvicious v . Данный инструмент позволяет выставить тип запроса, использующийся при поиске SIP-устройств. Тип запроса по умолчанию - OPTIONS. Давайте запустим сканер для пула из 20 адресов. Как видно, svmap может обнаруживать IP-адреса и информацию о User-Agent.

Рисунок 3

Swar

При поиске VoIP-устройств для определения действующих SIP-экстеншенов может помочь поиск по номерам пользователей. Svwar vi позволяет сканировать полный диапазон IP-адресов. Рисунок 4 показывает результат сканирования пользовательских номеров в диапазоне от 200 до 300. В результате получаем экстеншены пользователей, зарегистрированные на IP-PBX сервере.

Рисунок 4

Итак, мы рассмотрели процесс поиска VoIP-устройств и получили некоторые интересные детали конфигурации. Теперь давайте воспользуемся этой информацией для атаки на сеть, конфигурацию которой мы только что исследовали.

Атака на VoIP

Как уже обсуждалось, VoIP-сеть подвержена множеству угроз безопасности и атак. В данной статье мы рассмотрим три критические атаки на VoIP, которые могут быть направлены на нарушение целостности и конфиденциальности VoIP-инфраструктуры.

В дальнейших разделах продемонстрированы следующие атаки:

  1. Атака на VoIP-аутентификацию
  2. Прослушивание через ARP-спуфинг
  3. Имитация Caller ID

1. Атака на VoIP-аутентификацию

Когда новый или существующий VoIP-телефон подсоединяется к сети, он посылает на IP-PBX сервер запрос REGISTER для регистрации ассоциированного с телефоном идентификатора пользователя/экстеншена. Этот запрос на регистрацию содержит важную информацию (вроде информации о пользователе, данных аутентификации и т. п.) которая может представлять большой интерес для атакующего или пентестера. Рисунок 5 показывает перехваченный пакет запроса на аутентификацию по протоколу SIP. Перехваченный пакет содержит лакомую для атакующего информацию. Давайте используем данные пакета для атаки на аутентификацию.

Рисунок 5

Демонстрация атаки

Сценарий атаки

Рисунок 6

Шаг 1: Для упрощения демонстрации предположим, что у нас есть физический доступ к VoIP-сети. Теперь, используя инструменты и техники, описанные в предыдущих разделах статьи, мы проведем сканирование и поиск устройств, чтобы получить следующую информацию:

  • IP-адрес SIP-сервера
  • Существующие идентификаторы и экстеншены пользователей

Шаг 2: Давайте перехватим несколько запросов на регистрацию с помощью wireshark vii . Мы сохраним их в файле с именем auth.pcap. Рисунок 7 показывает файл wireshark с результатами перехвата (auth.pcap).

Рисунок 7

Шаг 3:

Теперь мы используем набор инструментов sipcrack viii . Набор входит в состав Backtrack и находится в директории /pentest/VoIP. Рисунок 8 показывает инструменты из набора sipcrack.

Рисунок 8

Шаг 4: Используя sipdump, давайте выгрузим данные аутентификации в файл с именем auth.txt. Рисунок 9 показывает файл захвата wireshark, содержащий аутентификационные данные пользователя 200.

Рисунок 9

Шаг 5: Эти данные аутентификации включают в себя идентификатор пользователя, SIP-экстеншен, хэш пароля (MD5) и IP-адрес жертвы. Теперь мы используем sipcrack, чтобы взломать хэши паролей с помощью атаки по заготовленному словарю. Рисунок 10 показывает, что в качестве словаря для взлома хэшей используется файл wordlist.txt. Мы сохраним результаты взлома в файле с именем auth.txt.

Рисунок 10

Шаг 6: Замечательно, теперь у нас есть пароли для экстеншенов! Мы можем использовать эту информацию, чтобы перерегистрироваться на IP-PBX сервере с нашего собственного SIP-телефона. Это позволит нам выполнять следующие действия:

  • Выдавать себя за легального пользователя и звонить другим абонентам
  • Прослушивать и манипулировать легальными звонками, исходящими и входящими на экстеншен жертвы (пользователя A в данном случае).

2. Прослушивание через Arp-спуфинг

Каждое сетевое устройство имеет уникальный MAC-адрес. Как и остальные сетевые устройства, VoIP телефоны уязвимы к спуфингу MAC/ARP. В данном разделе мы рассмотрим снифинг активных голосовых звонков путем прослушивания и записи действующих разговоров по VoIP.

Демонстрация атаки

Сценарий атаки

Рисунок 11

Шаг 1: В целях демонстрации, давайте предположим, что мы уже определили IP-адрес жертвы, используя ранее описанные техники. Далее, используя ucsniff ix как средство ARP-спуфинга, мы подменим MAC-адрес жертвы.

Шаг 2: Важно определить MAC-адрес цели, который требуется подменить. Хотя ранее упоминавшиеся инструменты были способны определять MAC-адрес автоматически, хорошей практикой будет определить MAC независимо, отдельным способом. Давайте используем для этого nmap x . Рисунок 12 показывает результаты сканирования IP-адреса жертвы и полученный в результате MAC-адрес.

Рисунок 12

Шаг 3: Теперь, когда у нас есть MAC-адрес жертвы, давайте используем ucsniff, чтобы подменить ее MAC. ucsniff поддерживает несколько режимов спуфинга (режим наблюдения, режим изучения и режим MiTM, т. е. «человек-посередине»). Давайте используем режим MiTM, указав IP-адрес жертвы и SIP-экстеншен в файле с именем targets.txt. Этот режим гарантирует, что прослушиваются только звонки (входящие и исходящие) жертвы (пользователь A ), не затрагивая другой трафик в сети. Рисунки 13 и 14 показывают, что ucsniff подменил MAC пользователя A (в ARP-таблице).

Рисунок 13

Рисунок 14

Шаг 4: Мы успешно подменили MAC-адрес жертвы и теперь готовы прослушивать входящие и исходящие звонки пользователя A по VoIP-телефону.

Шаг 5: Теперь, когда пользователь B звонит пользователю A и начинает диалог, ucsniff принимается записывать их беседу. Когда звонок завершается, ucsniff сохраняет записанную беседу целиком в wav-файл. Рисунок 15 показывает, что ucsniff обнаружил новый звонок с экстеншена 200 на экстеншен 202.

Рисунок 15

Шаг 6: Когда мы закончим, мы вызывем ucsniff снова с ключом -q, чтобы прекратить спуфинг MAC в системе и, таким образом, гарантировать, что после завершения атаки все встало на свои места.

Шаг 7: Сохраненный аудиофайл можно проиграть, используя любой известный медиаплеер вроде windows media player.

Спуфинг Caller ID

Это одна из простейших атак на VoIP-сети. Спуфинг ID абонента соответствует сценарию, когда неизвестный пользователь может выдать себя за легального пользователя VoIP-сети. Для реализации данной атаки может быть достаточно легких изменений в INVITE запросе. Существует множество способов формирования искаженных нужным образом SIP INVITE сообщений (с помощью scapy, SIPp и т. д.). Для демонстрации используем вспомогательный модуль sip_invite_spoof из фреймворка metasploit xi .

Сценарий атаки

Рисунок 16

Шаг 1: Давайте запустим metasploit и загрузим вспомогательный модуль voip/sip_invite_spoof.

Шаг 2: Далее, установим значение опции MSG в User B . Это даст нам возможность выдавать себя за пользователя B . Пропишем также IP-адрес пользователя A в опции RHOSTS. После настройки модуля, мы запускаем его. Рисунок 17 демонстрирует все настройки конфигурации.

Рисунок 17

Шаг 3: Вспомогательный модуль будет посылать измененные invite-запросы жертве (пользователю A ). Жертва будет получать звонки с моего VoIP телефона и отвечать на них, думая, что говорит с пользователем B . Рисунок 18 показывает VoIP-телефон жертвы (A ), которая получает звонок якобы от пользователя B (а на самом деле от меня).

Рисунок 18

Шаг 4: Теперь A считает, что поступил обычный звонок от B и начинает говорить с тем, кто представился как User B .

Заключение

Множество существующих угроз безопасности относится и к VoIP. Используя поиск устройств, можно получить критичную информацию, относящуюся к VoIP-сети, пользовательским идентификаторам/экстеншенам, типам телефонов и т. д. С помощью специальных инструментов, возможно проводить атаки на аутентификацию, похищать VoIP звонки, подслушивать, манипулировать звонками, рассылать VoIP-спам, проводить VoIP-фишинг и компрометацию IP-PBX сервера.

Я надеюсь, что данная статья была достаточно информативной, чтобы обратить внимание на проблемы безопасности VoIP. Я бы хотел попросить читателей отметить, что в данной статье не обсуждались все возможные инструменты и техники, использующиеся для поиска VoIP-устройств в сети и пентестинга.

Об авторе

Сохил Гарг - пентестер в PwC. Области его интересов включают разработку новых векторов атак и тестирование на проникновение в охраняемых средах. Он участвует в оценках защищенности различных приложений. Он докладывал о проблемах безопасности VoIP на конференциях CERT-In, которые посещали высокопоставленные правительственные чиновники и представители ведомств обороны. Недавно он обнаружил уязвимость в продукте крупной компании, дающую возможность повышения привилегий и прямого доступа к объекту.

Ссылки

i http://fonality.com/trixbox/
ii http://www.zoiper.com/
iii http://www.linphone.org/
iv http://www.wormulon.net/files/pub/smap-blackhat.tar.gz
v
vi http://code.google.com/p/sipvicious/
vii http://www.wireshark.org/
viii Этот инструмент можно найти в Backtrack 5 в каталоге /pentest/voip/sipcrack/
ix http://ucsniff.sourceforge.net/
x http://nmap.org/download.html
xi http://metasploit.com/download/

Рекомендуем почитать

Наверх