Издательство «НАУЧНЫЕ ТЕХНОЛОГИИ»

МОСКВА, тел. +7(495)-142-86-81

Автоматизация поиска информации в сети интернет по заданной тематике

E-mail Печать

А.К. Гордеев,  (Студент, Финансовый университет при Правительстве РФ, Москва)

Ю.А. Сергеев,  (Студент, Финансовый университет при Правительстве РФ, Москва)

alt

Конференция 01
Секция - ИНТЕРНЕТ-ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ

 

«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ»:

Сборник статей V Международной научно-практической конференции студентов, аспирантов и молодых ученых.

Мы живем в век информационных технологий. Объемы информации, доступные в сети Интернет, скорость и количество участников информационного обмена растет с каждым годом. Чтобы эффективно использовать этот массив информации, необходимо обладать эффективными инструментами поиска и анализа информации.

Например:

  • служба безопасности предприятия решает вопросы кадровой безопасности, заключающиеся, в том числе, в сборе данных о сотрудниках предприятия. Такие же сведения о сотрудниках конкурентов могут оказаться очень полезной информацией;
  • маркетолог проводит маркетинговые исследования, собирает информацию о деятельности конкурентов и поведении потребителей, осуществляет мониторинг имиджа компании;
  • аналитик собирает информацию для анализа;
  • трейдер собирает новости о ситуации на рынке и в мире, систематизирует данные для анализа, оценивает настроение рынка, тенденции и прогнозы;
  • журналист настраивается на необходимые источники информации, автоматически собирает информацию для статей, фильтрует и рубрицирует найденную информацию.
  • менеджер по персоналу настраивается на необходимые кадровые агенства, специализированные порталы и форумы, автоматически собирает картотеку возможных кандидатур, извлекает и рубрицирует необходимые предприятию кандидатуры.

 

Поисковые системы отлично справляются с простыми однократными запросами. Однако если информационный поиск надо повторять постоянно или если предметная область сложна по структуре, то можно заметить, что:

  • популярные поисковые системы сети Интернет перегружают вас тысячами бесполезных ссылок.
  • поисковые системы не помнят, что вы уже видели, а что нет, и при следующем запросе принесут вам те же тысячи уже просмотренных ссылок.
  • поисковые системы не умеют правильно сортировать полученную информацию и раскладывать ее по нужным рубрикам.
  • Поисковые системы не всегда видят свежие тематические новости или события. Задержка в индексировании конкретного сообщения может доходить до двух недель.
  • поисковая система сети Интернет выполняет поиск по конкретному запросу, а значит, нагружает вас повторяющейся рутинной работой.

 

Для оптимизации и автоматизации информационного поиска мы начали разрабатывать свой программный продукт – автоматизированную поисковую систему Dinase. В отличие от популярных поисковых систем сети Интернет, Dinase требует ручной настройки модели предметной области в виде списка источников и правил рубрикации. Правила рубрикации закрепляются за «умными папками». Каждая «умная папка» «знает», что в ней должно находиться и следит за своим наполнением. Сбором информации занимается специализированный поисковый робот, который постоянно работает на сервере или периодически запускается на локальном компьютере.

Технология Dinase базируется на 7 шагах обработки информации:

По расписанию:

  • сбор информации со всех указанных источников специальным роботом-пауком,
  • разбор ресурсов до машиночитаемого состояния (парсинг),
  • выделение «полезной» информации
  • выбор новой информации,
  • сохранение информации в базе данных,
  • По запросу «умной папки»:
  • рубрицирование новой информации,
  • формирование новостной ленты Atom, понятной для многих почтовых клиентов.

 

Пример работы программы приведен на рисунке 1.

alt

Рисунок 1. Результат работы программы Dinase

Техническая информация о программе Dinase:

  • Лицензия: GPL
  • Состояние: indev
  • Язык программирования: python
  • Окружение: паук: GNU/Linux, клиент: любое
  • СУБД: mongodb
  • Похожие коммерческие программные продукты:
  • Avalanche – http://www.tora-centre.ru/avl3.htm
  • Продукты компании RCO – http://www.rco.ru/
  • Продукты компании Медиалогия – http://www.mlg.ru/
  • Продукт X-Files компании АйТеко – http://www.i-teco.ru/xfiles.html

 


© Г.О. Крылов,  Изд-во "Научные технологии", 2012.
 

Книжные Изданияbadge

badge
  • Совершенствование методики технико-тактических действий хоккеистов 11-12 лет: методические рекомендации
  • Цифровизация и интеграция технологий и управления – механизм повышения эффективности
  • Повышение эффективности производства на основе оптимизации планирования и внедрения новых технологий оценки качества продукции
  • Методические основы предпринимательства