Читать онлайн «Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета»

Автор Свечников С.В.

С. В. Свечников Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета ● Аннотация Предложен подход для реализации высокорелевантного поиска и автоматической категоризации интернетресурсов. Рассматривается механизм индексации интернетресурсов, т. е. преобразования их в единый формат посредством выделения терминов и присвоения им весовых коэффициентов, что позво ляет достаточно быстро и эффективно оценить содержимое интернетресурса. Рассматривается задача, связанная с автома тической категоризацией интернетресурсов, обучением систе мы и отнесением текстовой информации к заранее определен ной категории за счет использования степени соответствия между категорией и интернетресурсом. * * * Экспоненциальный рост объема информации, содержащей ся в Интернете является причиной возрастающей трудности по иска необходимых документов и организации их в виде струк турированных по смыслу каталогов. Большое количество источ ников информации, резко возрастающий объем данных в Интернете и необходимость их быстрой обработки вызвали потребность в создании специализированных систем высокоре левантного поиска и автоматической категоризации ресурсов Интернета. В настоящее время потребность в системах высокорелевант ного поиска и автоматической категоризации, а вместе с ними и системах для управления доступом к интернетресурсам не вызывает сомнений. Открытое информационное пространство содержит большое количество ресурсов различного содержания.
Наряду с полезной информацией, Интернет содержит ресурсы, объективно опасные для нравственного здоровья общества, ока зывающие негативное воздействие в первую очередь на под растающее поколение. Российский сегмент сети — один из са мых быстроразвивающихся. Количество пользователей Интер 538 нета в России по различным данным составляет около 25 мил лионов человек, из них 2 миллиона дети [6]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бес контрольный доступ к сети Интернет представляет серьезную угрозу для детей. Также Интернет бесконтрольно используется в личных целях работниками, имеющими доступ к глобальной се ти, что снижает эффективность их работы и снижает произво дительность корпоративной сети [1]. При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей Интернета и юридически несостоятельны, по скольку противоречат естественным правам граждан на свобо ду воли, высказываний и волеизъявления. В связи с этим решение этой проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от не желательного контента, который пользователи могут использо вать по своей воле и по своему усмотрению [2]. Реализация такого инструмента тесно связана с тематической категориза цией интернетресурсов, которая имеет много важных и вост ребованных в современном мире применений.