Поделиться Поделиться

Информационные потоки и фракталы

Применение теории фракталов при анализе информационных потоков позволяет с общей позиции взглянуть на закономерности, которые составляют основы информатики. Известно, что многие информационно-поисковые системы, включающие элементы кластерного анализа, позволяют автоматически обнаруживать новые классы и распределяют документы по этим классам. Соответственно, показано, что тематические информационные массивы представляют собой самоподобные развивающиеся структуры, однако их самоподобие справедливо лишь на статистическом уровне (например, распределение тематических кластеров документов по размерам).

Чем же определяется природа фрактальных свойств информационных потоков, порождаемых такими кластерными структурами? С одной стороны, параметрами ранговых распределений, а с другой стороны, механизмом развития информационных кластеров. Появление новых публикаций увеличивает размеры уже существующих кластеров и является причиной образования новых.

Фрактальные свойства характерны и для кластеров информационных веб-сайтов, на которых публикуются документы, соответствующие определенным тематикам.

Объемы сообщений в тематических информационных потоках образуют временные ряды, исследования которых завжди чаще используется теория фракталов.

Изучение характеристик временных рядов, порождаемых информационными потоками, сообщения которых отражают процессы, происходящие в реальном мире, дает возможность прогнозировать их динамику, выявлять скрытые корреляции, циклы и т.п.

В качестве иллюстраций приведены результаты реальных численных экспериментов. Как база для исследования фрактальных свойств рядов, отражающих интенсивность публикаций тематических информационных потоков, использовалась система контент-мониторинга новостей с вебсайтов сети Интернет InfoStream. Тематика исследуемого информационного потока определялась запросом к этой системе. Для иллюстрации был проведен анализ сообщений онлайновых СМИ - массива из 14069 документов, опубликованных с 1 января 2006 г. по 31 декабря 2007 г., по тематике компьютерной вирусологии, удовлетворяющих запросу:

"компьютерный вирус" OR "вирусная атака" OR (антивирус AND (программа OR утилита OR Windows OR Linux)), определенный суточной дискретностью (рис. 3.12.3).

Остановимся подробнее на некоторых методах анализа подобного типа временных рядов, порождаемых, в частности, информационными потоками.

← Предыдущая страница | Следующая страница →