Онтологии в DLP-системах третьего поколения

В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

Онтологии в DLP-системах третьего поколения

Наталья Ефременко
ведущий лингвист-аналитик компании Perimetrix

Информация является основным объектом информационной безопасности. Современные продукты класса DLP (Data Loss Prevention) предлагают большое многообразие методов и алгоритмов мониторинга ее использования и защиты. Например, контентная фильтрация данных по ключевым словам (сигнатурный метод), на основе лингвистического анализа текстового потока или с помощью цифровых отпечатков документов. Однако традиционные методы не всегда полностью оправдывают надежды. Следующим этапом развития технологий стало использование в DLP-системах категоризации информации на основе онтологий. Это позволяет повысить эффективность системы и более точно описать объект защиты, учитывая его взаимосвязи с другими объектами. Например, работа полицейского будет более результативной, если он будет знать не только цвет угнанной машины, но также номер, модель и место угона, информацию о владельце. Точно так же категоризация поможет DLP-системе более эффективно защищать конфиденциальность данных.

Что такое категоризация информации?

В общем смысле категоризация представляет собой процесс распределения различных данных по категориям (или тематическим группам) на основе смысловой близости. Категоризация является достаточно трудоемким видом деятельности, требующим много ресурсов и времени. Поэтому единственным выходом является ее автоматизация. При этом категоризация может быть управляемой (supervised) и автономной (unsupervised). В первом случае предполагается вмешательство внешних факторов. Например, результаты категоризации могут быть скорректированы в лучшую сторону человеком. Во втором случае процесс распределения информации по группам происходит независимо от какого-либо вмешательства. Решение о выборе типа категоризации принимается исходя из поставленных задач. Например, требуется сделать этот процесс полностью автономным и только пользоваться результатом категоризации или же важно учитывать мнение эксперта для большей надежности.

В крупных корпоративных системах предпочтение отдается именно автономной категоризации. Это вполне логично, поскольку специалист даже высокого класса не сможет выдержать большой нагрузки. Содержание же выделенного отдела не представляется оправданным ни с экономической точки зрения, ни с точки зрения надежности и безопасности. В этих условиях особое значение приобретает эффективность автоматической категоризации.

Методы категоризации

При категоризации используются различные методы и их модификации: статистический (подсчет весовых коэффициентов и выбор частотных ключевых слов); вероятностный (на основе теоремы Байеса); векторный (когда текст представляется в виде вектора признаков); лингвистический (лексические портреты документов); скрытое семантическое индексирование (latent semantic indexing); алгоритмы с использованием нейросетей и др. Категоризация также может производиться по шаблонам: на основе сравнения с цифровыми отпечатками документов-шаблонов, содержащих конфиденциальные сведения (digital fingerprints). При положительном результате (например, при достижении определенного порога похожести) новому документу присваивается категория, к которой относится документ-шаблон, или же просто проставляется метка, что документ конфиденциальный.

Среди требований, предъявляемых к методам, можно выделить масштабируемость (количество документов не должно существенно влиять на время работы алгоритма), универсальность (минимальное число настроек) и ряд других.

Каждый из перечисленных алгоритмов категоризации имеет определенную ценность, используется в различных системах. Например, довольно часто используются статистические, вероятностные методы, цифровые отпечатки документов и т.д. Однако для повышения эффективности категоризации необходимо использовать новые методы, одним из которых является категоризация на основе онтологий.

Что такое онтология

Под онтологией подразумевается формальное описание определенной предметной области с помощью понятий и их взаимоотношений.

С точки зрения структуры онтология включает в себя:

классы предметной области или областей (в данном случае классы и понятия синонимичны и употребляются для обозначения общих вещей);
свойства понятий (или атрибуты, в некоторых источниках они называются ролями);
экземпляры (примеры конкретных вещей);
отношения;
ограничения и правила.

Процесс создания онтологии разбивается на несколько этапов:

выделение классов, то есть тех понятий, которые отражают сущность предметной области (угрозы, средства защиты и т.д.);
выделение наиболее общих классов, которые включает в себя другие, более частные случаи и т.д. (например, угрозы бывают внутренние и внешние);
задание свойств классов и определение границ допустимых значений (намерение пользователя: преднамеренное действие, действие, совершенное по неосторожности);
указание конкретных экземпляров (примеров) для классов (DOS-атака).

При разработке онтологии необходимо понимать, что любая созданная онтология не должна претендовать на единственно правильный вариант описания конкретной предметной области. Для одной и той же предметной области может существовать несколько онтологий, и все они будут правильными в зависимости от поставленных задач. Относительно DLP-систем влияющими факторами могут быть: объем информационного потока компании, требования заказчика к глубине детализации описания, масштаб деятельности компании. В специализированной организации количество предметных областей не столь велико по сравнению с компанией широкого профиля деятельности (вендор CRM-решений vs системный интегратор).

Поскольку окружающая действительность постоянно меняется, то онтологии должны постоянно корректироваться и редактироваться для получения адекватных результатов от их применения.

Категоризация на основе онтологий

Изначально идея использования онтологий определенных предметных областей была реализована в экспертных системах для получения ответов на запросы от пользователей.

В последнее время с увеличением объемов информации онтологии стали применяться в поисковых системах помимо традиционных методов поиска по ключевым словам. Это является основой для создания семантического веба (Semantic Web), где выполняется интеллектуальный поиск по базам знаний. Например, задав вопрос: "В каком году появилась первая операционная система?", можно получить конкретный ответ и список документов, в которых можно найти подробное описание.

Одним из перспективных направлений использования онтологий является защита конфиденциальности данных. Очевидно, что от правильности категоризации зависит эффективность DLP-системы. Онтологии дают возможность описывать те сведения, которые необходимо защитить, и на их основе категоризировать документы.

Онтологии уже нашли практическое применение в продуктах, представленных сегодня на рынке ИБ. Речь, в частности, идет о решениях класса ИАС РСКД (информационно-аналитические системы режима секретности конфиденциальных данных).

Общая схема работы категоризатора представлена на рис. 2. Поток информации, циркулирующей в пределах организации, направляется на категори-затор, на выходе которого информация распределяется по категориям на основе онтологии. Отнесение документа к конкретной категории происходит в зависимости от присутствия в нем определенных признаков, выводимых из онтологии. Например, категории "Производственный процесс" может соответствовать онтология, описывающая производственную сферу деятельности.

К преимуществам данного метода относится возможность более тонко настраивать работу DLP-системы, учитывая все нюансы предметной области, интересующей заказчика. В онтологии можно отражать только те связи и отношения понятий, которые играют ключевую роль для деятельности компании. И, как следствие, будут категоризироваться соответствующие документы. Например, цепочка "организационные меры - правила реагирования на инциденты" в совокупности с "инцидент - инсайд" будет иметь больший приоритет и важность для анализа, чем "организационные меры - политика безопасности

- общие сведения". Важной характеристикой категоризации на основе онтологий является то, что при определенных затратах ресурсов на создание онтологий скорость анализа не уступает быстродействию других методов. В некоторых случаях даже превосходит на 10-20%.

Если сравнивать с результатами, полученными при использовании других методов, то точность категоризации на основе онтологий примерно на 10-15% выше. С одной стороны, может показаться, что улучшение незначительное. Но для контроля и мониторинга действий над информацией даже такие изменения в показателях имеют определенное значение. Значит, обеспечивается более надежная защита данных.

С развитием общества меняется система материальных ценностей человека. Сегодня помимо традиционных ценностей особую значимость приобрела информация. Являясь по своей природе нематериальным объектом, она может представлять определенную ценность. Поэтому каждая организация стремится найти методы защиты информации, потеря или разглашение которой может причинить значительный финансовый или имиджевый ущерб.

Заключение

В мире, где немаловажную роль играет информация, компании стремятся обеспечить конфиденциальность своих данных различными методами, в том числе и с помощью DLP-систем. к которым предъявляют довольно высокие требования. Чтобы им соответствовать, необходимо применять технологии нового поколения. К их числу относится категоризация на основе онтологий. Онтологии позволяют дать достаточно полное описание объекта защиты - информации. Однако данное описание не является статичным или окончательным. Каждая онтология предполагает свое дальнейшее развитиесвязанное с появлением новой информации.

Опубликовано: Журнал "Information Security/ Информационная безопасность" #4, 2009

Онтологии в DLP-системах третьего поколения