Быстрый поиск

Дипломная работа: Технология извлечения знаний из нейронных сетей: апробация, проектирование ПО, использование в психолингвистике

3. В [78,79] на основе идей [76,77] предложен алгоритм TREPAN построения построения иерархии правил, причем число уровней иерархии может не совпадать с числом слое нейронов сети. При этом также используется обучающая выборка.

Наиболее недавняя работа [79] дает начало новому этапу развития методов извлечения знаний из нейросетей. Cуществует 2 основных подхода к извлечению знания из нейросети – это анализ топологии сети и анализ поведения сети в терминах отображения вход-выход и/или активации нейронов. Существующие методы интерпретации топологии нейросети "локальны" и не учитывают "распределенного" по нейросети знания об алгоритме решения задачи. Очень редко при извлечении правил удается выявить именно распределенные правила принятия решения. Второй же подход более интересен.

До [79] фактически единственной работой этого подхода была работа [53], в которой проводилось формирование границ решения (построение интервалов изменения входных переменных, внутри которых имелось отличие функциональной зависимости вход-выход от зависимостей в других интервалах) и определение значимости входных сигналов внутри каждого интервала с возможностью дальнейшего перехода от нейросети к структурно-функциональной модели, состоящей из набора условных правил, в зависимости от значений входных сигналов выбирающих ту или иную простую (по сравнению с исходной нейронной сетью) модель отображения "вход-выход".

В [79] вдобавок предложено использовать анализ активации нейронов сети; при этом желательно иметь пороговые нейроны, либо нейроны, чья активация на обучающей выборке подчиняется многомодальному закону распределения (для получения информации о состояниях нейрона можно использовать гистограмму его активации, кластерный анализ его выходных сигналов,..). Анализируя этот закон, для нейрона можно сформировать несколько границ его состояния (и затем семантически интерпретировать каждое состояние). Таким образом мы получаем знания о структуре внутренних сигналов сети [69-74,77,78]. Но такой анализ активаций тоже является локальной интерпретацией нейронов.

Также предложено для каждого из выделенных состояний нейронов проверять различные статистические гипотезы для групп примеров, формирующих именно это состояние. Причем гипотезы могут касаться как значений входных переменных в группе примеров, так и значений внутренних сигналов сети на этой группе примеров. Для нескольких групп примеров (каждая группа формирует свое состояние нейрона) проверяются гипотезы о равенстве или отличии матожиданий, равенстве или отличии значений сигналов,… Такая статистическая информация не извлекается ни из исходной таблицы данных, ни при анализе нейросети без одновременного анализа таблицы данных. При таком анализе возможно упрощение извлеченных из сети правил и параллельная или альтернативная запись всего набора правил или отдельных правил на другом "языке". Возможно рассмотрение вектора, составленного из выходных сигналов нейронов (например, некоторого слоя) сети, и применение кластерного анализа для набора полученных по выборке таких векторов. Для каждого кластера опять проверяются статгипотезы. Тут может получаться меньше кластеров, чем число сочетаний состояний этих нейронов.

4.2. Методы извлечения знаний: требования к методам

Обзорам методов извлечения знаний и требованиям к ним, анализу текущего состояния проблемы посвящены работы [80,81-83]. В этих работах рассматриваются общие вопросы применимости нейросетей для анализа данных и извлечения знаний, преимущества, получаемые от применения нейросетей, методы извлечения знаний из нейросетей и встраивания знаний в нейросети, методы обучения/формирования сети, содержащей явные правила.

В [80] требования, сформированные в [84] для задач машинного обучения в теории классического искусственного интеллекта ("Результатом компьютерного индуктивного вывода должны быть символьные описания заданных сущностей, семантически и структурно похожие на те, которые формирует человек-эксперт на основе обзора тех же сущностей. Компоненты этих описаний должны формировать самодостаточные информационные сущности, прямо интерпретируемые на естественном языке, и единоднообразно определять как количественные, так и качественные понятия" – [84]), переносятся и на алгоритмы и методы извлечения знаний из нейросетей. Поясняется, почему такое требование является важным:

- С точки зрения проверки полученных правил – человек должен понимать полученные правила, чтобы им доверять.

- С точки зрения получения новых знаний – человек должен иметь возможность понять и проинтерпретировать порожденное системой знание.

- С точки зрения объяснения – важно не просто ответить на введенный запрос, но и объяснить промежуточные рассуждения, приведшие к получению именно этого ответа.

- С точки зрения дальнейшего уточнения и обобщения знаний – представление входной информации оказывает существенное влияние на получаемый набор правил и возможность его обобщения, поэтому анализ извлеченного набора правил может привести к появлению более корректной кодировки входной информации или к укрупнению/огрублению входных сущностей без потери качества решения задачи.

- С точки зрения уточнения знаний как человеком, так и с помощью автоматических процедур – требуется манипулирование атомарными, самодостаточными сущностями.

Знания в нейронной сети являются процедурными, поэтому их символьное декларативное представление дает как дополнительное знание, так и является более открытым для дополнения, дает возможность использования отдельных фрагментов полученного знания.

Также показательна недавняя работа [83], рассматривающая результаты десятилетия исследований методик и алгоритмов извлечения знаний из нейронных сетей. В этой работе говорится, что технология извлечения знаний еще не стала широко применимой на практике и не дала таких результатов, которые могла бы дать. Все дело в том, что наиболее точные извлекаемые модели и знания оказываются слишком сложными и непонятными/неявными. Там же вводится дополнительный набор критериев для методов извлечения знаний:

1. Явность/понятность извлеченного набора правил для человека.

2. Точность описания исходной нейросети, из которой знания были извлечены.

3. Точность решения задачи.

4. Масштабируемость – применимость метода для сетей с большим числом нейронов и/или входных сигналов и/или большой обучающей выборкой.

5. Общность – отсутствие жестких ограничений на архитектуры сети, алгоритмы обучения, решаемые сетью задачи.

Критерии 2,3 необходимы потому, что еще с работы [85] 1991г процесс извлечения знаний из нейронной сети строился в подавляющем большинстве случаев итеративным образом, когда из нейросети извлекается и записывается в символьной форме знание о проблемной области, а затем полученный алгоритм корректируется экспертом и снова встраивается в нейросеть для коррекции. Такой процесс извлечения и встраивания знаний продолжается до тех пор, пока не будет получен алгоритм, адекватный экспертному знанию о проблемной области. Итерационный процесс, фактически, требуется из-за двух обстоятельств, существенных на время работы [85] и так и не обойденных до сих пор:

- Извлечение знаний производится из неупрощенной сети и использует только наибольшие по модулю веса синапсов, что приводит к потере тех знаний, которые распределены по большому числу синапсов с малыми весами, и поэтому часто дает малую точность извлеченного набора правил.

- нет такой процедуры извлечения/встраивания знаний, которая после встраивания извлеченных знаний давала бы сеть, аналогичную исходной. Требования пользователей к виду извлекаемых знаний и форме их записи могут приводить к очень большим отличиям извлеченных знаний от знаний, содержащихся в исходной сети.

В [62] под извлечением знаний из данных понимается наиболее компактное описание данных и правил решения задачи, обеспечивающее достаточную точность решения. Извлечение логических правил из данных может выполняться различными инструментами – статистикой, распознаванием образов, методами автоматического обучения, нейросетевыми алгоритмами и их комбинациями. Подчеркивается, что при извлечении знаний недостаточно просто извлечь знания из нейросети и представить их в некотором требуемом виде, но необходимо оптимизировать их структуру и постоянно иметь в виду аспекты дальнейшего их применения. Фактически же исследователи делают упор только на этап извлечения знаний.

4.3. Методология извлечения явных знаний, использующая технологию комплексного упрощения нейросети

Понятности извлекаемых знаний для пользователя сложно или невозможно достичь автоматизированной процедурой извлечения знаний. Программная система не имеет никаких экспертных знаний о проблемной области и не может оценить ни уровня правдоподобия, ни уровня понятности предлагаемого извлеченного знания для конкретного человека, поэтому задача интерпретации знаний так и остается прерогативой пользователя.

Остальные же критерии, описывающие требования к точности и форме рассуждений (знаний), достижимы автоматизированными методами. Правда, сначала пользователь должен уточнить эти требования для конкретной задачи.

Требования точности описания исходной нейронной сети и точности решения задачи делают невозможным использование для извлечения знаний тех рассмотренных выше методов, которые извлекают описание, соответствующее только наиболее сильно активирующимся нейронам и/или синапсам с наибольшими весами – при использовании таких методов может происходить потеря точности. С другой стороны, избыточность структуры сети будет приводить к избыточности набора правил, если при извлечении правил учитывать абсолютно все элементы сети. Эти два фактора приводят к следующему утверждению: для получения простой структуры знаний необходимо предварительное упрощение нейросети с целью оставить в нейросети только действительно необходимые для решения задачи элементы и сигналы, а затем использование такого метода извлечения знаний, который формирует знания по всем элементам и сигналам, оставшимся у сети после упрощения.

Требование масштабируемости – применимости метода извлечения знаний для сетей больших размеров – во многих случаях не будет важным при правильном определении требований к точности решения задачи и корректной постановке задачи, поскольку упрощение сети даст для не слишком высоких требований как достаточно малое число элементов в сети, так и малое число входных сигналов по сравнению с первоначальным. Поскольку процесс интерпретации большого объема правил более длителен по сравнению со временем выполнения упрощения сети и дальнейшего процесса интерпретации гораздо меньшего набора правил, то требование масштабируемости становится некритическим при обязательном выполнении предварительного упрощения. Достигнутая к настоящему моменту производительность средств вычислительной техники и быстрота алгоритмов обучения и контрастирования сети делают затраты на проведение упрощения малыми по сравнению с затратами на анализ человеком интерпретацию системы правил.

Требование отсутствия ограничений на архитектуры сети приводит к требованию проведения извлечения знаний как поэлементного описания сети, когда вид сопоставленных с элементом продукционных правил не будет зависеть от места элемента в структуре сети. Этому требованию удовлетворяют методы, описывающие сеть понейронно, когда нейрону может соответствовать несколько правил и вид правил не зависит от места нейрона в структуре сети.

Представим сформированные требования к процессу извлечения знаний более формально:

1. Обязательное проведение упрощения сети перед извлечением знаний.

2. Формирование набора правил путем описания всего множества элементов и сигналов сети, без разделения элементов и сигналов на значимые и незначимые (незначимые должны полностью отсеяться при упрощении).

3. Формирование набора продукционных правил поэлементно. При этом заданный человеком вид результирующего представления правил не должен и не будет зависеть от места элемента в структуре сети.

4. Заданный человеком вид результирующих правил, предпочтения к особенностям, свойствам и структуре правил должны обязательно влиять на процесс проведения упрощения в п.1.

На основе этих требований разработан следующий процесс извлечения правил [22,23,58]. Правила извлекаются в ходе понейронного рассмотрения нейросети и для каждого нейрона возможно построение одного или нескольких правил. Пусть Y – выходной сигнал нейрона, Yi i-е дискретное значение выхода (в случае дискретнозначного выхода), X1,..,Xn – входные сигналы нейрона, xij – j-e дискретное значение i-го входа (в случае дискретнозначного входа), F(X1,..,Xn) нелинейная функция нейрона. Здесь имеется и может использоваться упрощающая операция над нелинейной функцией нейрона, после проведения которой нейрон с сигмоидной нелинейной функцией может становиться пороговым нейроном или нейроном с кусочно-линейной функцией. Возможны различные виды извлекаемых правил:

1. Если все входные сигналы нейрона дискретны, то независимо от вида нелинейной функции выходной его сигнал будет дискретнозначен. Поэтому для каждой возможной комбинации значений входов будет получено правило вида IF (X1=x1j AND X2=x2k AND … AND Xn=xnl) THEN Y=Yi.

После построения набора атомарных правил вида "если-то" в варианте 1 возможен переход от них к правиам вида MofN.Если же хотя бы один входной сигнал у нейрона непрерывен, то применимо нижеследующее:

2. Если нелинейная функция гладкая (например, сигмоидная), то строится зависимость вида Y= F(X1,..,Xn).

3. Если нелинейная функция пороговая, то выход дискретен и для каждого его дискретного значения можно определить условия, налагаемые на взвешенную сумму входных сигналов как IF A<(W1X1+W2X2+…+WnXn)<B THEN Y=Yi, где A,B – некоторые константы, Wj – вес синапса, на который поступает j-й сигнал. Неравенства могут быть нестрогими, а ограничения – односторонними. Если при некоторых комбинациях значений дискретных входов никакое изменение значений непрерывных входов не будет переводить выход в другое дискретное состояние, то для таких комбинаций строим условные правила из п.1 без учета значений непрерывных входов.

4. Если функция кусочно-линейна, то кусочно-постоянные участки будут описываться условными правилами (п.3), а кусочно-линейные – функциональными (п.2).

Видно, что требования пользователя к виду извлекаемых правил приводят к необходимости выполнения той или иной модификации нелинейной функции нейрона. Задаваемое ограничение на число сущностей (входных сигналов нейрона), учитываемых в левой части правила, приводит к необходимости проведения операции равномерного упрощения сети по входам нейронов, и.т.д. В случае, когда упрощение нейросети не выполнено или все же оставило некоторые избыточные элементы, возможно огрубление извлеченных из сети правил с одновременным сокращением их числа по сравнению с исходным числом правил. Критерием возможности проведения огрубления выступает точность решения задачи набором правил – если точность при огрублении не опускается ниже требуемой пользователем точности, то огрубление можно производить. Вот варианты огрубляющих операций:

1. В случае использования сигмоидной нелинейной функции можно даже при непрерывнозначных входных сигналах нейрона перейти к описанию активации нейрона в терминах высокой (+1 или иное значение в зависимости от конкретной нелинейной функции) или низкой (-1 или иное значение) активации. Для этого взвешенная сумма входных сигналов нейрона W1X1+W2X2+…+WnXn сравнивается со значением неоднородного входа нейрона W0 и при превышении значения активация нейрона считается положительной, а иначе отрицательной. Т.е. формируется единственное правило вида IF (W1X1+ +WnXn)>W0 THEN Y=Yвысокая ELSE Y=Yнизкая.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12