<<
>>

Статистические экспертные системы для обработки данных экологического мониторинга

Особенности экспертных систем для обработки данных. Экс­пертной системой принято называть систему искусственного интел­лекта, которая создана для решения задач в конкретной проблемной области.

Структура экспертной системы определяется следующими модулями:

- временные базы данных, предназначенные для хранения ис­ходных и промежуточных данных текущей задачи;

- базы знаний, предназначенные для хранения долгосрочных сведений (фактов) и правил манипулирования данными;

- базы программ, реализующие последовательность правил для решения конкретной задачи на основе информации, хранящейся в ба­зах знаний и базах данных;

- компонент приобретения знаний, автоматизирующий процесс наполнения базы знаний;

- объяснительный компонент, формирующий пояснения о том, как система решала поставленную задачу.

Экспертные системы для обработки данных принято называть статистическими экспертными системами. Такие системы за счет дру­жеского пользовательского интерфейса должны иметь возможность помочь начинающему пользователю не только ввести результаты на­блюдений, но и уточнить задачу обработки и, при необходимости, спланировать эксперимент, позволяющий решить поставленную зада­чу. В базе знаний экспертной системы должно храниться достаточно большое и постоянно пополняемое количество сведений и правил для того, чтобы обеспечить возможность решения разнообразных задач обработки данных. Пояснения о том, как система решала поставлен­ную задачу, должны быть понятны специалисту в предметной области и содержать достаточно информации для анализа достоверности ре­зультатов обработки специалистом по математической статистике.

Разработка экспертных систем, предназначенных для обработки данных, связана с огромными трудностями. «Интеллектуализация» компьютерной обработки первичной информации об окружающей среде основывается, с одной стороны, на идеях и методах конкретной области знания, для которой создается система обработки данных.

С другой стороны, в компьютерной системе обработки используются разнообразные методы прикладной математики -- математической статистики, теории решения обратных задач и др. Поэтому при созда­нии экспертных систем обработки данных, с одной стороны, прихо­дится учитывать методические и метрологические особенности мето­дик выполнения измерения, а с другой -- априорные предположения и ограничения математических алгоритмов обработки, что предполагает участие профессионалов - специалистов в предметной области, мате­матиков, программистов и специалистов по разработке экспертных систем. Поэтому при наличии огромного количества систем общего назначения -- пакетов для статистической обработки данных, элек­тронных таблиц существует небольшое количество экспертных сис­тем, способных автоматически провести весь цикл анализа данных.

Методические и метрологические особенности обработки дан­ных контроля природной среды. Любая наблюдаемая (и ненаблюдае­мая) величина в природе зависит от множества других величин. Это очевидное утверждение может быть записано в виде уравнения

Y = f(X1, X2, ... Xn),

в которое в качестве «величин» Y, X1, X2, ... Xn можно подставить лю­бое число, зарегистрированное путем измерения или наблюдения не­которого параметра (признака, свойства, состояния и др.) изучаемого объекта природной среды. В простейшем случае «величина» может принимать только два значения -- 0 и 1. Например, дождь идет -- 1, дождь прекратился -- 0.

Основной особенностью данных об окружающей среде, опреде­ляющей требования к алгоритмам их обработки, является чрезвычай­ное разнообразие этих данных по источникам информации (наблюде­ние явлений, происходящих в природе; локальные и дистанционные измерения; официальная статистика). Эти данные имеют разную сте­пень достоверности и характеризуют окружающую среду с различных сторон. Наиболее значимая часть сведений об окружающий среде по­лучается с помощью измерений, которые составляют предмет изуче­ния таких дисциплин, как «экологический мониторинг», «метеороло­гия», «приборостроение».

Здесь невозможно рассказать обо всех про­блемах измерений при контроле окружающей среды. Назовем только те из них, которые важны для понимания особенностей обработки данных экологического мониторинга.

Методы экологического мониторинга подразделяются на ло­кальные и дистанционные. Для локальных (контактных) методов ха­рактерно то, что пробоотбор и измерения проводятся в точке контроля. Для дистанционных методов точка контроля может быть удалена на сотни километров от средства измерения.

Наиболее распространенными при контроле природной среды являются локальные методы мониторинга. В самом общем случае, при контроле загрязнения химическими веществами, такие методы вклю­чают: планирование эксперимента, пробоотбор, пробоподготовку, из­мерения состава пробы (физико-химические, медико-биологические и т. п.), обработку результатов измерений и, наконец, включение полу­ченных результатов в экоинформационные системы. Планирование эксперимента предполагает определение пространственной и времен­ной частоты измерений, требуемого количества проб. Пробоотбор и пробоподготовка имеют целью формирование представительной про­бы, по которой можно судить о степени содержания загрязняющих веществ в окружающей среде. Измерения состава и свойств пробы и последующая обработка результатов должны позволять расшифровы­вать состав пробы, определять содержание в пробе различных химиче­ских веществ и оценивать погрешность. При включении обработанных данных в экоинформационные системы необходимо преобразовать полученные результаты в форматы соответствующей географической информационной системы, учитывая при этом уже имеющиеся дан­ные, а также цели, с которыми проводился мониторинг окружающей среды.

Дистанционные методы зондирования включают измерения, выполненные с некоторого расстояния, например из космоса, с ис­пользованием различных летательных аппаратов, а также наземные измерения, проводимые с помощью локаторов различного типа и пас­сивных приборов. Как правило, дистанционные методы зондирования значительно превосходят локальные по полноте пространственной информации, но сложнее в обработке результатов.

Трудность обработ­ки результатов дистанционных методов обусловлена, главным обра­зом, двумя причинами: во-первых, сложностью перехода от измеряе­мых физических величин (типа альбедо подстилающей поверхности) к параметрам, характеризующим загрязнение окружающей среды, и, во- вторых, неоднозначностью влияния свойств атмосферы на результаты дистанционных измерений.

Зарегистрированное с помощью локальных или дистанционных измерений значение Xjj i-го параметра изучаемого объекта природной среды Хі можно представить в виде суммы Х^ = Хті+ Хя+ Хеі, где Хті - - истинное значение величины (математическое ожидание), Xsi -- по­грешность из-за изменения величины во времени, Хеі -- погрешность измерения. При обработке данных контроля природной среды необ­ходимо определить значение наблюдаемой величины и оценить со­ставляющие погрешности результата измерения. Погрешности резуль­тата измерений могут быть обусловлены самим процессом измерения, а также изменением физической величины во времени. Кроме того, если результат измерения относят не к той точке, в которой проводи­лись измерения, появляется еще одна пространственная составляющая погрешности. Эту погрешность можно считать пренебрежимо малой, если определение географических координат для результатов локаль­ных измерений осуществляется с помощью глобальных систем опре­деления координат GPS (Global Position Systems).

измерения она решается с помощью поверочных схем, передающих размер единицы физической величины от эталона к рабочему средству измерения. В этом случае погрешность результата измерения опреде­ляется результатами проверки. Сложнее определить составляющие погрешности результата измерения, особенно в тех случаях, когда ис­пользуются нестандартизованные средства измерений или методики выполнения измерения. В этом случае оценка составляющих погреш­ности предполагает проведение целого комплекса исследований, мето­дически основанного на идеях теоретической метрологии.

Основная сложность состоит в том, что на каждом этапе этих исследований де­лаются многочисленные допущения, например, о том, что химические реакции идут до конца и нет побочных химических реакций. Невы­полнение этих допущений может сильно влиять на величину состав­ляющих погрешности и на свойства обрабатываемых данных, которые в результате могут иметь законы распределения, отличные от нор­мального, сериальные корреляции и многие другие особенности, кото­рые существенно затрудняют проведение статистической обработки данных. Задачи обработки данных экологического мониторинга доста­точно многочисленны и сложны.

Математические особенности обработки данных контроля природной среды. Обработка данных контроля природной среды про­водится с помощью методов прикладной статистики -- дисперсионно­го анализа, регрессионного анализа и др. Неоднократно отмечалось, что формальное применение методов математической статистики без анализа пригодности для обработки конкретного типа данных приво­дит к неверным результатам. Важное значение для исследования при­родной среды имеет регрессионный анализ, изучающий зависимости между случайными величинами. Регрессионный анализ ведет свою историю с работ Гаусса и Лагранжа по обоснованию метода наимень­ших квадратов. В начале ХХ в. регрессионный анализ быстро разви­вался (работы К. Пирсона), основным его недостатком считались вы­числительные сложности при реализации. С появлением ЭВМ они пе­рестали быть препятствием, однако постепенно выяснилось, что в большинстве случаев регрессионная задача принадлежит к классу за­дач, которые математики называют некорректно поставленными. По­этому, как область чистой математики, регрессионный анализ перестал рассматриваться и теперь относят к прикладной статистике (анализу данных). Прикладная статистика нацелена на решение того же вопро­са, что и математическая статистика -- какие выводы можно сделать, обрабатывая ограниченную выборку. Но в этой теории за счет отказа от математической строгости удалось снять некоторые логические противоречия и уменьшить значение дополнительных априорных предположений.

Так появились корреляционный и кластерный анали­зы, алгоритмы непараметрической статистики, робастные методы. Важнейшим понятием в теории анализа данных является понятие «мо­дель».

Понятие «модель» стало центральным и для новой технологии научных исследований, которая называется вычислительным экспери­ментом и основывается на изучении математических моделей с помо­щью вычислительных средств. Обычно выделяют три основных типа вычислительного эксперимента: поисковый, оптимизационный и диаг­ностический. Поисковый вычислительный эксперимент используется при исследовании процессов переноса и основывается на решении прямых задач математической физики. Математическая модель в этом случае обычно представляется системой дифференциальных уравне­ний с частными производными. Для оптимизационного вычислитель­ного эксперимента характерно решение задачи оптимизации, т.е. опре­деление параметров модели, при которых достигается минимум или максимум некоторого функционала, например минимум ущерба окру­жающей среде. При этом используются самые разнообразные матема­тические модели -- от простых алгебраических уравнений до сложных систем интегродифференциальных уравнений. Диагностический вы­числительный эксперимент используется при обработке данных и ос­новывается на решении обратной задачи математической физики.

Любая задача определения параметров окружающей среды по величине сигнала какого-либо прибора относится к классу обратных задач и является некорректной из-за погрешностей обрабатываемой измерительной информации. В этом случае точное решение обратной задачи найти невозможно и задача обработки данных сводится к полу­чению устойчивого к малым изменениям исходных данных прибли­женного решения. Отнесение алгоритмов обработки измерительной информации к обратным задачам позволяет оценивать свойства таких алгоритмов, абстрагируясь от составляющих погрешности экспери­ментальных данных. Это открывает возможность для разработки про­цедур и критериев выбора наиболее эффективного алгоритма обработ­ки конкретного типа данных из некоторого множества рассматривае­мых алгоритмов. В то же время, поскольку для некорректных обрат­ных задач не может существовать заведомо устойчивого решения, во­прос об устойчивости к малым изменениям исходных данных прибли­женного решения становится центральным для оценки любого алго­ритма обработки.

Прогресс вычислительной техники и информационных техноло­гий порождает иллюзию, что, используя все более изощренные мате­матические методы, можно из одних и тех же данных извлекать до­полнительную или более достоверную информацию. Подобные ожи­дания не всегда оправдываются. Методы прикладной статистики, ис­пользуемые для обработки данных, основываются на различных апри­орных предположениях. Выполняются или нет априорные предполо­жения, используемые в конкретном методе обработки, зависит от структуры исходных данных. Алгоритм обработки, эффективный для одного типа данных, может приводить к невероятным результатам для данных другого типа. Специалисты по аналитической химии не всегда могут выбрать из большого количества потенциально пригодных ме­тодов обработки данных алгоритм, подходящий для конкретного типа данных. С другой стороны, специалисты по обработке данных из-за разнообразия типов данных не могут предложить универсальный ал­горитм обработки, одинаково пригодный для любого случая. Совре­менные ПК позволяют в приемлемые сроки обработать одни и те же данные разными способами. Проблема в том, что далеко не для всех случаев сформулированы критерии, которые позволяют выбрать алго­ритм, наиболее эффективный для обработки конкретного типа данных. Специалисты по обработке данных в таких случаях часто полагаются на интуицию, и многие этапы обработки остаются плохо формализо­ванными.

Решением вопроса является разработка баз знаний экспертных систем, в которых после анализа свойств введенных данных автомати­чески выбирается наиболее эффективный алгоритм их обработки. Та­кие базы знаний требуют формализации всех этапов обработки, начи­ная с предварительного (разведочного) анализа данных и до заключи­тельных критериев, позволяющих оценить оптимальность проведен­ной обработки. При этом требуется обоснование процедур, позволяю­щих выделить точностные характеристики алгоритма обработки дан­ных из погрешностей средств измерений и из неопределенностей, обу­словленных нестабильностью пробы. Кроме того, для разработки про­граммного обеспечения необходимо сформулировать принципы выбо­ра алгоритмов, т. е. правила, позволяющие отдать предпочтение одно­му алгоритму перед другими. После этого, изучая свойства данных и устойчивость выбранных алгоритмов к изменению этих свойств с по­мощью обоснованного комплекса процедур и правил, можно сформи­ровать критерии для передачи управления между программными мо­дулями экспертной системы, что является необходимым условием для ее создания.

<< | >>
Источник: Толмачева Н.И., Шкляева Л.С.. Космические методы экологического мониторинга: учеб. пособие / Н.И. Толмачева, Л.С. Шкляева; Перм. ун­т.- Пермь,2006.- 296 с.. 2006

Еще по теме Статистические экспертные системы для обработки данных экологического мониторинга:

  1. Список используемой литературы
  2. 5. Тесты
  3. § 1. Правовой мониторинг в нормотворческом процессе[51] (Арзамасов Ю. Г., Наконечный Я. Е.)
  4. § 2. Правовое прогнозирование в нормотворческой деятельности (Чернобель Г. Т., Иванюк О. А.)
  5. 16.1. Совершенствование методов экологического мониторинга
  6. ОГЛАВЛЕНИЕ
  7. Статистические экспертные системы для обработки данных экологического мониторинга
  8. БИБЛИОГРАФИЧЕСКИЙ СПИСОК
  9. БИБЛИОГРАФИЧЕСКИЙ СПИСОК
  10. ВВЕДЕНИЕ