скачать рефераты
  RSS    

Меню

Быстрый поиск

скачать рефераты

скачать рефератыРеферат: Требования к геоинформационным системам и содержанию баз данных

Байт – наименьшая адресуемая группа битов (8 битов).

Элемент данных – наименьшая единица поименованных данных, которая может состоять из любого количества битов или байтов. Элемент данных – это любая (одна) характеристика изучаемого объекта, в том числе и его координаты; элемент имеет имя (идентификатор).

Агрегат данных – поименованная совокупность элементов данных. Выделяются два типа агрегатов: вектор ~ одномерная упорядоченная совокупность элементов (например, название района работ, номер профиля, номер точки наблюдения образуют агрегат данных) и повторяющаяся группа – совокупность векторов, встречающихся несколько раз подряд, например, когда данные описываются таким образом, что сначала указываются номера профилей, а затем номера точек, т.е. повторяется пара: профиль – точка, профиль точка и т.д.

Запись данных ~ поименованная совокупность элементов или агрегатов данных. Совокупность элементов описывается так, как это представляется программисту, причем логическая запись может не совпадать с физической, поскольку логическая запись состоит из элементов, расположенных в других физических записях.

Элементы записи – это характеристики (признаки, координаты) одного объекта, в частности, одной точки наблюдения. Каждая запись описывается именем (идентификатором) и форматом хранения, определяющим способ упаковки элемента записи на ленту, диск, дискету. При чтении из базы данных программист может полностью прочитать логическую запись.

Файл поименованная совокупность всех экземпляров логических записей заданного типа. Если запись представляет описание различных характеристик объекта или точки наблюдения, то файл – это совокупность тех же характеристик по нескольким объектам или по профилю наблюдений, т.е. файл – это матрица – таблица исходных данных.

База данных (БД) – совокупность записей различного типа, содержащая перекрестные ссылки, или иначе – это совокупность экземпляров различных типов записей и отношений между записями, элементами, агрегатами. БД – это также совокупность матриц – таблиц (файлов) и программ, определяющих отношения между типами данных.

База данных, по другому распространенному в геофизике определению – это совокупность массивов данных на внешних носителях и программных средств доступа к ним, где под массивами подразумеваются и запись, и файлы. Действительно, геофизические, геохимические и геологические пакеты программ включают данные разных типов: полевые наблюдения, информацию об изучаемом объекте и системе наблюдений; промежуточные результаты обработки; параметры обработки; программно-сформированные изображения выводимых результатов и т.д.

Физическая организация БД, в отличие от логической, – это физическое представление данных и их расположение на запоминающих устройствах.

База данных организуется таким образом, что данные собираются однажды и централизованно хранятся так, чтобы они были доступны всем специалистам-программистам, желающим их использовать. Одно из важных свойств БД – независимость данных от особенностей прикладных программ, которые их используют. Это означает, что изменение значений данных или особенностей их хранения на физических носителях не требует изменения прикладных программ.

В понятие БД включается система управления базой данных (СУБД), предназначенная для выполнения операций по обработке данных в прикладных программах. СУБД просматривает описание физической организации БД и определяет, какую физическую запись (записи) требуется считать, при этом СУБД выдает операционной системе ЭВМ команду чтения требуемой записи.

Нередко понятия БД и СУБД объединяют в одно понятие банк данных.

Понятие базы данных неразрывно связано со структурой ее построения (выделяют иерархические, сетевые и реляционные БД), языком манипулирования данными и языком описания данных.

Язык описания данных (ЯОД) – средство объявления СУБД тех структур, которые будут использоваться при обработке. ЯОД включается в программное описание ЭВМ. ЯОД для логического описания должен идентифицировать типы данных (элемент, запись, файл), т.е. присваивать имя каждому типу данных.

Язык манипулирования данными (ЯМД) – это интерфейс (стыковка) между прикладной программой и СУБД. ЯМД включает ряд программ, осуществляющих открытие или закрытие файла, замену или удаление отдельных записей из файла (или самого файла), передачу в рабочую область программы содержимого указанного элемента данных и т.д.

Среди структур построения БД наиболее распространены в геологоразведке реляционные БД. Реляционные БД – это табличное представление данных, обычно в виде двумерных таблиц. Каждый элемент таблицы – это один элемент данных, повторения здесь отсутствуют. Все столбцы таблиц – однородные, т.е. элементы столбца имеют одинаковую природу (значения одного и того же поля, свойства, параметра и т.д.). Каждому столбцу присвоены имена. В таблице нет двух одинаковых строк, поскольку координаты точек наблюдения разные. В операциях с таблицей ее строки и столбцы могут рассматриваться в любом порядке, в любой последовательности. Все наиболее применяемые таблицы при, геолого-геофизических исследованиях, например, таблица петрофизических свойств горных пород, таблица описания физико-геологической модели объекта (месторождения) и т.д., удовлетворяют указанным свойствам. Подобные таблицы называются отношением, а база данных, построенная с помощью отношений называется реляционной. Таким образом, реляционная БД строится из плоских наборов элементов данных (рис. 2, а). В реляционных БД встречаются термины: домен (один столбец таблицы) и кортеж – таблица, определяющая взаимосвязь между элементами. данных. Иначе, кортеж – набор взаимосвязанных величин, а файл образуется из набора кортежей.

Основные преимущества реляционных БД: простота, гибкость, точность, связность, простота внедрения, независимость данных от прикладных программ, ясность.

Распространенными структурами БД в геологоразведке являются также иерархические или древовидные структуры (см. рис. 2, б). Дерево – это иерархия элементов, называемых узлами. На верхнем (первом) уровне иерархии находится один узел – корень. Каждый узел, кроме корня, связан с одним узлом на более верхнем уровне, называемом исходным узлом для данного узла. Ни один элемент не имеет более одного исходного. Каждый элемент может быть связан с одним или несколькими элементами на более низком уровне. Такие элементы называются порожденными, а элементы, не имеющие в конце ветви порожденных, называются листьями.

Используется термин иерархический файл, т.е. такой файл, в котором записи связаны в виде древовидной структуры. Иерархические структуры БД использованы в автоматизированной системе АСПО-8 и в концепции создания банка «Разведочная геофизика».

Редко используется так называемые сетевые структуры БД, приведенные на рис. 2, в.

В трех приведенных на рис. 2, в сетевых структурах первая (слева) имеет три уровня и для каждого узла – два исходных элемента, вторая (в середине) – четыре уровня, третья (справа) – пять уровней.

Сетевые структуры БД характерны для организации управлением геологоразведочным производством на уровне экспедиции и выше.

Организация данных в БД прежде всего должна правильно передавать их основное смысловое значение, или семантику, и позволять эффективно к ним обращаться. В обычной прикладной программе структура данных организуется таким образом, чтобы обеспечить удобный доступ к ним из данной программы.

Рисунок 2. Структуры данных:

а-реляционная, б-иерархическая, в-сетевая

БД содержит данные, которые используются множеством разнообразных программу, следовательно, при определении структуры БД нельзя ориентироваться на критерии, используемые при программировании конкретных функций. При обработке геолого-геофизических данных БД характеризуется большими и очень большими размерами выборок. Большим называется такое значение, которое превосходит количество данных, обрабатываемых одним человеком, даже если он имеет доступ к вычислительной системе. Фактическое количество изменяется от сложности данных и решаемых задач. Примером большой БД является система, содержащая сведения уже о 5000 образцах, рудных телах, месторождениях и т.д. Такая БД может, например, содержать 300 000 записей десятка или более типов. Три тысячи сейсмических лент со стоканальной записью каждая уже образуют большую БД.

Очень большая БД образуется, например, при сведении всех геолого-геофизических данных для одного миллионного листа.

Большие массивы геолого-геофизической информации требуют использования специальных систем для организации хранения и поиска данных. Такие системы называются информационно-поисковыми (ИПС). ИПС, по существу, представляют БД совместно с СУБД, осуществляющих быстрый поиск данных. Поиск данных обычно производится по определенному символу. В отличие от БД и СУБД, которые можно рассматривать раздельно, для ИПС характерна неразрывная связь функций БД и СУБД.

В сейсморазведке при создании автоматизированной системы обработки данных СЦС-3 широкое применение получила ИПС «ИНЕС». При обработке и интерпретации данных ГИС используется ИПС ГЕОКОМПАС, базирующаяся на СУБД КОМПАС.

2.2 Файловые базы данных

Вышеприведенные определения БД, основанные на концепциях CODASYL, а также иерархические и сетевые структуры БД сложно использовать при хранении, поиске и обработке массовых геолого-геофизических данных, что объясняется следующими обстоятельствами:

1) при многоэтапной и многоцелевой обработке данных трудно заранее определить связи между всеми типами геообъектов и соответствующими им типами записей. При решении разных геологических задач взаимосвязи между объектами обработки (точками наблюдений, геологически однородными площадками, геохимическими и геофизическими аномалиями, известными проявлениями полезных ископаемых и т.п.) изменяются. Изменяется также и принцип группирования записей, соответствующих этим объектам;

2) отдельная запись при обработке геолого-геофизических материалов не имеет, как правило, самостоятельного значения.

Поэтому средства большинства систем управления базами данных, ориентированными на поиск и предоставление программисту единичных записей, не могут удовлетворить ни программиста, занимающегося созданием геолого-геофизического программного обеспечения, ни геолога-геофизика как специалиста в. области обработки и интерпретации данных;

3) реляционные БД в большей степени, чем сетевые и иерархические, приспособлены к обработке геолого-геофизических данных, поскольку реляционную БД можно рассматривать как совокупность разнообразных таблиц объекты – свойства, связи между таблицами неявно определяются через общие элементы данных, например, координаты точек. Однако и реляционная БД практически не учитывает особенности технологии хранения, поиска и обработки массовых данных: а) геолого-геофизические данные хранятся в виде географически, покоординатно заданной информации, относящейся к определенному методу, способу исследований при определенной детальности работ (масштабе работ); б) при долговременном хранении геолого-геофизические данные не модифицируются, так как они обычно прошли стандартную первичную обработку; в) каждый новый фрагмент данных должен рассматриваться как автономный (иначе ведение баз при их реальных огромных объемах станет непосильно трудоемким), но система поиска должна обеспечивать оперативный поиск и выбор требуемого фрагмента базы данных; г) технология обработки диктует необходимость доставки геолого-геофизических данных не по отдельным записям, а достаточно большими порциями (сейсмическая трасса, профиль, площадь съемки и т.п.).

С учетом отмеченных обстоятельств и особенностей технологии хранения и обработки геоинформации В.В. Ломтадзе предложил синтезировать достоинства файловых структур описания данных, информационно-поисковых систем и реляционных БД, К достоинствам файловой структуры относится автономия фрагментов информации, оформляемых в виде отдельных файлов. Достоинства ИПС заключаются в возможности смыслового поиска фрагментов информации (файлов), требуемых для решения конкретных задач. Наконец, достоинства реляционных баз данных состоят в логической ясности представления данных, гибкости их преобразования и т.д., поскольку можно «вырезать» из таблиц объекты – свойства требуемые столбцы (свойства) или, наоборот, «склеивать» их, формируя для прикладных программ файлы с заданным составом записей.

Под файловой базой данных (ФБД) понимается совокупность организованных по общим принципам файлов, между которыми неявно определены связи. Если в сетевых и иерархических базах данных объектом поиска и обработки является запись, то в ФБД основной объект поиска и обработки представляет файл или же совокупность взаимосвязанных однотипных записей, называемая массивом и являющаяся частью файла. В частных случаях можно выполнять работу и с отдельными записями.

Выбор стандартных структур организаций данных, в которые, как в контейнеры (или как книги на полке библиотеки), вкладывается разнообразная информация, является ключевым моментом при проектировании технологии обработки массовых геолого-геофизических данных. К достоинствам концепции банка данных относится введение понятия структуры данных и выделение набора стандартных структур, управляемых набором стандартных программ и подпрограмм, входящих в конкретную СУБД. Такой набор программ и подпрограмм В.В. Ломтадзе для файловых баз данных называет системой оперирования данными (СОД), которая играет роль общесистемного программного аппарата.

В ФБД выделяют четыре структуры данных: файл, массив, запись, элемент, которые по существу отражают все разнообразие площадной геолого-геофизической информации.

Файл обычно соответствует площади работ, т.е. содержит конкретные данные по этой площади.

Массив файла соответствует профилю или маршруту, скважине или интервалу скважины, сейсмической трассе, кривой ВЭЗ, МТЗ или любой другой совокупности точек наблюдения, т.е. массив содержит данные по профилю, маршруту, скважине и т.д. Массив состоит из заглавия и записей.

Заглавие – особая запись для характеристики массива в целом. Записи массива в совокупности образуют таблицу объекты – свойства. Одна запись соответствует одному объекту и совпадает с понятием «запись» в терминах CODASYL.

Элементы записи – это характеристики, например, значения конкретного физического поля, координаты, признаки одного объекта, т.е. одной точки профиля, одной точки скважины, одной точки сейсмотрассы и т.п.

Любой файл в СОД состоит из краткого паспорта и массивов. Имеется близкая аналогия между паспортом файла и аннотацией книги, между массивами файла и главами той же книги. В паспорте файла содержится имя (или название) файла, имя (обозначение) владельца партии, экспедиции, объединения, параметр PACK, обычно равный 1 (это означает, то данные, содержащиеся в файле, должны храниться на ленте или диске в упакованном виде; в случае РАСК=0 упаковка запрещается), параметры V (число элементов данных в заглавии каждого массива), W (число элементов данных в заглавиях каждого файла), Ро> символически обозначающий принцип кодирования массивов файла (принцип группирования записей в массивы); Pj, Uj, Cj, (/ = 1,…, У+ W), описывающие элементы заглавия и записей массивов.

Если для геофизического метода определены типы файлов, то многочисленные программы обработки и интерпретации данных могут разрабатываться независимо друг от друга. Любой переход, например, от файла А к файлу типа В может быть осуществлен с применением разных алгоритмов и разных программ.

На каждом шаге последовательного преобразования файлов с помощью той или иной программы выполняется переход от одного или нескольких исходных файлов к одному или более, которые могут отличаться от исходных структурой и составом. Поскольку каждый шаг графа обработки определяется именем программы, выполняющей требуемые функции, именами исходных и создаваемых файлов и значениями параметров управления работой Данной программы (например, граничные координаты обрабатываемой площади, имена используемых признаков и т.п.), то после любого шага процесс обработки может быть прерван для визуализации и анализа промежуточных результатов, принятия решения о выборе приемов и параметров дальнейшей обработки или интерпретации.

Описанный выше подход к построению реляционно-файловых (или просто файловых) баз данных нашел в настоящее время самое широкое применение при создании автоматизированных систем обработки и интерпретации геолого-геофизической информации, а также при обеспечении программными продуктами полевых вычислительных комплексов и автоматизированных рабочих мест. При этом большинство программистов предпочитают ограничиваться тремя структурами данных: элемент, запись и файл, полагая использование структуры массива лишним.

 


2.3 Взаимодействие баз геолого-геофизических данных

Общий подход формализованного представления массовых геолого-геофизических данных в среде ФБД является также ключом к решению проблемы создания различных типов баз и их взаимодействия между собой. Решение этой проблемы основано на рассмотренной формализации представления разнотипных по содержанию и характеру» геологических, геохимических данных, на вводимых понятиях региональных и локальных баз данных и на реализации организационно-технических мероприятий, осуществляемых в настоящее время в рамках создания ГЕОСИСТЕМЫ.

Локальная методная ФБД образуется и существует в период обработки материалов полевой партии, экспедиции, например, гравиметрической, геохимической, геологоразведочной и т.д. Связи между файлами локальной методной ФБД неявно определяются таблицей типов файлов данного геолого-геофизического метода, а также принятой технологией обработки. Файлы некоторых типов каждой методной ФБД, образуемые, как правило, в результате обработки на полевых вычислительных комплексах или на автоматизированных рабочих местах, передаются в региональные базы данных.

Региональные базы данных (РФБД) обеспечивают долговременное хранение фактических данных в государственных масштабах.

Региональная база данных (РФБД) – это совокупность всех файлов, содержащих геолого-геофизические данные по одному миллионному листу картографической разграфки. Файл, включаемый в региональную ФБД, получает имя, состоящее из восьми символов: номенклатура листа (3 символа), год завершения работ, данные которых помещены в файл (2 символа), регистрационный номер файла в базе данных на этот год (3 символа). Например, Р4889005 содержит результаты работ, завершенных в 1989 г. в пределах листа Р-48.

Краткая информация о каждом файле региональной базы (масштаб работ, вид сети, координаты, «ключи» для перехода от относительных координат в записях файла к истинным координатам, дескрипторы, характеризующие содержание файла) помещаются в поисковый образ файла. Поисковые образы всех файлов региональной ФБД объединяют в один файл поисковых образов, хранимый при поиске данных на диске. Сами файлы региональных ФБД хранятся на лентах или любых других устройствах памяти большой емкости. Связи между этими файлами определяются через их поисковые образы и тезариус – словарь, содержащий коды (дескрипторы) ключевых слов.

Наиболее важной задачей, решаемой при создании и ведении РФБД, является сохранение основных фактических материалов, получаемых при геологоразведочных работах, и обеспечение возможности их использования для многократной последующей обработки совместно с новыми данными. Для решения этой задачи в рамках создания ГЕОСИСТЕМЫ необходимо:

1) распределить территорию страны (по миллионным листам) между региональными вычислительными центрами. Такие центры следует организовать на базе либо крупных геологических объединений, либо крупных научно-исследовательских институтов, оснащенных большими и супер-ЭВМ. Можно выделить по крайней мере восемь региональных центров (указаны в скобках) по обслуживанию территории России: Дальний Восток (ПГО «Таежгеология»), г. Хабаровск; Восточная Сибирь – два центра (ПГО «Иркутскгеология» совместно с ПГО «Иркутскгеофизика» и ПГО «Красноярскгеология»); Западная Сибирь (ЗапСибНИГРИ), г. Тюмень; Урал (институты УО РАН), г. Свердловск; восток Европейской части России (ПГО «Пермьгеология»); центр Европейской части России (ПГО «Центргеология», г. Москва); север Европейской части России (ПГО «Севзапгеология», г. Ленинград); юг Европейской части России, г. Ростов-на-Дону;

2) стандартизировать организацию данных в рамках методных
ФБД, определив для каждого геолого-геофизического метода типы
файлов, подлежащих передаче в региональные ФБД;

3)установить порядок пополнения региональных ФБД, аналогичный пополнению территориальных геологических фондов;

4)осуществить ведение региональных ФБД на базе специализированной технологической группы с выполнением функций по приему файлов из методных ФБД, их записи на магнитные ленты, принадлежащие определенному миллионному листу, составлению образов вновь принятых файлов и их включению в файлы образов, созданию целевых ФБД по запросам.

Региональные (или архивные) ФБД используются для создания локальных целевых ФБД. Временная целевая БД обычно предназначена для обобщения и комплексного анализа геолого-геофизических материалов в пределах конкретной территории с целью решения задач прогнозирования. Для создания временной целевой базы данных пользователь (геолог, геохимик, геофизик соответствующей технологической группы вычислительного центра) формирует запрос, указывая привязку требуемых данных по месту (миллионный лист, граничные координаты площадей), времени (временной интервал проведения работ, данные которых представляют интерес для решения конкретной прогнозно-поисковой задачи, геоэкологического исследования и т.д.), детальности работ и их содержанию (дескрипторы, отражающие масштаб исследований, конкретные геологические, геохимические и геофизические методы).

Программное обеспечение региональных ФБД с помощью файла поисковых образов позволяет установить, в каких файлах и на каких лентах находится требуемая информация, и, следовательно, извлечь эту информацию, сформировать на ее основе временную целевую ФБД. Связи между файлами такой ФБД определяются структурой системы комплексного анализа данных и прогноза геологических объектов, в частности, выделенными в ней типами файлов, а также технологией обработки данных. Для работы с локальной ФБД применяются общесистемное – программное обеспечение, программный аппарат обработки и интерпретации данных комплекса методов и программы, принадлежащие методным системам обработки. К локальным можно также отнести постоянно действующие целевые ФБД по месторождениям определенного типа, скважинам (в том числе сверхглубоким), отдельным локальным структурам и т.п. Такие базы данных обычно отличаются спецификой решаемых задач (например, контроль за эксплуатацией нефтегазовой залежи), и формы их взаимодействия с региональными ФБД могут быть самые разные.

 

Литература

1. Кузнецов О.Л., Никитин А.А., Геоинформатика. – М. – 1992.

2. Основы геоинформатики: В 2-х кн. Кн. 1: Учеб. пособие для студ. вузов / Е.Г. Капралов, А.В. Кошкарев, В.С. Тикунов и др.; под ред. В.С. Тикунова. – М.: Издательский центр «Академия», 2004.

3. Экоинформатика / Под ред. Соколова А.Л. – М. – 1992.


Страницы: 1, 2


Новости

Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

  скачать рефераты              скачать рефераты

Новости

скачать рефераты

Обратная связь

Поиск
Обратная связь
Реклама и размещение статей на сайте
© 2010.