КОНЦЕПТУАЛЬНІ ЗАСАДИ ОЦІНЮВАННЯ ТА ЗАБЕЗПЕЧЕННЯ ЯКОСТІ ГЕОПРОСТОРОВИХ ДАНИХ — О. Карпінський, А. А. Лященко, М. В. Горковчук

КОНЦЕПТУАЛЬНІ ЗАСАДИ ОЦІНЮВАННЯ ТА ЗАБЕЗПЕЧЕННЯ ЯКОСТІ ГЕОПРОСТОРОВИХ ДАНИХ — О. Карпінський, А. А. Лященко, М. В. Горковчук

Вісник геодезії та картографії. - 2012. № 4. - С.33-42

Вступ. Категорія якості є однією з визначальних для оцінювання споживчих властивостей будь-якої продукції. За міжнародним стандартом ISO 9000-2001 [2], якість визначається як ступінь, до якого має прагнути сукупність власних характеристик продукції, щоб вона задовольняла встановлені вимоги.

Геопросторові дані (ГД) – це набори даних або бази даних про об'єкти реального світу, що мають певне місцеположення на Землі, зафіксоване у встановленій системі просторово-часових координат. Завдяки ГІС геопросторові дані перетворилися в новий, основний вид продукції топографо-геодезичного виробництва та суміжних сфер діяльності, пов’язаних з дослідженням, кадаструванням, моніторингом нерухомості, природних ресурсів, навколишнього природного середовища, інженерної інфраструктури тощо.

 Специфіка ГД полягає в тому, що це не просто реєстр даних про об’єкти і явища реального світу. За своїм призначенням вони є основою для побудови геоінформаційних моделей місцевості в середовищі ГІС певного призначення або самі є такими моделями. Власне, з інформаційною, просторово-часовою та модельною сутністю ГД пов’язана множинність прикладних сфер їх застосування в геоінформаційних системах підтримки прийняття рішень (ГІС ППР) різного призначення, складність завдань забезпечення та оцінювання якості геоінформаційної продукції як на концептуальному, так і на практично-методичному і технологічному рівнях.

Питання якості геопросторових даних набуває особливого сенсу, коли йдеться про їх використання в ГІС ППР з метою попередження та швидкого реагування на надзвичайні ситуації, коли від повноти й актуальності даних залежить не тільки обсяг матеріальних втрат, але нерідко і життя людей.

Кожна предметна сфера висуває свої специфічні вимоги до структури та складу геоінформаційних моделей (набору об’єктів та їхніх атрибутів, точності визначення просторових властивостей об’єктів, топологічних і логічних відношень між об’єктами, що мають бути відображені та реалізовані в моделях, тощо). Не варто забувати і про цифрові моделі місцевості, створення яких є трудомістким і вартісним процесом. Тому важливо знаходити підходи до створення багатоцільових моделей місцевості, розробляти загальні принципи та логічні схеми побудови прикладних моделей для забезпечення міжгалузевого обміну та інтероперабельності ГД, а також концептуальних засад, принципів, мір та методів оцінювання їх якості.

Вирішуючи останнє завдання, автори спиралися на власний багаторічний досвід виготовлення цифрової картографічної продукції, баз геопросторових даних (БГД) та прикладних ГІС, а також на зміст концепцій міжнародних стандартів комплексу ISO 19100: Географічна інформація/геоматика що до якості географічної інформації та на публікації провідних фахівців у цій сфері.

Аналіз досліджень, публікацій та стану проблеми. Публікації з проблематики якості геопросторових даних віддзеркалюють етапи розвитку геоінформаційних технологій, ГІС та еволюцію їх архітектури – від локальних ГІС на основі цифрових карт, корпоративних ГІС на БГД до розподілених ГІС в Інтернет та інфраструктури геопросторових даних.

На ранніх етапах розвитку ГІС, включно до 1990-х років, основна увага приділялася якості цифрових карт, яка характеризувалася сукупністю властивостей цифрової картографічної продукції (ЦКП), що визначала рівень її придатності задовольняти певні потреби відповідно до призначення [1]. Наразі це уточнення у визначенні якості ЦКП ("задовольняти певні потреби відповідно до призначення" на відміну від "задовольняти вимоги" у визначенні за ISO 9000-2001) вказує на розуміння ГІС в контексті картографічного виробництва, в якому картографічні твори класифікуються за призначенням, тематичним змістом та масштабом. Основними ж показниками якості ЦКП було визначено характеристики відповідності цифрових даних та/або електронних карт, зображення яких генерувалося за цифровими даними, вихідним картографічним матеріалам, зокрема, за складом об’єктів, точністю їх просторового положення та геометричною формою тощо. Складалася типова ситуація, за якої модель цифрової топографічної карти (ЦТК) повністю відповідала за змістом вихідній паперовій карті, забезпечувала її відтворення в електронному вигляді, але була непридатна для цілей геоінформаційного моделювання. Наприклад, цифрову топографічну карту не можна використати для пошуку оптимального маршруту через відсутність у ній топологічної сегментно-вузлової (графової) моделі вулично-дорожньої мережі або, з аналогічних причин, шар об’єктів гідрографії ЦТК непридатний для моделювання водотоку з метою оцінювання загрози повені. Таку модель ЦТК за картографічним призначенням можна використовувати як підоснову для введення та відображення прикладної цифрової моделі за аналогією використання паперової топографічної карти для нанесення ситуації певного тематичного змісту.

Розвиток ГІС у 2000-х роках характеризується такими кардинальними змінами, як тотальний перехід до цифрових технологій геодезичних вимірювань та збирання інформації про місцевість (GPS, цифрові знімки ДЗЗ, цифрова фотограмметрія, лідарні знімання тощо), втілення концепції інфраструктури ГД на основі систем керування базами геопросторових даних (СКБГД), геопорталів з базами метаданих, геоінформаційними сервісами в мережі Інтернет як основного засобу пошуку, отримання та спільного використання даних різного тематичного змісту й територіального охоплення, створених відповідно до міжнародних стандартів ISO у сфері географічної інформації / геоматики і технічних специфікацій відкритого геопросторового консорціуму OGC. Можливість за допомогою геоінформаційних сервісів Інтернет отримувати ГД, що створюються для різних потреб різними виробниками і користувачами, підсилила об’єктивну потребу в методах та засобах досягнення інтероперабельності прикладних геоінформаційних моделей, а також в уніфікованих процедурах і сервісах забезпечення та оцінювання якості даних.

Група експертів EuroGeographics ще у 2007 р. підготувала настанову про впровадження базових стандартів якості географічної інформації комплексу ISO 19100 в національних картографічних та кадастрових агентствах (НККА) [5]. У цій настанові, зокрема, йшлося про те, що більшість НККА країн Європи завершила векторизацію паперових топографічних карт, а їх оперативне пооб’єктне чергування здійснюється в цифрових форматах у базах топографічних даних (БТД) з використанням різних джерел первинної топографічної інформації. Тому в базах даних інформація для різних об’єктів мала різну точність, різні періоди проведення вимірювань тощо. Ці особливості в сучасній діяльності НККА експерти назвали "новою парадигмою виробництва", що включає використання багатьох джерел ГД у партнерстві з вишукувальними підрозділами різних відомств ("виробництв багатьох типів") та посилює роль системи управління якістю.

В умовах формування та розвитку інфраструктури геопросторових даних (ІГД) зміни у виробництві й використанні ГД характеризуються такими двома загальними тенденціями [10]:

1) еволюцією від виготовлення цифрової картографічної продукції до процесів моделювання (від даних виробників до даних користувачів; від централізованої до децентралізованої структури вироблення й підтримки даних; від створення локальних баз даних до обміну даними і федералізації банків даних);

2) переходом від розроблення концепцій до їх реалізації (зокрема, від координування процесу формування компонентів інфраструктури до керування її функціонуванням; від однорівневої до багаторівневої участі та від існуючих до нових організаційних структур вироблення і постачання геоінформаційної продукції).

На підтвердження цього у публікаціях [7, 10] наводяться приклади надання нових послуг з незалежного аудиту якості ГД, який забезпечує професійне оцінювання третьою стороною якості даних для замовника. Аудит якості визначається у цих дослідженнях як системний метод, за яким ідентифікують, збирають та аналізують інформацію про набори геопросторових даних (НГД) з точки зору задоволення потреб користувачів, для об’єктивного оцінювання та/або прийняття рішення стосовно використання наборів даних для визначених замовником цілей.

У більшості публікацій з проблематики якості геопросторових даних в останні роки йдеться про такі основні напрями дослідження:

1. Розвиток концепції визначення якості даних, уніфікація принципів та моделей комплексної системи управління якістю ГД [3-7, 10].

2. Розроблення та впровадження міжнародних стандартів з якості даних, що входять до комплексу стандартів ISO 19100: Географічна інформація/геоматика. Це, зокрема, стандарти ISO 19113:2002 Quality principles (Принципи якості), ISO 19114:2003 Quality evaluation procedures (Методи оці нювання якості), ISO/CD TS 19138:2006 Data quality maeasures (Вимірювання якості даних), ISO 19115:2003 Geographic information – Metadata (Географічна інформація – Метадані) та проект міжнародного стандарту ISO/DIS 19157:2011 Geographic information – Data quality (Географічна інформація – Якість даних), в якому переглядаються та узагальнюються положення стандартів ISO 19113:2002, ISO 19114:2003 та ISO/TS 19138:2006, на заміну яких він розробляється [5-7].

3. Обґрунтування та уніфікація мір і процедур оцінювання якості, від адекватності вибору яких значною мірою залежить достовірність оцінки якості ГД [4-6, 11, 12].

4. Створення засобів автоматизованого контролю та оцінювання якості. Розробники інструментальних ГІС та СКБГД намагаються інтегрувати інструменти для оцінювання якості у свої продукти. Наприклад, у складі ArcGIS реалізовано підсистему Data Reviewer для автоматизованого контролю якості ГД [13]; у просторових опціях СКБД Oracle Spatial, починаючи з 10-ї версії, постачаються програмні засоби Topology and Network Data Model, які за попередньо встановленими правилами дозволяють контролювати топологічну цілісність ГД [8]; постійно розширюється бібліотека функцій контролю топології ГД в середовищі СКБД PostgreSQL+PostGIS [9].

У подальших своїх міркуваннях автори цієї статті відштовхуються від основних концептуальних засад згаданих вище міжнародних стандартів, розглядають шляхи їх практичного впровадження в системі оцінювання й забезпечення якості ГД.

Виклад основного матеріалу. До системи оцінювання якості будь-якої продукції входять такі типові завдання: формулювання принципів оцінювання та обґрунтування номенклатури показників якості; розроблення методів і процедур визначення показників якості; оптимізація типорозмірів параметричних рядів виробів; обґрунтування принципів побудови узагальнених показників та умов їхнього застосування у завданнях стандартизації та управління якістю. Ці завдання належать до сфери кваліметрії (від латинського qualis – який за якістю та ...метрія) – наукової дисципліни, що вивчає та розвиває методи кількісного оцінювання якості різних об'єктів. Загальним методичним базисом забезпечення якості геопросторових даних є міжнародні стандарти ISO 19113, ISO 19114, ISO 19138 та ISO/DIS 19157:2011, в яких розглядаються принципи, методи визначення та оцінювання якості НГД в процесі їх виробництва.

Система комплексного управління якістю геоінформаційної продукції та надання геоінформаційних послуг (мал.1) ґрунтується на чотирьох основних концептуальних підходах, які відображують особливості змісту показників та організаційних аспектів забезпечення оцінювання якості ГД, а саме [7, 10]: виробничо-орієнтований (production-centred); планувально- або проектно-орієнтований (planning-centred); клієнт-орієнтований (custo mercentred); системно-орієнтований (system-centred) підходи.

Виробничо-орієнтований підхід належить до ключових у комплексній системі управління якістю географічної інформації, оскільки саме від забезпечення якості на етапах збирання інформації та формування НГД найбільшою мірою залежить у майбутньому рівень бездефектності й кондиційності геоінформаційної продукції та послуг.

Проектно-орієнтований підхід додатково передбачає розгляд питань якості ГД з точки зору їхньої придатності для створення та/або розвитку певних прикладних систем, зокрема, з урахуванням придатності даних для використання в середовищі інструментальних ГІС, що плануються до застосування в цих прикладних системах.

При клієнт-орієнтованому підході якість геопросторових даних оцінюється як складова комплексної геоінформаційної продукції (прикладної ГІС), яку отримують кінцеві користувачі для вирішення своїх прикладних задач. Варто зауважити, що кінцевими користувачами якість прикладної ГІС, як правило, сприймається інтегрально, при цьому невизначеність даних може бути причиною недоліків програмних засобів і навпаки.

При системно-орієнтованому підході якість НГД оцінюється в контексті його інтероперабельності та придатності для розміщення й використання в технологічному середовищі ІГД, у т. ч. й разом з іншими наборами даних та/або уніфікованими геоінформаційними сервісами. Важливою компонентою при оцінюванні якості НГД з точки зору системно-орієнтованого підходу є повнота, конкретність та достовірність метаданих про набір даних загалом та про його якість зокрема.

Якість може мати різну інтерпретацію залежно від стадії життєвого циклу (ЖЦ)) геопросторових даних. У табл. 1 [5] узагальнено концепти якості для трьох основних стадій ЖЦ НГД.

Концептуально процес визначення якості ГД можна розглядати як оцінювання відмінності реально вироблених даних від певного ідеального еталонного набору, в якому немає будь-яких помилок, що виникають у ході формування БГД.



Розподіл помилок розглядається за фазами ЖЦ НГД:

 – збирання даних: неточності польових вимірювань, неточність приладів, неточність ведення записів, помилки при аналізі даних, отриманих дистанційно;

– введення даних: помилки цифрування, нечіткість природних контурів об’єктів;

 – збереження даних: числова неточність, просторова неточність (для растрових даних);

– оброблення даних: неправильні класифікаційні інтервали, помилки при створенні полігонів;

– формування кінцевої продукції: похибки масштабування (для растрових даних), обмеження кінцевого формату даних;

– використання даних: неправильне розуміння структури та вмісту, неправильне використання даних.

Більшість дослідників цієї теми розрізняють внутрішню та зовнішню якість ГД [3,4].

Під внутрішньою якістю розуміють рівень відповідності між створеним та "ідеальним" набором, який мав би бути виготовлений (тобто дані, виготовлені без помилок). Такий набір є відображенням реального світу на певну дату відповідно до специфікації на продукцію, що встановлює набір правил та вимог переходу від реального світу до моделі даних. Специфікація, наприклад, включає перелік об’єктів, що мають бути відображені, тип геометрії для кожного класу об’єктів, атрибути, що мають описувати ці об’єкти, а також допустимі значення для атрибутів. Описати внутрішню якість можна різними способами, але в основному використовують критерії, визначені у міжнародному стандарті ISO 19113, а саме повнота, логічна узгодженість, позиційна, часова й тематична точність.

Під зовнішньою якістю мають на увазі рівень відповідності готового продукту потребам чи очікуванням користувача. Така якість не є абсолютною, а тому один і той же НГД може мати різну зовнішню якість для різних користувачів. Зовнішню якість часто визначають як придатність продукту для використання. Оскільки саме поняття зовнішньої якості відрізняється для різних користувачів, то не існує єдиних стандартизованих критеріїв для її опису. І. Бедард та Д. Вальєре [3] виділяють шість характеристик для опису зовнішньої якості ГД:

– призначення: цільова функція набору даних;

– охоплення: період часу й територія, на яку створено дані;

– походження: методи та процеси оброблення, використані для отримання кінцевих да них;

– точність: відповідність тематичної, часової та просторової точності вимогам користувача;

– легітимність: відповідність створених даних стандартам; гарантії від постачальника даних;

– доступність: зручність для користувача в отриманні даних (вартість, формат, конфіденційність, авторські права і т. д.).

Загальна структура концепції для визначення якості геопросторових даних за ISO 19113 (мал. 2) відображує ролі виробників і користувачів у процесі створення та оцінювання якості НГД.


НГД створюється для певного застосування. Якість набору може бути оцінена на основі знань про елементи якості даних, а в деяких випадках й опосередковано на підставі некількісних елементів, наприклад, призначення та походження даних, що описуються в метаданих згідно з ISO 19115. Елементи якості даних оцінюють рівень відповідності набору даних предметній сфері, що є частиною геопростору, а фактично технічним умовам (специфікації) виробника на створення НГД для певної мети.

Користувач даних оцінює якість НГД як рівень його відповідності вимогам застосування для геоінформаційного моделювання певної предметної сфери, яка може не збігатися з цільовим призначенням набору даних. А отже, оцінка якості виробника даних може не відповідати оцінці якості потенційного користувача даних. Важливо, щоб така оцінка в контексті мети оцінювання достовірно відображала рівень відповідності НГД специфікації виробника або вимогам користувача. Природно, що при зміні технічних умов виробника або вимог користувача має бути проведено нове оцінювання якості набору даних. Також важливо із застереженням порівнювати різні оцінки якості НГД, якщо його цільове призначення за специфікацією виробника не відповідає предметній сфері потенційного користувача.

За ISO 19113 передбачається розроблення в складі технічних вимог вхідної моделі якості НГД (мал. 3), яка в подальшому використовується в процедурах оцінювання переважно внутрішньої якості продукції.


Згідно з цією моделлю, якість ГД передається за допомогою елементів якості. Для кожного елемента визначаються міри та методи його оцінювання. Міра якості дає кількісну характеристику елемента якості. Методи оцінювання якості визначають підходи до перевірок даних та обчислення мір. Окрім цього, кожен елемент якості описується елементами метаякості, що характеризують ступінь довіри до результату оцінювання та містять обґрунтування доцільності застосування обраної міри якості та методу оцінювання для конкретного елемента.

Інформація про якість даних подається в спеціальному звіті про оцінювання якості та в метаданих. Звіт про якість складається обов’язково як результат оцінювання за процедурами та методами, визначеними у вхідній моделі якості. Найчастіше такий звіт використовується в подальшому для виправлення помилок, виявлених в НГД під час контролю та оцінювання якості. Інформація про якість також описується у відповідних розділах та елементах метаданих, уніфікованих за ISO 19115. Метадані включаються до НГД як кінцевого продукту та можуть використовуватись споживачами наборів у процесі оцінювання зовнішньої якості даних.

Поєднання елементів якості та меж їх застосування встановлює область визначення якості. Область описує просторові та часові рамки застосування кожного елемента. Нею може бути набір даних, серія наборів або фрагмент даних, обмежений однією або декількома характеристиками: клас об’єкта, екземпляр об’єкта, територіальне охоплення, часове охоплення.

Загалом набір даних розглядається як такий, що містить велике, хоча й скінченне число менших груп даних. Припускається, що менші групи даних, об'єднані за належністю до того самого типу об'єкта, типу атрибуту об'єкта або відношення, критерію збору або до однієї і тієї ж географічної області, мають однакову якість. Менша група даних може складатися з одного екземпляра типу об'єкта, значення атрибута або відношення. Теоретично, за концепцією оцінювання якості даних, допускається, що кожен екземпляр типу об'єкта, значення атрибута й вид відношення набору даних може мати окремі елементи якості. Якість менших груп даних може не збігатися з якістю іншої частини набору даних, до якого вони належать. Концепція оцінювання якості даних допускає видачу інформації про якість набору загалом та додатково інформацію про якість менших груп, що визначається специфікою профілю ГД.

Елементи якості геопросторових даних. Згідно з міжнародним стандартом ISO 19113, якість НГД вказується з використанням кількісних та описових елементів.

Кількісні елементи якості геопросторових даних (див. табл. 2) дають змогу оцінити, наскільки той або інший набір даних відповідає критеріям, вказаним у специфікації на відповідну продукцію. Аспекти елементів якості даних називають піделементами. Піделементи оцінюють або перевіряють різними способами. Як уже зазначалося, за концепцією оцінювання якості даних не всі елементи й піделементи, а також не всі засоби їхнього оцінювання та перевірки можуть підходити конкретному набору даних. Крім того, деякі піделементи можуть застосовуватися до всього набору даних, можуть бути оцінені або перевірені для нього, а інші застосовуються до менших груп даних, що належать до набору даних вищого порядку та можуть бути оцінені або перевірені для них.


Стандарт ІSО 19113 визначає елементи якості даних безпосередньо як засоби виявлення і вироблення різних видів інформації про якість. Як правило, піделементи якості даних взаємозалежні. Наприклад, помилка в координатах може викликати, як мінімум, помилки двох типів – позиційну й топологічну. Значення піделементів, передбачене в угоді на продукт, та спосіб їх трактування належать до компетенції розробника специфікації на продукт.

Описові елементи якості даних забезпечують загальну некількісну інформацію про якість. Вони дозволяють додатково оцінити придатність набору даних для конкретного застосування, містять інформацію про його призначення, використання й походження. Елементи "Призначення" та "Використання" описують сферу застосування набору даних. Використання набору даних визначається його розробником або користувачами даних.

Елемент "Походження" описує історію формування набору даних і певною мірою його життєвий цикл, починаючи з процесів збирання, наступного кодування й перетворення у поточний формат даних.

Міри якості геопросторових даних. Міра якості є кількісною характеристикою ГД. Уніфікація мір якості здійснюється з метою досягнення сумісності та порівнюваності кількісної інформації про якість різних наборів даних. Однією з основних вимог до мір якості є однозначність їх визначення та коректність методів обчислення.

У проекті міжнародного стандарту ISO/DIS 19157:2011 пропонується набір стандартизованих мір якості, які дозволяють оцінювати практично всі кількісні елементи та піделементи якості ГД.

Кожна міра якості (DQM_Measure) в ISO/DIS 19157:2011 описується такими компонентами (мал. 4):

– ідентифікатор міри якості (measureIdentifier);

– назва міри якості (name);

– псевдонім (alias);

– назва елемента якості (elementName), до якого застосовується міра;

– базова міра якості (basicMeasure);

– визначення (definition): фундаментальний концепт міри якості (якщо міра базується на одній з базових мір, то дається її визначення);

– опис (description): опис міри якості, включаючи всі методи обчислень і формули, необхідні для застосуван ня міри;

 – параметр (parameter): змінна, яку використовує міра якості (включає назву, визначення і тип даних параметра);

 – тип значення (valueType): один з типів даних, що використовується для отримання результату міри (визначається за ISO/TS 19103:2005);

– структура значення (valueStructure), якщо результат включає декілька значень;

– посилання на джерело (sourceReference): посилання на документацію міри (якщо для міри якості додаткова інформація міститься у зовнішньому джерелі, то вказується посилання на це джерело);

 – приклад застосування міри (example).


В описі базових мір якості виділяють два класи:

1) міри, що базуються на підрахунку помилкових або правильних об’єктів;

2) міри, що базуються на моделюванні невизначеності вимірювань статистичними методами.

У першому класі розрізняють шість базових мір якості (табл. 3), що ґрунтуються на різних методах підрахунку помилкових чи правильних об’єктів. Числові дані, отримані в результаті вимірювань, мають певну точність, а тому для оцінювання ступеня невизначеності якоїсь виміряної величини рекомендується використовувати статистичні методи.

У міжнародному стандарті ISO 19138 та в проекті ISO/DIS 19157 застосування базових мір якості конкретизовано для усіх кількісних елементів та піделементів якості ГД, що в підсумку дозволило ідентифікувати понад 80 окремих мір якості. Однак через специфіку якості даних цей список не може бути повним. З розвитком ГІС вимоги до якості постійно зростають, тому природним є розроблення додаткових мір якості.

Процес, процедури та методи оцінювання якості. Оцінювання якості ГД здійснюється на різних стадіях ЖЦ продукції. Воно має різні цілі для кожної стадії. До основних стадій ЖЦ НГД можна віднести: розроблення технічних вимог (специфікації), виробництво, постачання, використання та оновлення.

Процес оцінювання якості – це послідовність етапів, операцій та процедур, виконання яких дозволяє отримати результат як сукупність елементів якості для визначеної області (набору даних, окремих екземплярів об’єктів, їх атрибутів або відношень). Загалом процес складається із шести основних етапів (мал. 5).

Підкреслимо важливість перших трьох етапів, результатом яких є фактично специфікація моделі якості для процесу оцінювання якості конкретного набору даних з обґрунтуванням вибору елементів/піделементів, мір якості для них та процедур і методів оцінювання. Ця модель має узгоджуватися із вхідною моделлю якості, що зазначається у специфікації на продукцію або в технічних вимогах користувача.

Процедури оцінювання якості визначають порядок застосування одного або декілька методів оцінювання для певного елемента/піделемента якості даних. Методи оцінювання якості поділяються на два основних класи: прямі та непрямі. Прямі методи ґрунтуються на порівнянні оцінних даних з еталонними, непрямі – на використанні довідкової інформації про дані, наприклад, про їх походження.