какие существуют показатели качества информации в информатике
Показатели качества информации
Primary tabs
Показатели качества информации
Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.
Качество информации определяется такими показателями, как:
Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта.
Важнейшее значение здесь имеют:
Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных.
С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.
Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением
Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и праг-матикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.
Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.
В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем.
Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность.
При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.
Показатели качества публичных данных
Проблема качества данных представляет собой достаточно серьезную тему и не только в связи с их обработкой и анализом. На данных в современном цифровом мире построено множество процессов, в том числе и связанных с безопасностью. Поэтому от того, насколько качественные данные используются в государственных и коммерческих организациях зависит эффективность и результат их работы.
Рассмотрим несколько показателей, которые могли бы составить интегрированную оценку качества публичных (открытых) данных.
Прежде чем начать.
Настоящая публикация является продолжением в общей серии по теме публичных данных. Многие понятия, встречающиеся в тексте рассматривались в предыдущих статьях. Несмотря на то, что речь идет о публичных (открытых, разделяемых) данных, предлагаемый набор показателей качества может использоваться и для оценки других категорий данных с некоторыми поправками. Предлагаемый список является в некотором смысле гипотезой и не претендует на звание «исчерпывающего».
Данные имеют ограниченный срок годности
Первичные данные всегда актуальны на какой-то конкретный момент времени в прошлом и очень редко актуальны в течение какого-либо длительного периода.
Это одна из проблем качества: цифровые данные, как регистрация исторического состояния объекта или системы постоянно теряют свою актуальность со временем и их приходится обновлять.
Качество данных – характеристика наборов цифровых данных, показывающая степень их пригодности к обработке и анализу и соответствия обязательным и специальным требованиям, в связи с этим к ним предъявляемым.
А что может составлять такое понятие как «качество публичных данных»? Выделим девять показателей.
1. Актуальность данных
Обозначенный или косвенно определяемый момент времени, на который данные отражают реальное состояние целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Актуальность данных также может быть обозначена через период времени в течение которого они сохраняют свою значимость. Учитывая постоянные изменения экономических систем, публичные экономические данные имеют достаточно короткие сроки актуальности.
Актуальность данных чаще всего устанавливается поставщиком, в дополнение к которой он также может «дать обещание» периодического их обновления для её поддержания.
Получатель данных может самостоятельно оценивать их актуальность на основании информации от поставщика или иными способами.
2. Объективность данных
Точность отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Объективность напрямую зависит от применяемого метода и процедур сбора информации, а также от плотности регистрируемых данных. В процессе обработки наборов цифровых данных, они теряют свою объективность и обогащаются агрегированными, округленными, приведенными и расчетными показателями. Однако за счет этого данные «насыщаются» знаниями, тем самым позволяя в последующем сокращать последовательность операций по извлечению из них значимых для практики сведений.
Поставщик может указать объективность публичных данных охарактеризовав их первичность и описав процедуру их получения.
Получатель вправе критично отнестись к вторичным данным, особенно если их объективность не доказана применяемыми формулами и математическими расчетными моделями.
3. Целостность данных
Полнота отражения данными реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.).
В отличии от объективности, целостность показывает насколько полными и безошибочными являются данные как в части смыслового непротиворечия, так и в части соответствия заданной структуре или выбранного формата. Целостность зависит от корректного разделения на элементарные неделимые единицы, сохранения их неделимости, правильной идентификации и взаимной связанности.
Данные публикуемые добросовестным поставщиком по умолчанию должны являться целостными.
Получатель определяет целостность специальными проверочными методами оценивая смысловое содержание, корректность определения структуры и технически проверяя формат.
4. Релевантность данных
Соответствие данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) решаемой задачи (поставленной цели) и возможность их применения с учетом имеющегося содержания, структуры и формата.
Понимание релевантности напрямую увязывается с целью пользователя данных и конкретной исполняемой им задачи, а значит и с располагаемым исходным набором данных.
Поставщик не может повлиять на релевантность данных, но может существенно упростить понимание данного показателя качества с помощью расширенных метаданных, применения распространенных форматов и традиционных структур, а также указанием рекомендаций по их использованию.
Получатель в каждом конкретном случае оценивает релевантность наборов данных исходя из тематики и рабочего формата (т.е. используемых инструментов).
5. Совместимость данных
Совместная обработка данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.) с имеющимися в рамках решаемой задачи (поставленной цели).
В отличие от релевантности, совместимость — это процедурный показатель, который характеризует возможность включить данные в обрабатываемый массив для дальнейшего анализа и не связан напрямую с сутью и критериями текущей задачи. С другой стороны, совместимость на содержательном уровне с тематикой исполняемой задачи важна для эффективной обработки цифровых данных. Публичные данные должны особенно тщательно оцениваться на совместимость, в том числе с точки зрения их разновидности. Допустимо ли для конкретных целей совмещение – взаимное использование — открытых данных и разделяемых данных или разделяемы и делегируемых данных зависит от оценки аналитика. Чаще всего необходимо соблюдать условия раздельного хранения и контроля разных видов публичных данных.
Поставщик публичных данных задает совместимость через метаданные и ссылки на контекст.
Получатель определяет возможность совместного использования данных для каждого набора как по содержанию и структуре, так и по формату. Но в отличие от релевантности, несовместимые данные можно попытаться привести к совместимому с помощью различных операций трансформации, перекодирования, перевода и т.п.
6. Измеримость данных
Присутствие в данных обрабатываемых качественных или количественных характеристик реального состояния целевого субъекта (объекта, системы, явления, модели, события и т.п.), а также подсчитанный конечный объем набора цифровых данных.
Содержательная измеримость данных является основой для выполнения последующих процедур их обработки и анализа. Измерение же общего объема данных необходимо для выбора инструментария и контроля их целостности в процессе обработки и по итогам анализа.
Поставщик может явно указывать «измерения», включенные в данные, как количественные, так и качественные. Как минимум, сопровождение наборов публичных данных записью об итоговом или пофайловом их размере в байтах почти является общепринятым стандартом.
Получатель публичных данных восстанавливает измеримость в содержании данных анализируя их и исследуя структуру и всегда точно или бегло проверяет насколько их физический размер соответствует заявленному.
7. Управляемость данных
Возможность целевым и осмысленным образом обработать, передать и контролировать данные о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).
Управляемость обусловлена необходимостью изменять, исправлять, структурировать, организовывать, фильтровать, сохранять, пересылать, оценивать, распределять данные. Она во многом основывается на правильно выбранной структуре и формате.
Поставщик может заявить об управляемости данных через сопровождение их специальными метаданными, но получатель, как правило, самостоятельно проводит её оценку исходя из имеющихся у него компетенций и инструментов.
8. Привязка к источнику данных
Связанная и достоверная идентификация цепочки поставки данных о реальном состоянии целевого субъекта (объекта, системы, явления, модели, события и т.п.).
При этом в описание «цепочки поставки публичных данных» лучше включить указания на все субъекты, которые исполняли основные роли трансфера данных: генератор (автор), владелец, поставщик. Привязка к источнику позволяет поставщику и получателю сослаться и восстановить авторство, правоотношения, достоверность источника, доверие к распространителям.
Публичные данные почти всегда распространяются с указанием владельца и поставщика. И более того, одним из ограничений использования данных является необходимость указать первоисточник при их последующей публикации или использовании. Следует учитывать, что хорошая привязка данных позволяет по необходимости получить её повторно с уточнениями, дополнительной актуализацией или с восстановленной целостностью, т.е. – с повышенным качеством.
9. Доверие к поставщику данных
Оценка получателем деловых качеств поставщика публичных данных о целевом состоянии субъекта (объекта, системы, явления, модели, события и т.п.), как ответственного, авторитетного, организованного и относительно независимого издателя цифровой информации высокого качества.
Данный показатель выступает некоторой интегрированной ретроспективной оценкой всех предыдущих трансферов данных поставщика – репутация издателя публичных данных.
Получатель всегда исходит из внутренней убежденности при определении такого показателя качества данных, но у поставщика есть несколько путей по формированию и поддержанию нужного ему уровня доверия. К ним можно, например, отнести: тщательную подготовку данных для публичного трансфера, высокий уровень организации процессов издания «цифры», поддержку обратной связи с получателями, своевременную актуализацию и извещение об обнаруженных в данных проблемах, специальные мероприятия, участие в независимой оценке и ассоциациях.
Любой из указанных показателей качества данных субъективен, как в части смыслового содержания данных, так и в части его восприятия разными поставщиками и получателями.
Тем не менее все показатели можно разделить на:
Общая проблема качества публичных данных зависит как от каждого из перечисленных показателей, так и от интегрированной субъективной оценки получателя. В любом случае, качество важно в первую очередь получателю, как лицу выполняющему операции обработки и анализа.
В случае завершения обратной связи стороннего результативного пользователя данных с поставщиком, «проблема» качества данных возвращается последнему «бумерангом». Если данные были предоставлены «плохие» или с ошибками, то ожидать от тех, кто их использовал, сколь-либо хороших и адекватных итогов не приходится. Тогда утрачивается весь смысл усилий по выбору, подготовке и публикации данных – поставщик не получает никаких новых полезных решений и знаний (продуктов или сервисов).
Важнейший показатель качества данных – это их целостность
Он оказывает сильное влияние на совместимость и управляемость данных. А неоднократная публикация данных с нарушением целостности обязательно скажется на доверии к их поставщику. Целостность данных не является чем-то обособленным от смысла, структуры или формата и должна соблюдать на всех уровнях цифровой информации.
Нарушение целостности данных возможно:
За качество публикуемых данных, конечно же, отвечает поставщик. Но получатель вынужден выполнять проверку и по необходимости корректировать сами данные.
Если публичные данные оказываются низкого качества, то имеет смысл отказаться от их использования и направить подробное уведомление поставщику. Добросовестный и заинтересованный поставщик обязательно предпримет усилия по исправлению ситуации. Он как минимум должен закрыть доступ к некачественным данным на время разбирательства и маркировать их соответствующим образом.
Адресованная поставщику претензия относительно качества данных, в условиях максимальной открытости сетевого общения, вынуждает в обязательном порядке помещать специальный заявительный отказ от принятия претензии с обоснованием такого отказа, либо повышать качество данных и повторно их издавать с соответствующими разъяснениями. А в случае, если поддерживается адресная связь с получателями – уведомлять их специальным образом.
Поставщик, который не готов отвечать за качество данных достаточно быстро переходит в разряд «безответственных» и теряет все преимущества, предоставляемые сообществом аналитиков и экспертов, занятых в соответствующей предметной области.
Из вышесказанного вытекает необходимость постоянного контроля качества данных как со стороны получателя, так и со стороны поставщика. Что в свою очередь вынуждает разрабатывать и применять специальные контрольно-измерительные инструменты.
Исследование проблемы качества цифровых данных, а особенно качества открытых, разделяемых и делегируемых данных должно осуществляться аналитиками и экспертами как на микро-уровне заинтересованных бизнесов, так и на макро-уровне сообществ и государственных структур. Во многом безопасность будущей цифровой экономики будет базироваться на активном мониторинге качества используемых данных.
Показатели качества информации
Адекватность информации– это уровень соответствия создаваемого с помощью полученной информации образа реальному объекту, процессу, явлению и т.п.
Выделяют три уровня адекватности информации: синтаксический, семантический и прагматический.
Синтаксическая адекватность отображает соответствие структуры информации и не затрагивает ее смыслового содержания. Проверяется тип носителя, форма представления, тип кода представления информации и т.п. Информацию, рассматриваемую с синтаксических позиций, называют данными.
Семантическая (смысловая) адекватность определяет степень соответствия образа объекта и самого объекта. Учитывается только смысловое содержание информации.
Прагматическая (потребительская) адекватность отражает ценность, полезность информации для достижения цели.
Актуальность – показывает возможность применения информации для принятия решений в данный момент времени.
Достоверность – качественная характеристика информации, показывающая точность соответствия информации исходному объекту. Допустим, при бросании игральной кости мы с точностью 100% можем предсказать, что выпадет число от 1 до 6. На основании показателя 100% можно сделать вывод, что наше предсказание является достоверной информацией. Чем выше вероятность соответствия информации действительности, тем выше уровень ее достоверности.
Доступность – свойство информации, показывающее возможность ее получения в случае необходимости данным потребителем, простота (или возможность) выполнения процедур получения и преобразования информации.
Дуализм – свойство информации, отражающее двойственность ее природы. С одной стороны информация объективна, т.к. строится на основе материи, с другой стороны субъективна т.к. конечным ее потребителем является человек. Например, два студента, прочитав одну и ту же лекцию, усвоят из нее разное количество информации.
Защищенность – свойство, характеризующее невозможность несанкционированного использования или изменения информации.
Полнота – свойство информации, показывающее достаточность данных для принятия решений или создания новых данных. В случае неполной информации возникает неопределенность, мешающая принятию решений. Избыточная полнота (информационный шум) также может оказать негативное воздействие, т.к. для принятия решения придется разделять действительно важную информацию от избыточной.
Репрезентативностьинформации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Например, в целях большей репрезентативности данных о себе абитуриенты стремятся представить в приемную комиссию как можно больше свидетельств, дипломов, удостоверений и другой информации, подтверждающей их высокий уровень подготовки, что учитывается при зачислении в ВУЗ. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
Устойчивостьинформации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.
Эргономичность – свойство, характеризующее удобство формы или объема информации с точки зрения данного потребителя.
Совокупность перечисленных свойств характеризует уровень качества информации. Чем больше свойств выполняется, тем качественней рассматриваемая информация.
Показатели качества информации
Информация в системе управления является и предметом труда и продуктом труда, поэтому от ее качества существенно зависят эффективность и качество функционирования системы. Качество информации можно определить как совокупность свойств, обусловливающих возможность ее использования для удовлетворения определенных в соответствии с ее назначением потребностей. Возможность и эффективность использования информации для управления обусловливается такими ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, своевременность, устойчивость, точность, достоверность, актуальность, защищенность и ценность.
Репрезентативность
Репрезентативность — правильность, качественная адекватность отражения заданных свойств объекта. Репрезентативность информации зависит от правильности ее отбора и формирования. Важнейшее значение при этом приобретают: верность концепции, на базе которой сформулировано исходное понятие, отображаемое показателем; обоснованность отбора существенных признаков и связей отображаемого явления; правильность методики измерения и алгоритма формирования экономического показателя. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям, называемым чаще всего алгоритмическими.
Содержательность
Содержательность информации — это ее удельная семантическая емкость, равная отношению количества семантической информации в сообщении к объему данных, его отображающих, то есть S = Iс/Vд.
С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для передачи одних и тех же сведений требуется преобразовывать меньший объем данных.
Достаточность (полнота) экономической информации означает, что она содержит минимальный, но достаточный для принятия правильного управленческого решения набор экономических показателей. Понятие достаточности информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, то есть недостаточная для принятия правильного решения, так и избыточная информация снижают эффективность управления; наивысшим качеством обладает именно полная информация.
Доступность информации для восприятия при принятии управленческого решения обеспечивается выполнением соответствующих процедур ее получения и преобразования. Так, назначением вычислительной системы и является увеличение доступности информации путем согласования ее с тезаурусом пользователя, то есть преобразование ее к доступной и удобной для восприятия пользователем форме.
Актуальность информации — это свойство информации сохранять свою полезность (ценность) для управления во времени. Измеряется актуальность А(t) степенью сохранения начальной полезности информации Z(t0) в момент времени t ее использования:
где Z(t)— полезность информации в момент времени t.
Актуальность зависит от статистических характеристик отображаемого объекта (от динамики изменения этих характеристик) и от интервала времени, прошедшего с момента возникновения данной информации.
Своевременность — это свойство информации, обеспечивающее возможность ее использования в заданный момент времени. Несвоевременная информация приводит к экономическим потерям и в сфере управления, и в сфере производства. Причиной, обусловливающей экономические потери от несвоевременности в сфере управления, является нарушение установленного режима решения функциональных задач, а иногда и их алгоритмов. Это приводит к увеличению стоимости решения задач вследствие снижения ритмичности, увеличения простоев и сверхурочных работ и т.п. в сфере материального производства. Потери от несвоевременности информации связаны со снижением качества управленческих решений, принятием решения на базе неполной информации или информации некачественной. Своевременной является такая информация, которая может быть учтена при выработке управленческого решения без нарушения регламента, поступающая в систему управления не позже назначенного момента времени.