Задайте нам вопрос
Отвечаем в течение дня, кроме выходных.
Нажимая кнопку Отправить, вы соглашаетесь
с Политикой конфиденциальности и даете
Согласие на обработку персональных данных
Иван Лисицын
Коммерческий директор
ПубликацииСМИ о нас

Использование подхода Data-driven

15.08.2022

Для оценки эффективности производственных процессов

Дарья Смирнова
Эмиль Гасанов

Данные являются цифровым представлением происходящих процессов. По данным в системах мониторинга формируются ключевые показатели эффективности: технологические, экономические и социальные. Они используются в программных продуктах для реализации бизнес-задач – от систем учёта до поддержки принятия решений. Если не заниматься вопросом качества данных (правилами их ведения, «очистки» и восстановления), то результат работы таких систем будет некорректным, что, как следствие, приведёт к снижению бизнес-выгоды предприятия. Существует несколько направлений работы с данными, среди них можно выделить Data-driven – подход, базирующийся на проверке их достоверности и полноты. IT-компания NAUKA поделилась своим опытом в использовании этого подхода.

Дарья Смирнова
Эмиль Гасанов

Критерии качества данных

Согласно ГОСТ Р 56214-2014/ и ISO/TS 8000-1:2011, качество данных оценивается по следующим критериям:
  • Аналитичность. Имеют ли данные определённое назначение, т. е. участвуют ли в принятии какого-либо решения.
  • Объективность. Уместны ли данные, т. е. нужны ли они в подходящем месте в подходящее время.
  • Релевантность и эргономичность. Отвечают ли данные требованиям потребителя.
  • Рациональность. Предотвращено ли повторение дефектов данных и сокращают ли они избыточные расходы.
Другими словами, информация должна быть полезной, актуальной и достоверной.

Почему качество данных ухудшается

Существует ряд факторов, из которых можно выделить:


  • Низкий уровень организации бизнес-процессов
  • Ошибки в проектировании информационных систем
  • Нарушение целостности данных
  • Дефекты в интеграционных сервисах
  • Отсутствие формализованных опорных точек и инструментов валидации данных.
  • Технические факторы: погрешности в измерениях приборов, отсутствие сигнала, перебои связи и т. д.
  • Человеческий фактор

Всё это может приводить к дублированию данных, пропускам значений, появлению заведомо ложных значений, нетипичному представлению данных и т. д.

Классификация проблем качества данных

Проблемы качества данных делятся на два типа: уровень структуры (схема описания объектов и их взаимосвязи) и уровень сущности (предметная область). В первом случае её можно решить обеспечением целостности данных, а именно путём организации корректной структуры – реляционной базы данных, что позволяет задать ограничения для поддержки сущностной, доменной и ссылочной целостностей. В этой работе проблема качества данных рассматривается на уровне сущности.

Data-driven подход в реализации производственных задач

Под понятием Data-driven подразумевается методология разработки информационных систем, в основе которой стоит использование больших массивов данных, накопленных за продолжительный промежуток времени. При этом есть определённые требования к качеству и объёму используемых данных, так как эти факторы напрямую влияют на принятие управленческих решений. Чтобы понять, можно ли использовать Data-driven подход для решения конкретной производственной задачи, необходимо знать:


  • Суть решаемой задачи.
  • Структуру данных бизнеса и аналитическую стратегию их использования на предприятии.
  • Специфику организации хранилища/озера данных, информацию о месте и способе их хранения, а также правилах их обработки.
  • Сущность данных, с которыми предстоит работать, и ответ на вопрос, следуют ли полученные зависимости концепции коинтеграции.
  • Степень доверия данным и результатам их обработки.
  • Уровень готовности лиц, принимающих решения, использовать полученные результаты.

Если ответов на некоторые из вопросов нет, их нужно искать. И здесь важно следовать от общего к частному. Так, общая задача может ставиться в понятном виде, например, заключаться в необходимости повышения чистой прибыли компании. Решая такую задачу, следует ориентироваться на стратегические производственные планы верхнего уровня, которые формируются из данных блоков технологического производства, оптимизированных и взаимосвязанных между собой.

Эти блоки разбиваются на единицы взаимосвязанного оборудования, которые также могут быть оптимизированы, например, по энергетическим показателям. Достичь наивысшего экономического эффекта при таком комплексном декомпозиционном подходе возможно, только если на всех уровнях детализации будут использоваться достоверные данные. Чтобы это обеспечить, в информационной системе должен быть реализован алгоритм оценки качества данных и их преобразования.

Подходы к оценке данных

Согласно ГОСТ Р 57773-2017, в котором описаны подходы по прямой и косвенной оценке данных, существует несколько методов определения качества данных.

Прямая оценка (direct evaluation)

Метод оценки качества набора данных, основанный на проверке его элементов.


Методы такого типа делятся на внутренние и внешние:


  • Внутренняя прямая (internal direct) оценка использует только те данные, которые содержатся в выбранном наборе.
  • Внешняя прямая (external direct) оценка требует применения эталонных данных (принятых как представляющие предметную область), внешних по отношению к тестируемому набору.
В обоих случаях может использоваться один из следующих способов проверки:

  • Полный контроль (full inspection). Тестируется каждый элемент в генеральной совокупности, определённой областью качества данных. Больше всего подходит для небольших генеральных совокупностей или для тестов, которые могут быть выполнены в автоматическом режиме.
  • Выборочный контроль (sampling). Выполняется для проверки данных, заданных областью их качества.

Косвенная оценка (indirect evaluation)

Метод оценки качества набора данных реализуется на основе внешних знаний или накопленного опыта работы с информационным продуктом, т. е. является субъективным.

Качество данных может быть оценено, например, на основе знаний об источнике, инструментах и методах, использованных для сбора данных и оценённых по отношению к процедурам и спецификациям, разработанным для конкретного информационного продукта. В некоторых случаях бывает затруднительно или даже невозможно описать косвенно оценённое качество данных в виде количественного результата.

Таким образом, методы прямой оценки определяют качество данных путём их сравнения с внутренней и/или внешней информацией. Методы косвенной оценки выводят или оценивают качество данных, используя информацию о происхождении данных. Применение методов прямой оценки предпочтительнее косвенной.


Работа с данными включает в себя несколько этапов:


  1. Сбор. Получение первичных данных от источников данных: информационные системы, приборы учёта, ручной ввод.
  2. Оценка качества. Проведение оценки качества полученных данных доступным методом, локализация пропусков по данным, выявление интервалов/совокупностей, демонстрирующих значительные отклонения от среднестатистической величины.
  3. Очистка. Состоит из нескольких этапов: анализ данных, определение правил преобразования, непосредственное преобразование данных, замена некорректных данных преобразованными данными.
  4. Повторная оценка. Оценка преобразованных данных в сравнении с исходными.

Существующие статистические подходы к восстановлению временных серий измерений решают, как правило, только проблему коррекции серии частично зашумлённых данных без пропусков, никак не затрагивая вопрос восстановления пропущенных значений во временном отрезке с искажёнными значениями.

Методы коррекции и восстановления данных

Для корректировки значений могут быть использованы различные методы восстановления данных.

Zet-алгоритм для получения прогнозной величины

В общем виде прогнозная величина может быть представлена следующим образом:

bj=∑qk=1bkLajk∑qk=1Lajk/…, где Laja – тождественность k-го столбца по отношению к j-му столбцу, «подсказки» bk определяются с использованием методов линейной регрессии.

Алгоритм скользящей оконной аппроксимации на основе полиномов второй степени

Позволяет при реконструкции временных рядов производственных данных одновременно решать задачи коррекции искажённых и заполнения пропущенных измерений. Метод восстановления временных рядов данных дистанционных измерений обеспечивает исключение зашумлённых и заполнение пропущенных значений на основе алгоритма оконной аппроксимации локальной серии измерений полиномами второй степени вида 2f(t)= at2+bt+cft= at2+bt+c, где f(t) – значение некоторой характеристики исследуемого процесса во времени t; a, b и с – коэффициенты полинома.


Алгоритм предусматривает использование скользящего вдоль оси времени окна, включающего некоторое фиксированное количество значащих измерений для вычисления коэффициентов полинома. Поиск значений коэффициентов происходит с помощью метода наименьших квадратов с нахождением локальных экстремумов соответствующего функционала методом оптимизации Нелдера-Мида (метод деформируемого многогранника).

Восстановление методом сплайн-интерполяции

Интерполяция является практической задачей вычислительной математики: по заданной таблице чисел (xi , f(xi )), i = 0,1,.., N требуется восстановить некую функцию f(x) с той или иной точностью на числовом отрезке [a, b]. Метод её решения состоит в построении единого интерполяционного многочлена Лагранжа. Так, известно, что через любые две точки единственным образом можно провести прямую (многочлен первой степени); через любые три точки – параболу (многочлен второй степени) и т. д. Индуктивно доказывается, что если задано N пар чисел (xi , f(xi)) – узлов интерполяции и значений функции в этих узлах, то существует единственная интерполянта – полином степени не выше N-1.


При решении практических задач, для того чтобы получить приемлемые результаты по приближению исходной функции, вместо построения интерполяционного многочлена высокой степени используют интерполяцию кусочными многочленами (пример – кусочно-линейная интерполяция). В общем случае отрезок [a, b] точками a = x0 < x1 < ... < xn = b разбивается на части, и на каждом промежутке [xi , xi+1], i = 0,1,.., n-1 строится свой интерполяционный многочлен. Полученные таким образом многочлены (обычно одной и той же степени) дают интерполяцию функции f(x) на всём отрезке [a, b], которая, тем не менее, не обеспечивает гладкого перехода от одного отрезка к другому. Для гладкого восстановления таблично заданной функции нужно увеличивать степень составляющих многочленов, а оставшиеся свободными коэффициенты определять из условий гладкого сопряжения многочленов на всех соседних промежутках [xi , xi+1].

Ценность корректных данных для построения предиктивных, инженерных и моделирующих систем

Как упоминалось выше, данные используются для построения различных систем. Если доступ к данным затруднён, то невозможно построение объективных систем учёта, а без них, в свою очередь, нельзя определить значения материальных, энергетических и финансовых ресурсов. Всё это ведёт к прямым потерям. Без корректного учёта проблематично построить модели процессов даже с использованием точных систем инженерного моделирования. Также некорректные данные недопустимо применять для построения статистических моделей и предиктивного анализа.

Сбор и подготовка данных: подходы и принципы

Для разработки программных продуктов, использующих данные, информационная система предприятия должна располагать инструментами сбора и хранения данных. Необходимо создать математическую модель предприятия, в которой сформирована база технологических объектов и описаны их взаимосвязи и регламентные ограничения. На рисунке показан пример блок-схемы модели, разработанной для нефтеперерабатывающего завода (НПЗ).

Блок-схема математической модели на примере НПЗ
Блок-схема математической модели на примере НПЗ

Ценность корректных данных для построения предиктивных, инженерных и моделирующих систем

Теперь рассмотрим процедуру сбора и подготовки данных. Каждый элемент блок-схемы (в примере для НПЗ – технологическая установка) описывается набором входных и выходных информационных потоков. В свою очередь, каждый поток имеет перечень формализованных атрибутов. Для реализации процедуры сбора и подготовки данных нас интересуют те из них, которые отвечают за взаимодействие с источниками первичных данных (для предприятия – с приборами учёта).
Для сбора и подготовки данных применяются разные подходы. Наиболее распространены из них два:

  • Использование итоговых преобразованных значений.
  • Сбор данных о базовых значениях расходов, температур, давлений, плотностей с последующей обработкой в системе.

Разберём второй подход на примере расчёта материального баланса технологического объекта. Для анализа массовых расходов из всего перечня атрибутов необходимо использовать атрибут «Алгоритм», предоставляющий описание расчёта соответствующего потока и получить данные с приборов учёта (объёмный расход, значения температуры, компонентный состав), являющиеся аргументами функции. Зная компонентный состав потока, можно рассчитать плотность фракции, либо воспользоваться первичными данными о плотности при условии их наличия, а затем перевести объёмный расход в массовый с учётом температурных поправок, получив, таким образом, исходное значение функции.

Связь и обработка данных

Обработка данных происходит с помощью потоков с атрибутами, в рамках которых по алгоритму по уже описанному принципу рассчитываются массовые расходы по исходным данным - как изображено на рисунке.

Связь и обработка данных
Связь и обработка данных

Аналогичным образом можно рассчитать массовый расход конкретного продукта со всех поставщиков и собрать потоки в виртуальный коллектор для моделирования последующей переработки. Далее интегрированные значения по расходу анализируемого потока поступают из коллектора на операцию фракционирования – технологическую газофракционирующую установку (ГФУ). По такому же принципу могут быть рассчитаны и остальные потребители.

Виртуальный коллектор материальных потоков
Виртуальный коллектор материальных потоков

Для установки газофракционирования из нашего примера в математической модели также выполняется алгоритм, обрабатывающий значение интегрированного объёмного расхода потока сырья (сжиженный газ) с прибора учёта.

Согласование данных между объектами
Согласование данных между объектами

Объёмный расход также преобразуется в массовый с учётом плотности и температурной поправки. В качестве примера получения значения температуры на колонне рассмотрим позицию с кодом 468 в системе SCADA/HMI:

Правила сбора и преобразования данных
Правила сбора и преобразования данных
Таким образом, у нас есть два типа данных для интегральной величины:

  • Данные с виртуального коллектора и резервуарных парков.
  • Данные на газофракционирующей установке.

В идеале согласование данных должно происходить по закону сохранения масс. На практике так бывает не всегда, и зачастую происходит рассогласование. Одна из возможных причин такой ситуации: измерение находится за границей точности прибора.

Обзор ошибок в измерениях и способы их обнаружения

Если рассматривать проблему качества данных на уровне сущности в контексте данных о производстве, то самая частая проблема, которая возникает при промышленной автоматизации, – это качество данных измерений. Приведём несколько примеров дефектных данных:

  • Использование значений по умолчанию за продолжительный интервал времени.
  • Появление кратковременных нулевых значений или пустые значения.
  • Фиксация граничных значений приборов учёта (значение находится за пределами шкалы измерения прибора).
  • Выявление значений, которые не соответствуют физической сущности реального объекта, нефизических значений.
  • Отсутствие согласованности значений данных.
  • Наличие противоречивых значений, дублирующих показателей.
Возможны сценарии, когда в систему поступают не вполне корректные данные. Существует несколько распространённых видов ошибок данных (причин их появления):

  • Сигнал пропадает, и в базу данных сервера вносятся значения по умолчанию за продолжительный интервал времени.
  • Ошибки в измерениях: нулевые значения с короткими интервалами или отрицательные значения. В этом случае можно восстановить данные по значениям между скачками.
  • Залипание датчика на постоянном значении или выход за шкалу измерения прибора.

Во всех случаях устранение ошибок примерно одинаковое – либо восстановление данных в автоматизированном режиме, либо ручная корректировка.

Согласование данных

Следующая после корректировки данных задача – согласование данных. Её решение имеет высокий приоритет и помогает ответить на главный вопрос: совпадает ли объём поступающего сырья с объёмом выходной продукции с учётом потерь? Использование средств аналитики результата согласования данных позволяет обратить внимание на проблемные места в описании модели производства, что также полезно с точки зрения усиления модели источниками первичных данных.

Стоит отметить, что алгоритм согласования попытается свести баланс при любых имеющихся данных, но в случае несовершенства последних целевая функция может не достичь оптимального значения. Поэтому корректные, полные, непротиворечивые данные так важны для построенной на них системы. Они позволяют при прочих равных условиях гарантированно решить задачу согласования за минимальное машинное время. Результаты такой работы позволяют сократить не только прямые материальные затраты, но и финансовые риски недобросовестного учёта.

Как промышленные предприятия используют качественные данные

Функционирование ряда программных продуктов для промышленных предприятий тесно связано с корректностью и полнотой исходных данных.

Прогнозные системы

Для промышленных предприятий, в частности, крайне остро стоит вопрос прогнозирования потребления энергоресурсов. Чтобы обеспечить проведение корректных расчётов, используются системы предиктивного анализа, в основе которых также лежат данные. Для такой системы критически важно определить матрицу факторов (карту корреляции), напрямую влияющих на целевую функцию, объём и качество поставляемых о них данных.


Всё это позволяет построить прогнозную систему на ближайшие горизонты планирования (сутки, трое суток, неделя). Функцию такой системы можно использовать для выработки нормируемых удельных показателей потребления ресурсов технологическими объектами для использования в моделях планирования производства. Они необходимы, чтобы сформировать план закупки электроэнергии для реализации производственной программы. Существует несколько вариантов тарифного плана на закупку электроэнергии. В качестве примера рассмотрим два из них: фиксированный тариф и тариф по пятой ценовой категории (ЦК).

В качестве примера в первом случае будет закуплена электроэнергия с дорогим фиксированным тарифом: по данным из открытых источников (ЕЭС-Гарант, РН-Энерго), для потребителей свыше 10 МВт ставка в среднем на сегодняшний день составляет 4800 руб./МВт*ч. Во втором – предприятие обязуется потребить ровно столько, сколько было запланировано, и закупает электроэнергию по сниженному тарифу (по состоянию на текущий год для пятой ценовой категории с почасовым планированием на сутки вперед – 2687 руб./МВт*ч).

Рассмотрим на примере НПЗ случай, когда предприятие планирует потребление электроэнергии точно, и оценим финансовые потери на примере установки первичной переработки нефти (АВТ) с регламентной мощностью в 7 млн т/год.
Разница в выборе тарифной политики для этого кейса составила 9 млн руб./мес. только лишь для одной установки. Количество технологических объектов на предприятии может достигать десятки и сотни единиц. В среднем, нефтеперерабатывающий завод с мощностью переработки порядка 1,5 млн т/мес. потребляет свыше 100 ГВт: выгода при использовании плановых тарифов может быть свыше 211,3 млн руб./мес.

В случае нарушения плановой закупки тариф увеличивается, и применяются штрафные санкции. Поэтому важно точно знать норму потребления энергоресурсов, которую можно получить исключительно на основе корректных исходных данных.

Системы для оценки энергоэффективности

Данные служат фундаментом для создания и других систем, например, систем энергоэффективности. Это обусловлено тем, что процедура анализа достоверности исходных данных является обязательным условием для построения адекватных математических моделей и должна лежать в основе работы расчётного блока прогнозных информационных систем. Так, организация энергоучёта на базе достоверных данных временных рядов и с требуемой дискретностью открывает возможности для анализа энергоэффективности производства.

Проверка корректности (достоверности) данных является обязательной частью работы, и в ходе неё могут быть выявлены серьёзные отклонения. Иногда они носят несистемный характер, но при этом вносят значительную погрешность в результаты обработки данных.

Периодически могут быть идентифицированы значения, выпадающие или сильно (до порядков значений) отличающиеся от стандартной картины при стабильной работе объекта. Решение в этом случае состоит в фиксации фактов критического отклонения значений, проведении предметной аналитики и корректировке значений интеллектуальным блоком или в режиме эксперта.

Системы поддержки принятия решений

Технологии машинного обучения и искусственного интеллекта быстро развиваются и становятся всё популярнее, что позволяет эффективно использовать их для решения практических задач.

Следует помнить, что такие механизмы очень чувствительны к объёму и качеству предоставляемых данных. Это следует учитывать, так как экономия на работе с данными может привести к ситуации, когда результат решения производственной задачи бывает непредсказуемым и совершенно противоположным ожиданиям.

Заключение

Корректные, полные, непротиворечивые данные являются основой для оценки эффективности деятельности современного предприятия. На них базируется Data-driven – комплексный декомпозиционный подход разработки информационных систем. Он целесообразен в том случае, если на всех уровнях детализации используются достоверные данные. При этом существует немало внешних и внутренних факторов, снижающих их качество. Для того чтобы нивелировать влияние таких факторов, необходимо проводить оценку качества данных и их преобразование. Только тогда применение программных продуктов на предприятии будет способствовать повышению его бизнес-выгоды.
Ольга Шура
PR менеджер
Обсудить публикацию статьи экспертов NAUKA в Вашем издании
Контакты для СМИ
Прочие публикации
Все публикации
    Остались вопросы?
    Оставьте контакты.
    Оперативно свяжемся, обсудим детали, организуем встречу.
    Нажимая кнопку Отправить, вы соглашаетесь с Политикой конфиденциальности и даете
    Согласие на обработку персональных данных
    Почему клиенты доверяют нам?
    Эксперты в предметной области
    Каждый проект сопровождают аналитики и эксперты в производственных процессах, финансах, ТОиР, капитальном строительстве и документообороте с подтвержденной сертификатами экспертизой и релевантным опытом
    Надежный партнер и работодатель
    Ежегодно подтверждаем финансовую стабильность компании, уверенно растём и вкладываем средства в инновации, наём и развитие сотрудников
    Безупречная репутация
    Чётко выполняем обязательства перед нашими клиентами, партнерами и сотрудниками, соблюдаем нормы трудового и налогового законодательства