Для оценки эффективности производственных процессов
Данные являются цифровым представлением происходящих процессов. По данным в системах мониторинга формируются ключевые показатели эффективности: технологические, экономические и социальные. Они используются в программных продуктах для реализации бизнес-задач – от систем учёта до поддержки принятия решений. Если не заниматься вопросом качества данных (правилами их ведения, «очистки» и восстановления), то результат работы таких систем будет некорректным, что, как следствие, приведёт к снижению бизнес-выгоды предприятия. Существует несколько направлений работы с данными, среди них можно выделить Data-driven – подход, базирующийся на проверке их достоверности и полноты. IT-компания NAUKA поделилась своим опытом в использовании этого подхода.
Существует ряд факторов, из которых можно выделить:
Всё это может приводить к дублированию данных, пропускам значений, появлению заведомо ложных значений, нетипичному представлению данных и т. д.
Проблемы качества данных делятся на два типа: уровень структуры (схема описания объектов и их взаимосвязи) и уровень сущности (предметная область). В первом случае её можно решить обеспечением целостности данных, а именно путём организации корректной структуры – реляционной базы данных, что позволяет задать ограничения для поддержки сущностной, доменной и ссылочной целостностей. В этой работе проблема качества данных рассматривается на уровне сущности.
Под понятием Data-driven подразумевается методология разработки информационных систем, в основе которой стоит использование больших массивов данных, накопленных за продолжительный промежуток времени. При этом есть определённые требования к качеству и объёму используемых данных, так как эти факторы напрямую влияют на принятие управленческих решений. Чтобы понять, можно ли использовать Data-driven подход для решения конкретной производственной задачи, необходимо знать:
Если ответов на некоторые из вопросов нет, их нужно искать. И здесь важно следовать от общего к частному. Так, общая задача может ставиться в понятном виде, например, заключаться в необходимости повышения чистой прибыли компании. Решая такую задачу, следует ориентироваться на стратегические производственные планы верхнего уровня, которые формируются из данных блоков технологического производства, оптимизированных и взаимосвязанных между собой.
Эти блоки разбиваются на единицы взаимосвязанного оборудования, которые также могут быть оптимизированы, например, по энергетическим показателям. Достичь наивысшего экономического эффекта при таком комплексном декомпозиционном подходе возможно, только если на всех уровнях детализации будут использоваться достоверные данные. Чтобы это обеспечить, в информационной системе должен быть реализован алгоритм оценки качества данных и их преобразования.
Согласно ГОСТ Р 57773-2017, в котором описаны подходы по прямой и косвенной оценке данных, существует несколько методов определения качества данных.
Прямая оценка (direct evaluation)
Метод оценки качества набора данных, основанный на проверке его элементов.
Методы такого типа делятся на внутренние и внешние:
Метод оценки качества набора данных реализуется на основе внешних знаний или накопленного опыта работы с информационным продуктом, т. е. является субъективным.
Качество данных может быть оценено, например, на основе знаний об источнике, инструментах и методах, использованных для сбора данных и оценённых по отношению к процедурам и спецификациям, разработанным для конкретного информационного продукта. В некоторых случаях бывает затруднительно или даже невозможно описать косвенно оценённое качество данных в виде количественного результата.
Таким образом, методы прямой оценки определяют качество данных путём их сравнения с внутренней и/или внешней информацией. Методы косвенной оценки выводят или оценивают качество данных, используя информацию о происхождении данных. Применение методов прямой оценки предпочтительнее косвенной.
Работа с данными включает в себя несколько этапов:
Существующие статистические подходы к восстановлению временных серий измерений решают, как правило, только проблему коррекции серии частично зашумлённых данных без пропусков, никак не затрагивая вопрос восстановления пропущенных значений во временном отрезке с искажёнными значениями.
Для корректировки значений могут быть использованы различные методы восстановления данных.
Zet-алгоритм для получения прогнозной величины
В общем виде прогнозная величина может быть представлена следующим образом:
bj=∑qk=1bkLajk∑qk=1Lajk/…, где Laja – тождественность k-го столбца по отношению к j-му столбцу, «подсказки» bk определяются с использованием методов линейной регрессии.
Позволяет при реконструкции временных рядов производственных данных одновременно решать задачи коррекции искажённых и заполнения пропущенных измерений. Метод восстановления временных рядов данных дистанционных измерений обеспечивает исключение зашумлённых и заполнение пропущенных значений на основе алгоритма оконной аппроксимации локальной серии измерений полиномами второй степени вида 2f(t)= at2+bt+cft= at2+bt+c, где f(t) – значение некоторой характеристики исследуемого процесса во времени t; a, b и с – коэффициенты полинома.
Алгоритм предусматривает использование скользящего вдоль оси времени окна, включающего некоторое фиксированное количество значащих измерений для вычисления коэффициентов полинома. Поиск значений коэффициентов происходит с помощью метода наименьших квадратов с нахождением локальных экстремумов соответствующего функционала методом оптимизации Нелдера-Мида (метод деформируемого многогранника).
Интерполяция является практической задачей вычислительной математики: по заданной таблице чисел (xi , f(xi )), i = 0,1,.., N требуется восстановить некую функцию f(x) с той или иной точностью на числовом отрезке [a, b]. Метод её решения состоит в построении единого интерполяционного многочлена Лагранжа. Так, известно, что через любые две точки единственным образом можно провести прямую (многочлен первой степени); через любые три точки – параболу (многочлен второй степени) и т. д. Индуктивно доказывается, что если задано N пар чисел (xi , f(xi)) – узлов интерполяции и значений функции в этих узлах, то существует единственная интерполянта – полином степени не выше N-1.
При решении практических задач, для того чтобы получить приемлемые результаты по приближению исходной функции, вместо построения интерполяционного многочлена высокой степени используют интерполяцию кусочными многочленами (пример – кусочно-линейная интерполяция). В общем случае отрезок [a, b] точками a = x0 < x1 < ... < xn = b разбивается на части, и на каждом промежутке [xi , xi+1], i = 0,1,.., n-1 строится свой интерполяционный многочлен. Полученные таким образом многочлены (обычно одной и той же степени) дают интерполяцию функции f(x) на всём отрезке [a, b], которая, тем не менее, не обеспечивает гладкого перехода от одного отрезка к другому. Для гладкого восстановления таблично заданной функции нужно увеличивать степень составляющих многочленов, а оставшиеся свободными коэффициенты определять из условий гладкого сопряжения многочленов на всех соседних промежутках [xi , xi+1].
Как упоминалось выше, данные используются для построения различных систем. Если доступ к данным затруднён, то невозможно построение объективных систем учёта, а без них, в свою очередь, нельзя определить значения материальных, энергетических и финансовых ресурсов. Всё это ведёт к прямым потерям. Без корректного учёта проблематично построить модели процессов даже с использованием точных систем инженерного моделирования. Также некорректные данные недопустимо применять для построения статистических моделей и предиктивного анализа.
Для разработки программных продуктов, использующих данные, информационная система предприятия должна располагать инструментами сбора и хранения данных. Необходимо создать математическую модель предприятия, в которой сформирована база технологических объектов и описаны их взаимосвязи и регламентные ограничения. На рисунке показан пример блок-схемы модели, разработанной для нефтеперерабатывающего завода (НПЗ).
Разберём второй подход на примере расчёта материального баланса технологического объекта. Для анализа массовых расходов из всего перечня атрибутов необходимо использовать атрибут «Алгоритм», предоставляющий описание расчёта соответствующего потока и получить данные с приборов учёта (объёмный расход, значения температуры, компонентный состав), являющиеся аргументами функции. Зная компонентный состав потока, можно рассчитать плотность фракции, либо воспользоваться первичными данными о плотности при условии их наличия, а затем перевести объёмный расход в массовый с учётом температурных поправок, получив, таким образом, исходное значение функции.
Обработка данных происходит с помощью потоков с атрибутами, в рамках которых по алгоритму по уже описанному принципу рассчитываются массовые расходы по исходным данным - как изображено на рисунке.
Аналогичным образом можно рассчитать массовый расход конкретного продукта со всех поставщиков и собрать потоки в виртуальный коллектор для моделирования последующей переработки. Далее интегрированные значения по расходу анализируемого потока поступают из коллектора на операцию фракционирования – технологическую газофракционирующую установку (ГФУ). По такому же принципу могут быть рассчитаны и остальные потребители.
Для установки газофракционирования из нашего примера в математической модели также выполняется алгоритм, обрабатывающий значение интегрированного объёмного расхода потока сырья (сжиженный газ) с прибора учёта.
Объёмный расход также преобразуется в массовый с учётом плотности и температурной поправки. В качестве примера получения значения температуры на колонне рассмотрим позицию с кодом 468 в системе SCADA/HMI:
В идеале согласование данных должно происходить по закону сохранения масс. На практике так бывает не всегда, и зачастую происходит рассогласование. Одна из возможных причин такой ситуации: измерение находится за границей точности прибора.
Во всех случаях устранение ошибок примерно одинаковое – либо восстановление данных в автоматизированном режиме, либо ручная корректировка.
Стоит отметить, что алгоритм согласования попытается свести баланс при любых имеющихся данных, но в случае несовершенства последних целевая функция может не достичь оптимального значения. Поэтому корректные, полные, непротиворечивые данные так важны для построенной на них системы. Они позволяют при прочих равных условиях гарантированно решить задачу согласования за минимальное машинное время. Результаты такой работы позволяют сократить не только прямые материальные затраты, но и финансовые риски недобросовестного учёта.