[Перевод] Как с помощью Data Science «перезагрузить» завод после незапланированного отключения
Иногда процесс тайм-аута занимает от нескольких дней до недель, прежде чем удастся выявить и устранить истинные первопричины. Ускорение этого процесса всего на несколько часов — уже значительно снизит убытки. Чтобы проиллюстрировать презентацию о том, как инженеры решают проблему, давайте посмотрим на синтетические данные всего с 20 датчиков ниже. На этом графике есть два датчика, которые сильно связаны статистически, и, допустим, один из них — настоящая, основная причина событий отключения.
Синтетические данные для моделирования показаний датчиков завода
К сожалению, глядя на график, трудно определить, какие два из датчиков связаны, не так ли? Поскольку на небольшом нефтегазовом заводе имеется от 1000 до 3000 датчиков, это одна из по-настоящему проблемных точек для инженеров по эксплуатации и техническому обслуживанию (включая меня) при выявлении таких датчиков и основных причин. Помните, что можно сэкономить миллионы долларов, если мы сможем быстрее найти такие отношения.
Два статистически связанных датчика из 20 других обычных датчиков
Я поделюсь с вами двумя методиками, которые мы попробовали и нашли приемлемый уровень успеха, чтобы выявить взаимосвязь между этими двумя соответствующими датчиками среди других. Но прежде позвольте мне объяснить, почему это важно для инженеров и операторов.
Во-первых, для любого события отключения на современном нефтегазовом заводе верно, что в диспетчерской установлена сложная система управления, которая может показать «метку первой блокировки». Эта «первая метка» датчика, запускающего событие отключения (например, высокий-высокий сигнал тревоги давления на выходе компрессора, низкий-низкий уровень тревоги в критическом сепараторе).
Важность
Этот первый датчик блокировки очень важен для инженеров по эксплуатации и техническому обслуживанию для начала изучения потенциальных первопричин, вызывающих остановку завода. В большинстве случаев инженеры и операторы могут решить проблему остановки завода, просто взглянув на эту первую метку блокировки. Однако во многих случаях это мало что нам даст, поскольку переработка нефти и газа настолько сложна, что появление этой первой метки блокировки — последнее, что произойдёт, тогда как мы хотим знать, что произошло до её срабатывания.
Первое решение: иерархическая кластеризация
Как только мы изучим первый датчик блокировки и количество времени до события отключения, мы можем использовать полученные сведения для выполнения метода кластеризации, чтобы определить, какие датчики ведут себя так же, как первые датчики блокировки. Мы считаем, что метод иерархической кластеризации и создание дендрограмм — это полезный подход к визуализации, который может дать информацию пользователю, не имеющему отношения к науке о данных. Пример показан на рисунке ниже.
Кластеризация дендрограммы методом иерархической кластеризации
Этот метод не только полезен при поиске основной причины незапланированного отключения, но и может применяться при поиске любых связанных с ним датчиков, которые ведут себя иначе, чем в нормальном состоянии. Например, допустим, что датчик TI2335 показывает неизвестное повышение температуры всасывающего газоочистителя, и мы хотим выяснить, какова основная причина аномального повышения. Мы можем использовать этот метод, чтобы найти соответствующие датчики, которые нужно посмотреть. Вместо того чтобы искать среди 1000-3000 датчиков, инженеры могут сосредоточиться только на датчиках, которые расположены близко к аномальным датчикам или первым датчикам блокировки. Тогда время устранения неполадок может значительно сократиться. К сожалению, этот метод применим далеко не во всех случаях. Поэтому мы попробовали некоторые другие методы.
Второе решение: тест на причинность Грейнджера
Сэр Клайв Грейнджер
Тест на причинность Грейнджера — это статистический тест гипотезы для определения того, полезен ли один набор данных временных рядов для прогнозирования другого ряда. Он был опубликован сэром Клайвом Грейнджером в 1969 году, а в 2003 году он получил за свою работу Нобелевскую премию.
Когда экономист собирает статистические данные и превращает их в переменные, возникает одна общая проблема. Он не может определить, какая переменная независима, а какая является зависимой. Другими словами, мы не знаем, какой фактор вызывает другой фактор.
Пример нагляднее: когда экономисты пытаются найти связь между валовым внутренним производством (ВВП) и фондовым индексом. Во время процветания экономики ВВП и фондовый индекс также растут. Когда экономика страны в упадке, ВВП и фондовый индекс также снизятся. Однако одно вызывает другое. Некоторые утверждают, что ВВП должен быть независимой переменной, поскольку он отражает реальное внутреннее производство и потребление. Напротив, другие считают, что, чем выше фондовый индекс, тем больше инвесторы будут вкладывать в экономику страны, так как это надёжность, на которую инвесторы всегда обращают внимание. Эта проблема приводит к совершенно иной финансовой стратегии страны — вкладывать деньги в развитие экономики на местах или в развитие фондового рынка.
Тест на причинно-следственные связи Грейнжера
Сэр Грейнджер смог придумать статистический способ проверить, влияет ли одна переменная на другую, какое-то влияние — это одно направление или два направления, поэтому он получил за это Нобелевскую премию. Когда возникает такая проблема, кто-то может использовать этот тест для проверки других странных проблем; например для выяснения, что было раньше: курица или яйцо, в работе Турмана и Фишера (1988).
Хотя наша проблема не такая причудливая, как описанные выше, когда я пытался воспользоваться тестом на причинную связь Грейнжера в нашей проблеме. То есть с помощью этого теста можно отсеять некоторые не связанные друг с другом датчики и ранжировать связанные датчики, используя полученное р-значение. Для группы параметров процесса результат вполне удовлетворителен.
Далее для создания полезного GUI взаимодействия с пользователями, не обладающими навыками программирования, мы воспользовались библиотекой Gradio и создали красивую графику на этапе прототипирования.
Заключение
Таким образом, из того, что я пробовал до сих пор, иерархическая кластеризация хорошо работает с газоперерабатывающей частью, тогда как тест на причинно-следственные связи Грейнджера хорошо работает с жидкостной обрабатывающей частью. Одна из причин этого заключается в том, что в жидкостном процессе, по природе несжимаемой жидкости, обычно требуется время, прежде чем датчики успеют отреагировать на изменение процесса. В газовой фазе это не так.
Вот так методы Data Science применяются для решения реальных нефтегазовых проблем. Если у вас есть желание научиться этому и применить DS к проекту, над которым сейчас работаете — то мы ждем вас.
КУРСЫ