Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Software systems and computational methods
Reference:

Detection and interpretation of erroneous data in statistical analysis of consumption of energy resources

Makarova Irina Leonidovna

PhD in Technical Science

Head of Department, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

ratton@mail.ru
Other publications by this author
 

 
Ignatenko Anna Mikhailovna

Senior Lecturer, Department of Applied Mathematics and Computer Science, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

allrededor@mail.ru
Other publications by this author
 

 
Kopyrin Andrey Sergeevich

PhD in Economics

Head of Department, Department of Information Technology, Sochi State University

354000, Russia, Krasnodarskii krai, g. Sochi, ul. Plastunskaya, 94

kopyrin_a@mail.ru
Other publications by this author
 

 

DOI:

10.7256/2454-0714.2021.3.36564

Received:

01-10-2021


Published:

24-11-2021


Abstract: Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms.


Keywords:

statistical analysis, search for anomalies, energy consumption, gas consumption, municipality, smoothing, average, unauthorized consumption, gas accounting, optimization


Введение

Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Собранные банки данных можно представить в виде временных рядов, которые нуждаются в исследовании для получения характерных признаков, коррелирующих с исследуемыми свойствами.

Для решения подобного класса задач в литературе были предложены различные методы, которые имеют применение в широком спектре предметных областей, например, в медицине [1, 2], энергопотреблении [3, 4] и т.д. В целом рассматриваются три класса задач обработки полученных временных рядов: обнаружение аномалий, получение паттернов поведения (извлечение поведенческих признаков) и прогнозирование будущего поведения.

Во многих приложениях целесообразно выполнять аддитивную или мультипликативную декомпозицию временных рядов. Например, сезонные и трендовые компоненты получены в работе [5].

Обычно анализ временных рядов выполняется во временной, частотной и амплитудной областях. Более того, он может быть одномерным или многомерным (включая корреляции с другими временными рядами). Как правило, анализ временных рядов фокусируется на отслеживании аномалий и оценке свойств устросистемы которые могут быть использованы для последующей оптимизации.

Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании

Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса.

В течение длительного времени незаконное хищение газа не было искоренено и, не только наносит огромный экономический ущерб, но и влияет на надежность энергобаланса муниципалитетов. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени.

Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений.

Материалы и методы

Описание данных

Исходные данные представлены в виде таблицы в Excel. При подготовке набора данных использовались методы из работы [6]

Они имеют следующее содержание и обозначение:

- месяц проведения измерения - DT;

- идентификационный номер пользователя - ID;

- количество газовых плит - PG;

- количество водонагревательных колонок - BPG;

- количество приборов отопления - OT;

- количество приборов учета - PU;

- количество проживающих - PR;

- площадь помещения - S;

- объём потребляемого газа – V.

Месяц проведения измерения – DT – содержит стандартное обозначение даты: число, месяц, год. Данные охватывают период, состоящий из 22 последовательных месяцев наблюдений, однако, не все пользователи имеют полный набор таких данных. Другими словами, есть пользователи, которые имеют, например, только три или четыре месяца наблюдений. Это необходимо учитывать при дальнейшем анализе данных.

Идентификационный номер пользователя – ID – целые числа в диапазоне от 1 до 16000. Будем считать, что при записи идентификационного номера ошибки не совершаются.

Количество газовых плит – PG - целые числа. В нашем наборе эта величина принимает значения в диапазоне от 0 до 16. Следует отметить, что имеется норматив установки газовых плит в помещении. Опуская подробности, будем считать, что для установки газовой плиты необходима минимальная площадь помещения, например, не менее 4 м2. Таким образом, если на площади 20 м2 размещено 6 газовых плит, будем считать это ошибочными данными.

Количество водонагревательных колонок – BPG – целые числа в диапазоне от 0 до 6. Для размещения водонагревательных колонок также существуют нормативные требования. Общая площадь помещения для установки такой колонки должна быть не менее 12 м2. Значит, если в нашем наборе встретится запись с 2 колонками на площади 20 м2, будем считать это ошибкой в данных.

Количество приборов отопления – OT - целые числа в диапазоне от 0 до 5.

OT

0

1

2

3

4

5

ID

147

1046788

1506

123

8

4

Количество приборов учета – PU - целые числа в диапазоне от 1 до 2.

Количество проживающих – PR - целые числа в диапазоне от 0 до 90. Надо помнить, что если в помещении никто не зарегистрирован, т.е. PR=0 то при расчете коммунальных услуг будет считаться PR=1 [7].

Площадь помещения – S - целые числа в диапазоне от 0 до 4000. Ошибочным будет считаться значение S=0, т.к. при отсутствии площади на неё нельзя разместить никакие приборы, тем более её отапливать.

Объём потребляемого газа – V - целые числа. В имеющемся наборе данных эти значения изменяются в диапазоне от -1000 до 100000. Естественно, что отрицательные и «слишком» большие значения требуют пояснения.

Можно предположить, что отрицательные значения могут появиться в показаниях тогда, когда в предыдущие моменты наблюдался перерасход. «Слишком» большие значения получаются в том случае, когда показания долгое время отсутствовали, а потом выставлялись суммарно за несколько периодов. Будем считать ошибочными или аномальными значения V, которые превышают суммарное годовое потребление газа или являются отрицательными при том, что предыдущие показания были меньше нормативного потребления.

Алгоритм подготовки данных к анализу

1. Для каждого ID проверить равенство S=0 по всем наблюдениям. Если

по всем наблюдениям, переходим к следующему пункту. Если S=0 для некоторого наблюдения, а в других случаях имеет ненулевое значение, то заменить нулевое значение S ненулевым и перейти к следующему пункту. Если S=0 для всех наблюдений, то фиксируется ошибка в данных и все наблюдения для этого ID исключаются из дальнейшего рассмотрения.

2. Для каждого ID по всем наблюдениям проверяется значение PR. Если PR=0, то это значение заменяется на PR=1.

3. Для каждого ID по всем наблюдениям проверяется значение PG, которое, во-первых, должно быть целым неотрицательным числом и, во-вторых, не должно превышать установленный норматив для соответствующего значения площади S. Если требования выполняются, то переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в данных, но наблюдения не исключаются из дальнейшего анализа.

4. Аналогично для каждого ID по всем наблюдениям проверяется значение BPG, которое также должно быть целым неотрицательным числом и не превышающим установленный норматив для соответствующего значения площади S. Если требования выполняются, то переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в данных, но наблюдения не исключаются из дальнейшего анализа.

5. Значения показателей OT и PU также могут быть проверены на соответствие нормативным значениям, но в нашем исследовании такая проверка не проводилась.

6. Рассчитываются нормативные значения потребления газа для каждого ID и каждого наблюдения, а также суммарное годовое потребление газа для данного ID. С 1 октября по 30 апреля нормативное потребление газа рассчитывается по следующей формуле [7-9]:

а с 1 мая по 30 сентября не учитывается отопление, поэтому:

7. Проводится проверка адекватности наблюдаемых значений V. Если значение V неотрицательно и не превышает нормативного значения, то переходим к следующему пункту. Если значение V отрицательно, а предыдущие значения не превышают нормативного значения, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Если значение V отрицательно, а предыдущие значения превышают нормативные значения, то проводится процедура сглаживания данных перед проведением статистического анализа. Если значение V не существенно превышает нормативное значение, а предыдущие значения были меньше нормативного значения, то проводится процедура сглаживания данных. Если значение V существенно превышает нормативное значение, а предыдущие значения не требуют корректировки, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Существенным превышением нормативного значения можно, будем считать превышение суммарного нормативного годового значения потребления газа.

8. Для всех ID, требующих проведения сглаживания данных, такая процедура проводится.

9. Формируются определенные массивы данных для проведения статистического анализа данных по всем наблюдениям в целом или для конкретного месяца.

10. 10. Проводится стандартный статистический анализ данных.

Результаты и обсуждение

Процедура сглаживания данных

1. 1. Для конкретного ID выбирается весь набор наблюдений.

2. Если имеются значения V<0, то проверяется наличие предыдущих превышающих нормативные значения показаний V. Если таких нет, то фиксируется ошибка в данных. Данное наблюдение для этого ID исключается из дальнейшего рассмотрения. Если предыдущее значение превышает норматив, то эти показания складываются и распределяются по месяцам следующим образом: для одинаковых по нормативной оплате месяцам берётся среднее арифметическое, а для различных – определяется в процентном отношении. Например, суммарно за 7 месяцев с отоплением по нормативу объём составляет 4229, а по остальным 5 месяцам, соответственно, 418, то процентное соотношение составит 91:9. Если в результате такого сглаживания оказываются отрицательные показания, то процедура по аналогии охватывает больший диапазон значений. Если отрицательные значения не удается исключить, то фиксируется ошибка в данных, данное наблюдение исключается из рассмотрения.

3. Если имеются значения V, превышающие суммарное годовое нормативное потребление газа, а предыдущие значения были меньше нормативного, то определяются все такие показания и суммируются. Сумма распределяется аналогично предыдущему пункту.

4. Если имеются значения V, превышающие нормативное потребления, но не превышающие суммарное годовое нормативное потребление газа, то при наличии предыдущих малых показаниях проводится перераспределение значений в соответствии с п.2.

Результаты обработки набора данных

Исходный набор данных содержал 1048576 наблюдений (56156 пользователей), представленных таблицей Excel (Таблица 1).

Таблица 1. Выборка из набора данных

Month

ID

PG

BPG

OT

PU

PR

S

V

01.01.2014

463

1

1

1

1

1

100

500

01.01.2014

466

1

1

1

1

1

80

0

01.01.2014

467

1

4

2

1

1

120

2 084

01.01.2014

474

1

1

1

1

3

55

1 800

01.01.2014

479

0

1

1

1

3

290

0

01.01.2014

480

5

2

1

1

3

600

1 600

01.01.2014

481

1

1

1

1

1

42

484

01.01.2014

488

1

1

1

1

1

30

83

01.01.2014

496

1

1

1

1

2

75

1 667

01.01.2014

497

1

1

1

1

2

109

-1 022

01.01.2014

498

2

1

1

1

1

120

0

01.01.2014

209

1

0

0

1

1

0

196

01.01.2014

115004

1

2

1

1

0

73

900

Следуя алгоритму подготовки данных к анализу, были исключены наблюдения с нулевой площадью, это привело к исключению 9497 пользователей. Нулевое количество проживающих обнаружено у 207 пользователей, и было заменено на 1. Ошибочные значения PG и BPG, были обнаружены, соответственно в 59239 и 57254 записях, что составило 5,77 % и 5,58 % от общего количества записей.

В результате обработки данных значение объёма потребления V оказалось неотрицательным и не превышающим нормативного значения в 13236 записей ID пользователей, что составило 28,37%.

Отрицательные значения объёма потребления V, вместе с предыдущими значениями, не превышающими нормативного значения, исключались из дальнейшего рассмотрения – 11266 записей ID пользователей, что составило 24,15%. При этом фиксировалась ошибка в данных.

Не существенное превышение нормативного значения V, вместе с предыдущими значениями, которые были меньше нормативного значения, наблюдались в 19110 записях ID пользователей, что составило 40,96%. Для этих пользователей могла быть проведена процедура сглаживания данных.

Существенное превышение нормативного значения V обнаружено в 3047 записях ID пользователей, что составило 6,52%.

Некоторые результаты анализа проведённой обработки представлены в Таблице 2, а также на рис. 1-3.

Таблица 2. Выборочные результаты анализа

Мес

Показатель,

Площадь,

< 100

100-500

501-1000

до

после

до

после

до

после

1

Среднее

82,545

89,801

386,45

370,58

953,69

1054,7

Минимум

-3900

0

-5500

0

-5212

0

Максимум

13100

100

99999

1069

6049

1306

2

Среднее

94,604

104,3

403,19

388,08

1028,8

1227,5

Минимум

-6313

0

-7600

0

0

0

Максимум

10601

106

25622

2066

7245

10609

3

Среднее

105,23

120,4

472,54

476,31

1705,8

1286

Минимум

-18915

0

-9530

0

0

0

Максимум

19547

193

24231

2077

14848

2614

4

Среднее

125,59

149,28

655,19

624,53

1039

1228

Минимум

-5437

0

-8064

0

0

0

Максимум

13665

1034

28614

3271

9200

9742

5

Среднее

88,744

104,54

368,27

353,96

629,4

619,93

Минимум

-5232

0

-9900

0

0

0

Максимум

29762

1214

35850

3585

5924

8977

6

Среднее

97,704

109,41

381,51

392,58

560,58

804,12

Минимум

-7650

0

-7401

0

-3753

0

Максимум

12015

2983

38168

3816

3998

2765

7

Среднее

21,662

23,676

83,14

85,536

298,24

111,77

Минимум

-12400

0

-8666

0

0

0

Максимум

11369

967

23916

2003

6395

1041

8

Среднее

38,233

44,04

168,16

170,76

511,35

470,53

Минимум

-9268

0

-12200

0

0

0

Максимум

20556

2055

42177

5343

3000

3672

9

Среднее

29,1

34,703

136,3

129,64

411,48

311,81

Минимум

-6485

0

-7445

0

0

0

Максимум

11220

1633

26449

3905

9232

2200

10

Среднее

53,397

66,13

181,58

175,18

464,8

370,68

Минимум

-8901

0

-8072

0

0

0

Максимум

13526

1352

13115

4183

8223

8425

11

Среднее

60,623

81,689

285,26

279,64

764,42

600,85

Минимум

-4240

0

-12150

0

0

0

Максимум

11795

1179

46430

1061

3161

3161

12

Среднее

100,17

117,24

547,04

528,21

1178,7

990,97

Минимум

-2999

0

-5863

0

0

0

Максимум

10149

1014

15769

2487

4153

9353

Рис. 1. Среднее потребление небольших домовладений

Из графического отображения данных расчетов видно (рис.1), что после очистки и проведения процедуры сглаживания данных средние значения объёма потребления газа выше. Однако противоположная тенденция видна на рисунке 2, где представлена гистограмма средних значений объёмов газа до и после проведения преобразований.

Рис.2. Среднее потребление средних домовладений

Рис.3. Среднее потребление больших домовладений

При площади объекта потребления свыше 500 и до 1000 (рис.3), в среднем значении объема потребления газа нет четко выраженной тенденции или различий после проведения очистки и сглаживания.

Работу сглаживания данных можно продемонстрировать на следующих двух примерах (таблица 3 и рис. 4 и 5).

Таблица 3. Сглаживание данных

t

Пример 1

Пример 2

Объём V

Норматив N

Вариант сглаживания

Объём V

Норматив N

Вариант сглаживания

1

1765

1113,213

1765

520

604,1514

773,3333

2

1418

1113,213

1418

420

604,1514

248,8889

3

0

1113,213

1267,277

1380

604,1514

248,8889

4

1511

1113,213

1267,277

-800

604,1514

248,8889

5

1311

151,5

287,4451

100

83,7

100

6

1314

151,5

1314

50

83,7

50

7

529

151,5

529

0

83,7

0

8

648

151,5

648

50

83,7

50

9

0

151,5

407,7401

0

83,7

0

10

710

1113,213

1198,42

50

604,1514

50

11

986

1113,213

1198,42

250

604,1514

250

12

2307

1113,213

1198,42

350

604,1514

350

13

1645

1113,213

1645

450

604,1514

450

14

0

1113,213

1613,96

380

604,1514

380

15

0

1113,213

1613,96

400

604,1514

400

16

0

1113,213

1613,96

300

604,1514

300

17

5391

151,5

549,1199

120

83,7

120

18

780

151,5

780

0

83,7

0

19

540

151,5

540

0

83,7

0

20

680

151,5

680

0

83,7

0

21

0

151,5

0

0

83,7

0

22

0

1113,213

0

0

604,1514

0

Рис.4. График сглаживаения объема в примере 1

Рис.5. График сглаживаения объема в примере 1

Исходя из представленного анализа можно сделать вывод, что аномалии на исследуемом наборе данных делятся на 3 типа:

1. Выбросы, связанные с ошибками сбора данных (отрицательная площадь, отсутствие проживающих и т.п.)

2. Выбросы, связанные с неравномерностью сбора данных (перенос объёмов потребления в следующие месяцы при непредставлении показаний приборов учёта)

3. Выбросы, выбивающиеся из тенденций кластера потребления.

Именно последний класс аномалий и представляет значительный интерес в плане, формирование заданий на обход домовладений и выявлении нарушений учета газа. Причем следует отметить, что данные нарушения могут влиять на потребление в обе стороны: сокрытие приборов учета и проживающих вызывает повышение фиксируемого потребления, а несанкционированный учет – понижение.

Заключение

Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы.

Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Представленное исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.

Следует отметить, что наши экстраполяции учитывают только потребление при прочих равных условиях. Например, не учитываются изменения в поведении, предпочтениях потребителей и технологические измененияa при изменении климатических показателей (температуры и влажности воздуха) и внедрении технически более совершенных приборов, которые влияют на потребление энергии с течением времени.

References
1. Chen H., Liu H. A remote electrocardiogram monitoring system with good swiftness and high reliablility //Computers & Electrical Engineering. – 2016. – T. 53. – S. 191-202.
2. Katircioglu-Öztürk D. et al. A window-based time series feature extraction method //Computers in biology and medicine. – 2017. – T. 89. – S. 466-486.
3. Kozłowski A., Sosnowski J. Energy efficiency trade-off between duty-cycling and wake-up radio techniques in IoT networks //Wireless Personal Communications. – 2019. – T. 107. – №4 – S. 1951-1971.
4. Martinez B. et al. The power of models: Modeling power consumption for IoT devices //IEEE Sensors Journal. – 2015. – T. 15. – №. 10. – S. 5777-5789.
5. Johnpaul C. I. et al. Trendlets: A novel probabilistic representational structures for clustering the time series data //Expert Systems with Applications. – 2020. – T. 145. – S. 113119.
6. Ignatenko A.M., Makarova I.L., Kopyrin A.S. — Metody podgotovki dannykh k analizu slabostrukturirovannykh vremennykh ryadov // Programmnye sistemy i vychislitel'nye metody. – 2019. – № 4. – S. 87 - 94. DOI: 10.7256/2454-0714.2019.4.31797
7. Postanovlenie Pravitel'stva RF ot 06.05.2011 N 354 (red. ot 31.07.2021) "O predostavlenii kommunal'nykh uslug sobstvennikam i pol'zovatelyam pomeshchenii v mnogokvartirnykh domakh i zhilykh domov" // www.consultant.ru
8. Prikaz Minenergo Rossii ot 30.12.2013 N 961 (red. ot 26.12.2014) "Ob utverzhdenii Pravil ucheta gaza" // www.consultant.ru
9. Prikaz Regional'noi energeticheskoi komissii – departamenta tsen i tarifov Krasnodarskogo kraya ot 31.08.2012 №2/2012-np «Ob utverzhdenii normativov potrebleniya kommunal'nykh uslug v Krasnodarskom krae (pri otsutstvii priborov ucheta)»