기계학습 기반 모델을 활용한 시화호의 수질평가지수 등급 예측 KCI

Title
기계학습 기반 모델을 활용한 시화호의 수질평가지수 등급 예측
Alternative Title
WQI Class Prediction of Sihwa Lake Using Machine Learning-Based Models
Author(s)
김수빈; 이재성; 김경태
KIOST Author(s)
Kim, Soobin(김수빈)Lee, Jae Seong(이재성)Kim, Kyung Tae(김경태)
Alternative Author(s)
김수빈; 이재성; 김경태
Publication Year
2022-05
Abstract
해양환경을 정량적으로 평가하기 위해 수질평가지수(water quality index, WQI)가 사용되고 있다. 우리나라는 해양수산부고시 해양환경기준에 따라 WQI를 5개 등급으로 구분하여 수질을 평가한다. 하지만, 방대한 수질 조사 자료에 대한 WQI 계산은 복잡하고 많은 시간이 요구된다. 이 연구는 기존의 조사된 수질 자료를 활용하여 WQI 등급을 예측할 수 있는 기계학습(machine learning, ML) 기반의 모델을 제안하고자 한다. 특별관리해역인 시화호를 모델링 지역으로 선정하였다. AdaBoost와 TPOT 알고리즘을 모델 훈련을 위해 사용하였으며, 분류 모델 평가 지표(정확도, 정밀도, F1, Log loss)로 모델 성능을 평가하였다. 훈련하기 전, 각 알고리즘 모델의 최적 입력자료 조합을 탐색하기 위해 변수 중요도와 민감도 분석을 수행하였다. 그 결과 저층 용존산소(dissolved oxygen, DO)는 모델의 성능에서 가장 중요한 인자였다. 반면, 표층 용존무기질소(dissolved inorganic nitrogen, DIN)와 표층 용존무기인(dissolved inorganic phosphorus, DIP)은 상대적으로 영향이 적었다. 한편, 최적 모델의 시공간적 민감도와 WQI 등급 별 민감도를 비교한 결과 각 조사 정점 및 시기, 등급 별 모델의 예측 성능이 상이하였다. 결론적으로 TPOT 알고리즘이 모든 입력자료 조합에서 성능이 더 우수하여 충분한 자료로 훈련된 최적 모델은 새로운 수질 조사 자료의 WQI 등급을 정확하게 분류할 수 있을 거라 판단된다.


The water quality index (WQI) has been widely used to evaluate marine water quality. The WQI in Korea is categorized into five classes by marine environmental standards. But, the WQI calculation on huge datasets is a very complex and time-consuming process. In this regard, the current study proposed machine learning (ML) based models to predict WQI class by using water quality datasets. Sihwa Lake, one of specially-managed coastal zone, was selected as a modeling site. In this study, adaptive boosting (AdaBoost) and tree-based pipeline optimization (TPOT) algorithms were used to train models and each model performance was evaluated by metrics (accuracy, precision, F1, and Log loss) on classification. Before training, the feature importance and sensitivity analysis were conducted to find out the best input combination for each algorithm. The results proved that the bottom dissolved oxygen (DOBot) was the most important variable affecting model performance. Conversely, surface dissolved inorganic nitrogen (DINSur) and dissolved inorganic phosphorus (DIPSur) had weaker effects on the prediction of WQI class. In addition, the performance varied over features including stations, seasons, and WQI classes by comparing spatio-temporal and class sensitivities of each best model. In conclusion, the modeling results showed that the TPOT algorithm has better performance rather than the AdaBoost algorithm without considering feature selection. Moreover, the WQI class for unknown water quality datasets could be surely predicted using the TPOT model trained with satisfactory training datasets.
ISSN
1226-2978
URI
https://sciwatch.kiost.ac.kr/handle/2020.kiost/42518
DOI
10.7850/jkso.2022.27.2.071
Bibliographic Citation
바다, v.27, no.2, pp.71 - 86, 2022
Publisher
한국해양학회
Keywords
Water quality index; Machine learning; Sihwa Lake; Adaptive boosting (AdaBoost); Tree-based pipeline optimization (TPOT)
Type
Article
Language
Korean
Files in This Item:
There are no files associated with this item.

qrcode

Items in ScienceWatch@KIOST are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse