인공지능 딥러닝을 활용한 조류현상 예측기술 개발 및 활용방안

Title
인공지능 딥러닝을 활용한 조류현상 예측기술 개발 및 활용방안
Authors
홍한움
Co-Author
조을생; 강선아; 한국진
Issue Date
2020-12-31
Publisher
한국환경정책·평가연구원
Series/Report No.
연구보고서 : 2020-20
Page
104 p.
URI
http://repository.kei.re.kr/handle/2017.oak/23181
Language
한국어
Keywords
수질, 조류, 딥러닝, 인공지능, 예측 시스템, Water Quality, Algal Bloom, Water Management, Deep Learning
Abstract
Ⅰ. 연구의 배경 및 목적 1. 연구 개요 ? 연구명: 인공지능 딥러닝을 이용한 조류현상 예측기술 개발 및 활용방안 ? 연구기간: 2020.1.1~2020.12.31. 2. 연구의 필요성 및 목적 ? 조류현상의 원인 ㅇ 조류현상은 녹조현상과 적조현상을 포함 - 녹조현상: 강 및 호수에 남조류 과다 생성 - 적조현상: 바다에 갈색을 띠는 규조류 및 와편모조류 번성 ? 현행 조류경보제의 한계 ㅇ 환경부 및 국립환경과학원에서는 유해남조류 실측치 및 EFDC 모형에 기반하여 조류경보제 시행 ㅇ 물리 모형의 한계 - 탄탄한 이론적 배경을 기반으로 하나, 모형이 요구하는 세밀한 데이터를 확보하는 데 한계가 있음 - 질량보존의 법칙에 기반한 물리 모형 활용 생명활동인 조류현상 예측에 한계가 있음 ㅇ 딥러닝 예측을 대안 및 보완방안으로 고려 Ⅱ. 현행 녹조대응정책 1. 조류경보제 ? 도입 시기: 1998년 ? 법적 근거: ?물환경보전법? 제21조 ? 대상 ㅇ 상수원 및 친수활동구간 28개소 지점 ㅇ 발령권자: 국립환경과학원 ? 분석 항목 ㅇ 유해남조류세포수 실측치 ㅇ 상수원 구간 기준 - 관심: 1,000(cells/mL) 이상 - 경계: 10,000(cells/mL) 이상 - 대발생: 1,000,000(cells/mL) 이상 2. (구) 수질예보제 ? 도입 시기: 2012년 ? 법적 근거: ?물환경보전법? 제21조 ? 대상 ㅇ 4대강 16개 보 및 북한강 삼봉리 등 17개 지점 ㅇ 발령권자: 국립환경과학원 ? 분석 항목 ㅇ 수온 및 클로로필a 농도 예측치 ㅇ 현재는 조류경보제와 수질예보제를 통합 운영함에 따라 예측은 수행하지만 예보 발령은 하지 않음 ? 현재 유해남조류 예측정보 제공 ㅇ 현재 국립환경과학원에서 유해남조류 예측정보 제공 중 ㅇ 주 2회 월·목요일 조류경보제 6개 지점 대상 ㅇ 유해남조류세포수 및 수온예측 결과 발표 3. 수질측정망 현황 ? 법적 근거 ㅇ ?환경정책 기본법? 제22조 및 ?물환경보전법? 제9조 ? 구성 ㅇ 수질측정망 - 대상: 하천, 호소, 농엽용수, 도시관류, 산단하천에서의 수질측정데이터 - 제공 정보: 수심, 수소이온농도, 용존산소량, BOD, COD, 부유물질, 총질소, 총인, 총유기탄소(TOC), 수온, 페놀류, 전기전도도, 총대장균군수, 용존총질소, 암모니아성 질소, 질산성 질소, 용존총인, 용존총인, 인산염인, 클로로필a, 투명도 - 주기: 월 1회, 주요지점에 대해서는 주 1회 ㅇ 총량측정망 - 대상: 수질오염총량제 대상 지역에 대해 총량 관리에 필요한 기초데이터 - 제공 정보: 수온, 수소이온농도, 전기전도도, 용존산소, BOD, COD, 부유물질, 총질소, 총인, TOC, 유량 - 주기: 월 1회 ㅇ 자동측정망 - 수동적으로 측정되는 일반측정망의 보완을 위해 운영 - 제공 정보: (공통항목) 수온, 수소이온농도, 용존산소량, 전기전도도, TOC (선택항목) 탁도, 클로로필a, TN, TP, NH3-N, NO3-N, PO4-P, VOCs(9종 10개), 페놀, 중금속, 생물감시항목 - 주기: 일 1회 ㅇ 퇴적물측정망 - 목적: 국 하천 및 호소 등 수질보전대상 공공수역에 대한 퇴적물의 이화학적 특성 조사 - 제공 정보: (공통항목) 수온, 수소이온농도, 용존산소량, 전기전도도, TOC (선택항목) 채취시간 최고수심, 표층측정수심, 표층 및 저층 수심, 수온, 용존산소량, pH, 전기전도도, 퇴적물 입도, 함수율, 완전연소가능량 비율 및 등급, COD, TOC, TN, TN등급, TP, SRP, 중금속, 보존성 원소 농도 - 주기: (하천) 상·하반기 연 2회, (호소) 연 1회 ㅇ 이 외에 방사성 측정망 및 생물측정망 추가 측정 Ⅲ. 수질 예측 모형 1. 물리모형 ? 모형 예시 ㅇ EFDC, QUAL2K, WASP 등 ㅇ 국립환경과학원에서는 EFDC 기반 모형 운용 중 ? 구성 ㅇ 수계를 소구역으로 분할한 모델 격자망 구성 및 경계조건 설정 ㅇ 격자망 안의 소구역 단위에서 수질 추정 ? 사례 ㅇ 신창민 외(2017)의 EFDC 활용 영산강 수계 예측 2. 딥러닝 모형 ? 모형 구조 ㅇ 다층 퍼셉트론(DMLP) - 신경망의 뉴런과 시냅스를 모방한 모형. 입력층, 은닉층, 출력층으로 구성. 은닉층을 여러 개 두는 다층 구조로 구성 ㅇ 순환신경망(RNN) - 다층 퍼셉트론 모형에서 전 시점 은닉 노드의 피드백을 추가 반영한 모형 - 현대에는 단순 순환신경망 모형을 기반으로 하여 장기 기억을 활용할 수 있는 GRU, LSTM 모형을 활용 3. 물리모형 vs 딥러닝 알고리듬 ? 물리모형 ㅇ 잘 확립된 수학/물리법칙에 기반 ㅇ 실제 관측값은 모형 평가에 활용 ㅇ 물리적 방정식을 통해 관측값보다 세밀한 해상도에서 예측수행 가능 ㅇ 단점 - 불확실한 초기/경계조건으로 인한 오차 - 이상현상을 예측하기 어려움 - 부실한 입력데이터, 모델 관계식의 불안정성, 모델링 방법 등의 문제로 작동하지 않을 수 있음 ? 딥러닝 알고리듬 ㅇ 기계학습을 통해 입력변수와 출력변수의 관계 구축 ㅇ 실제 관측값 모형 구축에 활용 ㅇ 측정값의 오차를 정량화하여 모형 안에 오류 조건 내장 ㅇ 물리 모형 대비 불확실성이 큰 단기 예측에 강점 ㅇ 단점 - 많은 데이터 요구 - 관측 해상도보다 세밀화 불가능 - 입력변수와 출력변수의 관계를 설명할 수 없기 때문에 실제 활용에 한계가 있음 Ⅳ. 딥러닝 기반 조류예측 알고리듬 개발 1. 데이터 수집 및 전처리 ? 모형 구축 대상 ㅇ 대상 지점: 한강 친수활동구간 조류 관찰지점 ㅇ 대상 변수 - 조류현상의 직접 원인인 유해남조류세포수 직접 예측 - 클로로필a 예측 등을 통해 우회적으로 녹조현상을 예측한 선행연구와 차별성이 있음 ? 모형 구축 기간 ㅇ 대상기간: 2007.4~2020.8. ㅇ 조류현상으로부터 비교적 안전한 겨울철인 12 ~ 3월의 겨울철 데이터는 관측값이 없으므로 제외 ㅇ 수집 데이터 2. 조류 데이터 특성 ? 기술통계 ? 특징 ㅇ 극단적으로 오른쪽으로 치우친 비대칭 분포 ㅇ 온도가 높은 여름철에 집중적으로 발생하여 이와 같은 극단적인 비대칭 특성이 나타남 ㅇ 극단적 비대칭 특성으로 인해 물리 모형이나 전통적인 통계 모형 등으로 유해남조류를 직접 예측하기 어려움 ㅇ 로그스케일에서의 유해남조류세포수를 예측대상으로 함 ㅇ 장기기억 정보 활용을 위해 LSTM 예측 알고리듬을 구축함 ㅇ 최적화를 위한 손실함수: 최소제곱함수 최적화 알고리듬: ADAM ㅇ 학습 데이터(training data): 2007.4~2016.11. 검정 데이터(test data): 2017.4~2020.6. ㅇ 전 관측소에서 유해남조류의 증감 패턴을 잘 예측함. 친수활동구간은 하천 하류에 위치하여 데이터 불안정성이 커 전통적인 예측 방법으로는 예측하기 어려우나, 본 연구에서는 증감 패턴을 잘 예측함 ㅇ 가장 큰 극단값의 발생을 동 시점에서 예측함 ㅇ 예측오차 Ⅴ. 결론 및 학술적 성과 ? 학술적 성과 ㅇ 물리모형을 활용한 예측은 명확한 이론을 바탕으로 정립되어 있기 때문에 수온, 용존산소량, 총인, 총질소 등의 수질 예측에 널리 쓰임. 하지만 질량보존법칙을 기저로 하는 물리 방정식을 활용한 예측은 보존성 물질에는 잘 맞으나 살아 있는 생명체의 활동인 조류현상 예측에는 한계가 있음 ㅇ기존 조류현상 예측 연구는 조류현상의 직접적인 원인인 유해남조류세포수(cells/mL)를 직접 예측하지 않고 클로로필a 농도(mg/m3) 예측 결과를 활용하는 것으로 대체함 ㅇ 본 연구에서는 물리 모형으로는 예측하기 힘든 유해남조류세포수 예측에 대한 대안으로 순환신경망 기반의 딥러닝 알고리듬을 활용함. 조류 증감 및 이상현상 발생을 동 시점에서 잘 예측함 ? 한계 ㅇ 입력변수로 수질, 상류 수질, 수위, 기상 정보만을 활용하였는데, 이는 물리 모형에서 이미 쓰고 있는 변수 위주임. 인구 변화와 같은 인간 사회 활동에 관한 변수를 고려하면 딥러닝 분석의 이점을 더 크게 활용할 수 있음. 위성 이미지 등의 비정형 데이터 또한 추가로 고려할 수 있음 ㅇ 데이터 수의 한계. 본 연구에서는 2007년부터 2016년까지의 총 365개 주별 데이터를 활용하여 모형을 학습하였는데, 이 데이터 수 자체가 충분하다고 할 수 없음. 새로운 데이터가 추가될 때마다 예측 모형을 업데이트하여 효율성을 높여야 함 ㅇ 딥러닝 모형의 근본적 한계. 실제 모형의 자세한 동작 과정을 명확히 알 수 없다는 블랙박스(black-box) 특성으로 인한 한계가 있음. 정책을 시행할 때는 근거가 필요한데, 딥러닝 예측 모형의 블랙박스 특성은 명확한 근거를 수립하기 어려움 ? 결론 및 제언 ㅇ 이미 구축된 모형에 대한 예측 수행은 매우 간단하므로 현재의 조류 예보에 참고 정보로 바로 활용할 수 있음 ㅇ 딥러닝 모형을 활용한 예측과 물리 모형을 활용한 예측 모두 장단점이 있으므로 두 예측 방식을 통합하는 것이 가장 바람직함. 딥러닝 모형에 기반을 두고 목적함수의 제약 조건에 물리 방정식을 포함하는 방식으로 물리 모형을 통합할 수도 있고, 물리 모형 예측의 부분 모듈에 딥러닝 학습을 부분적으로 수행하는 방식으로 물리 모형을 기반으로 딥러닝 모형을 통합할 수도 있음


Ⅰ. Background and Aims of Research 1. Research outline ? Research title: Development and application of an algal bloom forecast system using artificial intelligence deep learning technology ? Research period: January 1, 2020 ~ December 31, 2020 2. Necessity and purpose of research ? Limitations of the current algal bloom warning system ㅇ The Ministry of Environment and the National Institute of Environmental Research implemented an algal bloom warning system based on the measured values ??of harmful blue-green algae and the EFDC model. ㅇ Limitations of physics-based models - They have a solid theoretical background but there is a difficulty in securing the detailed data required by the model. - Since algal blooms are living organisms, the law of conservation of mass does not apply to the number of harmful blue-green algae cells. Therefore, the physics-based model has limitations. - Deep learning-based forecasting can be considered as an alternative and a complementary method. Ⅱ. Current Algal Bloom Response Policy 1. Algal bloom warning system ? Year of introduction: 1998 ? Legal basis: Article 21 of the Water Environment Conservation Act ? Target ㅇ 28 branches of water supply sources and hydrophilic activities ㅇ Issuer: Basin Environmental Office and local governments ? Analysis items ㅇ Measured numbers of harmful blue-green algae cells ㅇ Based on water source section - Attention: 1,000 (cells/mL) or more - Alert: 10,000 (cells/mL) or more - Large bloom: 1,000,000 (cells/mL) or more ㅇ Based on hydrophilic activities section - Attention: 20,000 (cells/mL) or more - Alert: 100,000 (cells/mL) or more 2. (Former) Water quality forecast system ? Year of Introduction: 2012 ? Legal basis: Article 21 of the Water Environment Conservation Act ? Target ㅇ 17 branches including 16 barrages and the Bukhan River Sambong-ri of the four major rivers of South Korea ㅇ Issuer: National Institute of Environmental Research ? Analysis items ㅇ Predicted water temperature and chlorophyll-a concentration ㅇ Currently, as the algal bloom warning system and the water quality forecast system are integrated, no forecast is issued although forecasting is performed. ? Providing forecasts for harmful blue-green algae cells ㅇ Twice a week, Monday and Thursday, six branches that are targets of the algal bloom system ㅇ Issuing the predicted number of harmful blue-green algae cells and water temperature predictions 3. Status of the water quality monitoring network ? Legal basis ㅇ Article 22 of the Basic Act on Environmental Policy and Article 9 of the Water Environment Conservation Act ? Organization ㅇ Water quality monitoring network - Target: water quality measurement data in rivers, lakes, agricultural water, urban streams, and industrial rivers -Provided information: water depth, hydrogen ion concentration, dissolved oxygen content, BOD, COD, suspended matter, total nitrogen, total phosphorus, total organic carbon (TOC), water temperature, phenols, electrical conductivity, total coliform group, dissolved total nitrogen, ammonia nitrogen, nitrate nitrogen, dissolved total phosphorus, phosphate phosphorus, chlorophyll a, transparency - Cycle: once a month, once a week for major locations ㅇ Total quantity measurement network - Target: basic data for total amount management in areas subject to the total water pollution rate system - Provided information: water temperature, hydrogen ion concentration, electrical conductivity, dissolved oxygen, BOD, COD, suspended matter, total nitrogen, total phosphorus, TOC, flow rate - Cycle: once a month ㅇ Automatic measurement network - Operated to complement the hand-operated measurements of the water quality monitoring network - Provided information: (Common) water temperature, hydrogen ion concentration, dissolved oxygen content, electrical conductivity, TOC (Optional) Turbidity, chlorophyll a, TN, TP, NH3-N, NO3-N, PO3-P, VOCs (nine types, ten items), phenol, heavy metals, biological monitoring items - Cycle: once a day ㅇ Sediment monitoring network - Purpose: investigation of the physicochemical properties of sediments in public waters subject to water quality conservation of South Korea - Provided information: (Common) water temperature, hydrogen ion concentration, dissolved oxygen content, electrical conductivity, TOC (Optional) maximum depth during collection, surface measurement depth, surface and bottom depth, water temperature, dissolved oxygen content, pH, electrical conductivity, sediment particle size, moisture content, ratio and grade of complete combustion potential, COD, TOC, TN, TN grade, TP, SRP, heavy metals, conservative element concentration - Cycle: (River) twice a year for the first and second halves, (Lake) once a year ㅇ In addition, there are additional measurements of radioactive monitoring networks and biometric networks. Ⅲ. Water Quality Prediction Models 1. Physics-based model ? Example ㅇ EFDC, QUAL2K, WASP, etc. ㅇThe National Institute of Environmental Research is operating an EFDC-based model. ? Organization ㅇ Construct a grid network by dividing the water system into sub-regions and set boundary conditions ㅇ Estimate the water quality in sub-area units within the grid 2. Deep learning algorithm ? Model structure ㅇ Multi-layer perceptron (MLP) - It mimics the neurons and synapses of a neural network. It consists of an input layer, a hidden layer, and an output layer. it has a multi-layered structure with more than one hidden layer. ㅇ Recurrent Neural Network (RNN) - It additionally reflects the feedback effects of previous hidden nodes. - Nowadays, GRU and LSTM models are used. These models utilize the long-term memory based on a simple recurrent neural network. 3. Physics-based model vs. Deep learning algorithm ? Physics-based model ㅇ Based on well-established mathematical/physical laws ㅇ Actual observations are used for model evaluation. ㅇ Prediction can be performed at a more detailed resolution than observed values ?based on physical equations. ㅇ Disadvantages - Errors due to uncertain initial/boundary conditions - Difficulty in predicting the abnormal phenomena - May not work due to problems such as poor input data, instability of model relations, modeling method, etc. ? Deep learning algorithm ㅇ Establish the relationship between input and output variables through machine learning ㅇ Actual observations are used for model construction. ㅇ Includes error conditions in the model by quantifying the error of the measurements ㅇ Advantages in short-term predictions with greater uncertainties compared to physics-based models ㅇ Disadvantages - Requires a huge amount of data - Cannot be performed at a more detailed resolution than observation resolution - Practical application is limited since the relationship between input and output variables cannot be explained. Ⅳ. Development of an Algal Bloom Forecast Algorithm Based on Deep Learning 1. Data collection and preprocessing ? Model construction target ㅇ Target point: algae observation point in the hydrophilic activity section of the Han River ㅇ Target variable - Direct prediction of the number of harmful blue-green algae cells which is the direct cause of the algal bloom - Differentiated from previous studies that indirectly predicted the algal bloom through chlorophyll a prediction ? Model construction period ㅇ Target period: April 2007 ~ August 2020 ㅇ Data in winter from December to March, which is relatively safe from algal blooms, are excluded. 2. Characteristics of algae data ? Descriptive statistics ? Characteristics ㅇ Extremely right-skewed asymmetric distribution ㅇ Extreme asymmetric distribution is exhibited since algal blooms occur intensively in summer when the temperature is high. ㅇ Because of this, it is difficult to directly predict harmful blue-green algae using physics-based models or traditional statistical models. 3. Development of a predicting algorithm ? RNN model construction ㅇ Target of prediction: the number of harmful blue-green algae cells ㅇ Constructing an LSTM prediction algorithm to utilize the long-term memory information ㅇ Loss function for optimization: least squares function Optimization algorithm: ADAM ㅇ Training data: April 2007 ~ November 2016 Test data: April 2017 ~ June 2020 ㅇ The increasing and decreasing patterns are well predicted although there is difficulty in predicting using traditional prediction methods due to high data instability, which results from the fact that the hydrophilic activity section is located downstream of the river. ㅇ Well predict the occurrence of the largest extreme value at the same time ㅇ Prediction error Ⅴ. Conclusion and Achievements ? Achievements ㅇ Since the prediction using a physical model is established based on a well-established theory, it is widely used to predict properties of water quality such as water temperature, dissolved oxygen, total phosphorus, and total nitrogen. The prediction using the physical equation based on the law of conservation of mass is well suited for conservative substance. However, there is a limitation in the prediction of algae cells since it is the activity of living organisms. ㅇ Existing algal phenomena prediction studies have not directly predicted the number of harmful blue-green algae cells, which is the direct cause of algal phenomena. It is replaced by using the results of chlorophyll a concentration prediction. ㅇIn this study, a deep learning algorithm based on recurrent neural networks was used as an alternative method to predict the number of harmful blue-green algae cells. It well predicted the increasing or decreasing patterns of algae and the occurrence of abnormal phenomena at the concurrent point. ? Limitations ㅇOnly water quality, upstream water quality, water level, and meteorological information were used as input variables. These variables are already used in the physical model. Taking into account social variables such as population change and the benefits of deep learning analytics can be leveraged to a greater extent. Unstructured information such as satellite images can be additionally considered. ㅇ There is a limitation in the amount of data. In this study, the model was studied using data from a total of 365 weekly data collections from 2007 to 2016, but this amount itself is not sufficient. Whenever new data are added, the predictive model should be updated to increase the prediction efficiency. ㅇThere is a limitation due to the black-box characteristic. The detailed operational process of the prediction model cannot be clearly observed. When implementing a policy, evidence is needed. The black-box characteristic of deep learning prediction models makes it difficult to provide clear evidence. ? Conclusions and suggestions ㅇBecause it is very simple to perform predictions with the model that has already been established, it can be directly used as reference information for current algal bloom forecasts. ㅇSince predictions using deep learning models and physics-based models both have advantages and disadvantages, it is most desirable to integrate the two prediction methods. Based on the deep learning model, the physical model can be integrated by including the physical equation in the constraint of the objective function. Or, deep learning can be partially performed in the partial module of the physical model prediction.

Table Of Contents

요 약

제1장 서 론
1. 연구 개요
2. 연구의 필요성 및 목적

제2장 현행 녹조 대응 정책
1. 조류경보제
2. (구)수질예보제
3. 수질측정망 현황

제3장 수질 예측 모형
1. 물리모형
2. 딥러닝 알고리듬
3. 물리모형 vs 딥러닝 알고리듬

제4장 딥러닝 기반 조류예측 알고리듬 개발
1. 데이터 수집 및 전처리
2. 조류 데이터의 특성
3. 딥러닝 예측 알고리듬 개발

제5장 결론 및 제언

참고문헌

부 록
Ⅰ. 수위 지점 정보
Ⅱ. 데이터 수집 파이썬 코드

Executive Summary

Appears in Collections:
Reports(보고서) Research Report(연구보고서)
Files in This Item:
Export
RIS (EndNote)
XLS (Excel)
XML

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse