환경 빅데이터 분석 및 서비스 개발(V)

환경 빅데이터 분석 및 서비스 개발(V)
이동현; 진대용; 강선아; 장기복; 김충기; 주현수; 한혜진; 김태윤; 고길곤; 강성원; 김도연; 김용건; 심창섭; 한상운; 이진희; 한국진
Issue Date
Series/Report No.
사업보고서 : 2021-06
164 p.
빅데이터, 기계학습, 데이터베이스, 텍스트마이닝, Big Data, Machine Learning, Database, Text Mining
Ⅰ. Background and Aims of Research ? Continue to build up ‘Environmental Policy monitoring System’ ㅇ Periodic repetition of environmental policy need identification, timeliness assessment and effectiveness assessment ㅇ composed of ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’ and ‘Issue Based Database’ ? 2021 Research Goal: Strengthening the components of the environmental policy monitoring system ㅇ Deep Learning Based Pollution Prediction algorithm - Enhancement of uncertainty prediction and causal analysis - Development of an algorithms with better long-term predictive performance in predicting particular matter ㅇ Issue Based Database - Composition of issue bulletin board for carbon neutrality issues ㅇ Real Time Environmental Text Analysis algorithm - Analysis of Similarities and Differences in Carbon Neutral Strategies by Country Ⅱ.Deep Learning-based Particular Matter Concentration and Uncertainty Prediction ? Research purpose ㅇPrediction of particular matter concentration and uncertainty simultaneously based on deep-learning - Improving the reliability of PM prediction ? Research Method ㅇ Collect data from Air Korea and Korea Meteorological Administration ㅇ Missing value preprocessing with spatial interpolation ㅇDevelopment of a deep learning algorithm capable of uncertainty prediction - Interpolated Convolutional Neural Network using Monte - Carlo Dropout(ICNN-MCDO) ? Development of algorithms that can estimate uncertainty as well as high prediction performance ㅇ Applying Monte Carlo Dropout (MCDO) to Interpolated Convolutional Neural Network (ICNN) ㅇ High prediction performance reflecting spatio temporal characteristics through CNN using multidimensional arrays - High performance in classifying high-concentration of particular matter ㅇEstimate predicted values and uncertainties simultaneously even at non-observation points by expressing the entire Republic of Korea as a grid at regular intervals ㅇ Confirm that there is a positive correlation between the deviation of the actual value and the predict value and the estimated uncertainty ㅇProviding a threshold while evaluating uncertainty in prediction of particular matter Ⅲ.Mid- to Long-term Prediction of Ultra-fine Particles Using Graph- GRU: Focusing on South Korea ? Research purpose ㅇ Considering the characteristics of ultra-fine particles and the seasonal and geographical characteristics of South Korea ㅇ Development of mid- to long-term (72 hours later) ultra-fine particles prediction model based on Graph Neural Network ? Construction of space-time 3D dataset ㅇ Input data: Meteorological, air pollution, and Chinese ultrafine dust concentration data - Weather and air pollution data: Satellite-based reanalysis data provided by the European Center for Medium-Range Weather Forecasts - Ultra-fine particles data from China is based on measurement stations ? Establishment of ultra-fine particles prediction model ㅇ Build with Graph-based model ㅇ It consists of a stage of combining surrounding information, a graph attention stage, and a GRU stage for time series learning ? Prediction results and application ㅇ Improved prediction performance compared to other deep learning prediction models ㅇ The prediction model developed in this study can be used to predict other air pollution and can be used as base data when establishing a preemptive air pollution response plan Ⅳ. LEDS Document Analysis Using Text Analysis ? Research purpose ㅇ Analysis of similarities and differences in carbon-neutral strategies by country through LEDS document analysis of major countries including South Korea ※ LEDS (Long-term low greenhouse gas Emission Development Strateges ㅇ Investing the application range and usability of text analysis results - LEDS Document characteristics: Long document length and multiple topics in one document - Prior research for establishing policy document DB and text analysis automation procedure ? Process ㅇ LEDS document collection → Keyword frequency analysis and related keyword review → Cross-country similarity network and keyword network analysis bt country → result analysis and implication ? Results ㅇ Differences in national strategies in the LEDS document - South Korea: Emphasis on energy and target alternative resources by sector with a focus on energy management and demand - Japan: Energy efficiency and transportation targets to be reduced. Emphasis on decarbonization keywords - Can be applied as policy analysis data ㅇ Establishment of case of application of text mining for global policy issue documents - Lay the foundation for digital transformation with examples of quantifying and using atypical data such as text data Ⅴ. Carbon-neutral Issue Based Database ? Built a datamap on Carbon-neutral issue ㅇDevelopment of an evaluation model for monitoring the flow and relationship of variables according to the policy input, implementation, and production process - Building a datamap under the theme of ‘carbon neutrality’ following ‘particular matter’ in 2019 and ‘climate change’ in 2020 ㅇ Close linkage of questions, methodologies and data for policy evaluation and analysis ? The difference between carbon neutrality and greenhouse gas reduction ㅇ No significant difference in terms of concepts and policy measures ㅇCarbon neutrality is focused on goal-oriented discussion while greenhouse gas reduction policy is focused on specific indicators - Carbon neutrality emphasizes strengthening the institutional foundation, changing the reduction target to an absolute value method, realizing regional carbon neutrality and seeking ways to raise public awareness. ? Implication ㅇ Despite the situation in which an active low-carbon strategy is required, the proposed policy measures are not significantly different from the existing greenhouse gas reduction policies ㅇ Differences in regional industrial structure, final energy consumption and policy effects - It is necessary to establish a policy that takes into account differences in regional industrial structure and carbon emission levels Ⅵ. The Impact of Air Pollution Long-term Exposure on the Mortality of COPD Patients ? Research purpose ㅇ Advancement of research on the impact of air pollution long-term exposure on the mortality of COPD patients, conducted from 2019 ㅇ Refinement of Interpolation Modeling of Air Pollution - Advancement of kriging-based air pollution estimation into a machine learning-based hybrid model ? Data and methodology ㅇ Interpolation variable: PM10, PM2.5, O3, NO2, SO2 - Target period: 2009-2018 yr. - 1km × 1km points for the entire area of South Korea ㅇ Input variables: Air pollution data from Air Korea and Seoul Information Communication Plaza, satellite-based air data, meteorological data - Missing values of satellite data are processed through convolutional neural network analysis ? Results ㅇ Interpolation modeling performance of pollutant sources (PM10, PM2.5, O3, NO2) excluding SO2 is good with R2 value of 0.8 or higher - The PM2.5 interpolation model in Seoul has an R2 value of 0.92, which is superior to previous studies of 0.75 to 0.90 ㅇ The interpolation results of this study will be used for subsequent studies of health impact of air pollution Ⅶ. Conclusions and Academic Achievements ? Expanding and deepening the components of the environmental policy monitoring system ㅇ Reinforcement of environmental policy monitoring system components by adding two particular matter prediction studies of ‘Deep Learning Based Pollution Prediction algorithm’, one study of ‘Real Time Environmental Text Analysis algorithm’ and one study of ‘Issue Based Database’ ? Academic Achievements ㅇ Develop an algorithm that can simultaneously predict uncertainty while maintaining high predictive performance in particular matter prediction, and develop an algorithm with better mid- to long-term prediction efficiency of 3 days or longer than the existing neural network model by using a graph model ㅇ Through text mining analysis of Long-term low greenhouse gas Emission Development Strateges documents, we identify low-carbon strategies for each country including South Korea and suggest the need to establish DB for policy documents ㅇPromote close linkage of issues, methodologies, and data for carbon- neutral policy evaluation and analysis. Development of time series analysis automation program module and analysis of policy effect ㅇLay the foundation for more improved estimation of individual air pollution exposure through the development of improved air pollution interpolation models

Ⅰ. 연구의 배경 및 목적 ? 연구 목적: (가칭) 환경정책 모니터링시스템 구축 ㅇ 환경정책 수요 파악, 정책 시의성 평가, 정책 유효성 평가의 주기적 반복 목적 ㅇ 환경오염 통합예측 알고리듬, 실시간 환경 텍스트분석 알고리듬, 질문중심 데이터베이스로 구성 ? 2021년 연구목표: (가칭) 환경정책 모니터링시스템의 구성요소 강화 ㅇ 오염도 예측 - 불확실성 예측 및 인과분석 강화 - 미세먼지 예측에 있어 장기 예측성능이 좋은 알고리듬 발굴 ㅇ 질문중심 데이터베이스 - 탄소중립 이슈에 대한 이슈 상황판 구성 ㅇ 실시간환경 텍스트분석 알고리듬 - 국가별 탄소중립 전략의 유사점 및 차이점 분석 Ⅱ. 딥러닝 기반 미세먼지 농도 및 불확실성 예측 ? 연구 목적 ㅇ 연구 목적: 딥러닝 기반 미세먼지 농도 및 불확실성 예측 - 딥러닝을 활용한 PM 예측에 대한 신뢰성 제고 ? 연구 방법 ㅇ 에어코리아, 기상청으로부터 데이터 수집 ㅇ 결측치 공간보간으로 데이터 전처리 ㅇ 불확실성 예측이 가능한 딥러닝 알고리듬 개발 - Interpolated Convolutional Neural Network using Monte-Carlo Dropout (ICNN-MCDO) ? 높은 예측성능과 함께 불확실성 추정이 가능한 알고리듬 개발 ㅇ Interpolated Convolutional Neural Network(ICNN) 에 몬테카를로 드롭아웃 Monte Carlo Dropout(MCDO) 적용 ㅇ 다차원 배열을 활용한 CNN을 통해 시공간적 특성을 반영한 높은 예측성능 - 고농도 미세먼지 예측 모델에서 높은 성능 ㅇ 대한민국 전역을 일정한 간격의 그리드로 표현하여 측정소가 없는 지점에서도 예측 값과 불확실성 추정 ㅇ 실제 값과 예측 값의 편차가 추정한 불확실성과 양의 상관관계가 있음을 확인 ㅇ 미세먼지 예측에 불확실성을 평가하면서 임계점(threshold) 제시 Ⅲ. Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로 ? 연구 목적 ㅇ 초미세먼지의 특성과 남한지역의 계절적, 지리적 특성 고려 ㅇ 그래프신경망(Graph Neural Network) 기반 중장기(72시간 뒤) 초미세먼지 예측모델 개발 ? 시·공간 3차원 데이터 세트 구축 ㅇ 기상, 대기오염 및 중국 초미세먼지 농도 데이터를 입력데이터로 활용 - 기상 및 대기오염(유럽 중기예보센터 European Centre for Medium-Range Weather Forecasts) 제공 위성기반 재분석 데이터 - 중국 초미세먼지 농도는 측정소 기반 데이터 활용 ? 초미세먼지 예측모델 구축 ㅇGraph 기반 모형으로 구축 ㅇ주변 정보를 결합하는 단계, graph attention 단계, 시계열 학습을 위한 GRU 단계로 구성 ? 예측 결과 및 활용 ㅇ72시간 뒤의 초미세먼지 예측성능에서 본 연구의 예측모형이 기존 다른 딥러닝 예측모형보다 예측성능 향상 ㅇ본 연구에서 개발한 예측모형은 미세먼지 외 다른 대기질 예측에도 활용할 수 있고, 선제적 대기오염 대응방안 수립 시 근거자료로서 활용 가능 Ⅳ. 텍스트 분석을 활용한 LEDS 문서 분석 ? 연구 목적 ㅇ우리나라를 포함한 주요 국가의 LEDS 문서 분석을 통해 국가별 탄소 중립 전략의 유사점 및 차이점 분석 ※ LEDS(Long-term low greenhouse gas Emission Development Strateges): 장기저탄소발전전략 ㅇ텍스트 데이터의 활용범위 및 결과 생성 활용가능성 검토 - 문서의 길이가 길고 다수의 주제가 한 개의 문서에 포함되어 있는 특징 - 정책 문서 DB 구축 및 텍스트 분석 자동화 절차 구축을 위한 사전 검토 ? 분석 과정 ㅇ LEDS 문서 수집 → 키워드 빈도수 분석 및 관련 키워드 검토 → 국가 간 유사도 네트워크 및 국가별 키워드 네트워크 분석 → 결과 분석 및 시사점 도출 ? 분석 결과 ㅇ LEDS 문서에서 나타나는 국가별 전략 차이 - 한국의 경우 에너지 관리 및 수요를 중심으로 부문별 에너지 및 대상 대체자원 강조 - 일본의 경우 에너지 효율을 포함해 감축 대상인 교통이 나타남. 탈탄소 키워드 강조 - 정책분석 자료로서 지원 가능 ㅇ 글로벌 정책이슈 문서에 대한 텍스트마이닝 기법 활용사례 구축 - 텍스트 자료와 같은 비정형 자료 정량화하여 활용하는 사례로 디지털전환 기반 마련 Ⅴ. 탄소중립 정책분석·평가를 위한 정책질문 데이터맵 구축 ? ‘탄소중립’을 주제로 질문 데이터맵 구축 ㅇ 정책의 투입, 집행, 산출 과정에 따른 변수의 흐름과 관계 모니터링을 위한 평가모형 개발 - 2019년 ‘미세먼지’, 2020년 ‘기후변화’에 이어 ‘탄소중립’을 주제로 질문 데이터맵 구축 ㅇ 정책평가/분석수행을 위한 질문/방법론/데이터의 유기적 연계 도모 ? 탄소중립과 온실가스 저감의 차이 ㅇ 개념적 차이 및 정책수단 측면에서 차이는 크지 않았음 ㅇ 탄소중립은 목표차원의 논의, 온실가스 감축정책은 구체적인 지표 중심의 논의를 하는 차이점 - 탄소중립에서는 제도적 기반 강화, 절대치 방식으로 감축 목표 변경, 지역 중심 탄소중립 실현방안 및 국민인식 제고방안 모색 강조 ? 시사점 ㅇ 적극적인 저탄소 전략이 필요한 상황임에도 불구하고 제시하는 정책수단이 기존 온실가스 저감정책과 큰 차이가 없음 ㅇ 지역별 산업구조의 차이, 최종에너지 소비량, 정책 효과가 상이함 - 지역별 산업구조의 차이, 탄소배출량 수준 차이 등을 고려한 정책 수립 필요 Ⅵ. 대기오염이 만성호흡기질환자 사망에 미치는 영향 ? 연구목표 ㅇ 2019년부터 수행한 대기오염 노출이 COPD 환자의 사망위험에 미치는 영향 연구 고도화 ㅇ 대기오염의 보간 모델링 정교화 - 크리깅 기반 시군구 오염농도 추정치를 머신러닝 기반 하이브리드 모형으로 고도화 ? 자료 및 방법론 ㅇ 보간 변수: PM10, PM2.5, O3, NO2, SO2 - 대상 기간: 2009~2018년 - 한국 전체 지역 1km × 1km 포인트 ㅇ 입력변수: 에어코리아 및 서울정보 소통광장의 대기오염 자료, 인공위성 기반 대기 자료, 기상 자료 - 위성자료의 결측값은 컨볼루션 신경망 분석을 통해 처리 ? 결과 ㅇ SO2를 제외한 오염원(PM10, PM2.5, O3, NO2)의 보간 모델링 성능이 R2 값이 0.8 이상으로 양호함 - 서울지역 PM2.5 보간 모형은 R2 값 0.92로 기존 선행연구 0.75~0.90보다 우수한 결과 ㅇ 본 연구의 보간 결과는 후속으로 진행할 건강 영향 분석 연구에 활용할 예정임 ? 예측 결과 및 활용 ㅇ 72시간 뒤의 초미세먼지 예측성능에서 본 연구의 예측모형이 기존 다른 딥러닝 예측모형보다 예측성능 향상 Ⅶ. 결론 및 학술적 성과 ? 환경정책 모니터링 시스템(가칭) 구성요소 확대 및 심화 ㅇ ‘환경오염 통합예측 알고리듬’의 미세먼지 예측 연구 2건, ‘실시간 환경 텍스트 분석 알고리듬’ 연구 1건, ‘질문중심 데이터베이스 구축’ 1건을 추가하여 환경정책 모니터링시스템(가칭) 구성요소 강화 ? 학술적 성과 ㅇ 미세먼지 예측에서 높은 예측성능을 유지하면서도 불확실성에 대한 동시 예측이 가능한 알고리듬 개발하고, 그래프모형을 활용하여 기존 신경망 모형보다 3일 이상의 중장기 예측효율이 좋은 알고리듬 개발 ㅇ 장기저탄소발전전략 문서에 대한 텍스트마이닝 분석을 통해 우리나라를 포함한 국가별 저탄소전략을 파악하고 정책문서에 대한 DB 구축의 필요성 제안 ㅇ 탄소중립 관련 정책평가 및 분석수행을 위한 질문, 방법론, 데이터의 유기적 연계 도모. 시계열분석 자동화 프로그램 모듈을 개발하고 정책 효과 분석 ㅇ 대기오염 보간 모형 개발을 통해 개인별 대기오염 노출을 정교하게 추정할 수 있는 기반 마련

Table Of Contents

요 약

제1장 서론
1. 연구의 필요성 및 목적
2. 연구의 범위
3. 연구 내용 및 방법론
4. 보고서의 구성

제2장 딥러닝 기반 미세먼지 농도 및 불확실성 예측
1. 서론
2. 방법론
3. 결과
4. 결론

제3장 Graph-GRU를 활용한 중장기 초미세먼지 예측: 남한지역을 중심으로
1. 서론
2. 기술통계 분석 및 정규화
3. 예측모델 구축 및 평가
4. 소결

제4장 텍스트 마이닝을 활용한 LEDS 문서 분석
1. 연구의 필요성 및 목적
2. 선행연구
3. 연구의 내용 및 방법론
4. 연구결과
5. 결론

제5장 탄소중립 정책분석·평가를 위한 정책질문 데이터맵 구축
1. 서론: 연구목적 및 연구 내용
2. 텍스트 분석을 통한 탄소중립과 온실가스의 개념적 차이 분석
3. 정책질문 데이터맵 구축
4. 결론

제6장 대기오염이 만성호흡기질환자 사망에 미치는 영향
1. 서론
2. 데이터
3. 방법론
4. 결과
5. 결론

제7장 요약 및 시사점


Executive Summary

Appears in Collections:
Reports(보고서) > Project Report(사업보고서)
Files in This Item:
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
