환경 빅데이터 분석 및 서비스 개발

강성원

The key advantages of Machine Learning analysis using large data are 1) accurate forecast and 2) unknown-pattern finding In this report, we try to make use of these advantages in Environmental Research and Service. This research is composed of three components. First, we apply Machine learning algorithm to environmental research. (2017~19) Second, we accumulate data and algorithms developed in environmental research and combine them with environmental data web crawling algorithm to build environmental machine learning platform(2020~22). Third, we develop public environmental service using these research results and platform(2023~25). In 2017, we developed three machine learning algorithms applied to environment data ？ LSTM algorithm estimating hourly find dust pollution, Random Forest/Boosting ensemble algorithm estimating monthly find dust pollution, DNN algorithm estimating intestinal infection case numbers using climate data. Also we applied LDA/Association Rule Learning/word2vec algorithm to online news data and KEI report data, and found that KEI should pay more attention to generic mutation, noise, environmental health, environmental data and specific climate issues like typhoon, severe cold, heavy snow to catch up with public interests represented in online news data.

본 연구는 단기예측 및 패턴 파악에 비교우위가 있는 빅데이터 연구 방법론의 환경정책연구에 대한 적용 가능성을 모색하였다. 본 연구는 환경연구 전 부문에 빅데이터 연구 방법론을 적용하는 ‘환경 빅데이터 연구’, 환경 관련 자료를 수집, 축적하는 ‘환경 빅데이터 플랫폼 구축 연구’, 연구성과를 이용하여 환경 서비스를 개발하는 ‘원내외 빅데이터 서비스 개발’의 3개 영역에 걸쳐서 3년간 3단계의 연구를 진행한다. 2017년에는 본 연구를 구성하는 3단계 연구 중 ‘환경 빅데이터 연구’에 중점을 두는 제1단계 연구를 시작하였다. 2017년에는 상대적으로 전처리 부담이 적은 수치 및 전산화된 텍스트 분석에 집중하여, 빅데이터 연구 방법론의 환경정책연구 가능성을 진단하였다. 그 결과 환경오염 추정 알고리듬 3개, 텍스트 자료 이용 환경연구 동향 파악 알고리듬 3개, 온라인 환경 관련 자료의 집적을 자동화하는 자료 수집 알고리듬 3개를 구축하였다. 본 연구에서 개발한 환경오염 추정 3개 알고리듬은 ① 서울지역 측정소 단위 시간별 미세먼지 오염도를 예측하는 KNN 공간순환신경망 알고리듬, ② 기초지자체의 월별 장감염 발생 건수를 추정하는 심층신경망 알고리듬 ③ 기초지자체 월별 미세먼지 오염도 발생요인을 파악하는 의사결정나무 기반 알고리듬이다. 서울지역 측정소 단위 시간별 미세먼지 농도 예측 KNN 공간순환신경망 알고리듬은 서울지역 39개 측정소의 2016년 1년간 미세먼지(PM10) 오염도 자료를 이용하여 구축하였으며, 미세먼지 농도를 2시간 전에 예측할 수 있도록 하였다. 설명변수로는 4개 대기오염물질 오염도(SO2, CO, O3, NO2) 및 기상 정보(기온, 강수량, 풍속, 풍향)를 사용하였다. 분석 결과 본 연구에서 개발한 KNN공간순환신경망 알고리듬은 통상적으로 시계열 예측에 사용하는 ARIMA 모델보다 예측치와 실측치 간 평균제곱근오차를 10.5% 축소하는 정확한 추정치를 제공할 수 있음을 확인하였다. 기초지자체의 월별 장감염 발생 건수를 추정하는 심층신경망 알고리듬은 건강보험 코호트 DB를 이용하여 구축한 2009~2013년 월별 장감염 발생빈도를 기상자료, 대기오염 자료, 인구 통계적 자료, 위-경도 좌표를 이용하여 추정하는 심층신경망 알고리듬이다. 이 알고리듬은 노드가 500개인 3개의 은닉층을 지니며, 활성화 함수로는 ReLU 함수를 사용하였고, Epoch 30회에 걸쳐서 학습을 진행하여 도출한 모수 값을 이용하여 구축하였다. 이렇게 구축한 심층신경망 모델은 같은 변수를 사용한 선형회귀분석 모델보다 평균제곱근오차가 25% 낮은 정확한 추정치를 도출할 수 있었다. 기초지자체 월별 미세먼지 농도 추정 의사결정나무 기반 알고리듬은 2001년 1월~2016년 9월 시군구 월평균 미세먼지(PM10) 농도 자료의 추정을 목적으로 구축하였다. 독립변수로는 대기오염물질 오염도, 대기오염물질 배출량, 기상변수, 황사일수, 중국 베이징, 상하이, 톈진의 대기오염 자료를 이용하였다. 자료의 가용성에 따라서 추정 시기와 독립변수의 집합을 달리하는 6개의 실험을 실시하였으며, 매 실험에 의사결정나무, 랜덤포레스트, 배깅, 부스팅 4개의 방법론을 적용하였다. 분석 결과 랜덤포레스트 및 부스팅 알고리듬은 선형회귀분석의 평균제곱오차를 각각 45.5%, 37.2% 개선하는 효과가 있었다. 그리고 독립변수에 황사일수, 베이징/상하이의 미세먼지 오염도, 베이징/톈진의 대기질 지수가 포함될 경우 추정치의 평균제곱오차가 크게 줄어든다는 사실을 확인하였다. 이는 국내 미세먼지오염도가 중국의 대기오염에 크게 영향을 받는다는 기존의 주장을 뒷받침하는 결과이다. 본 연구에 개발한 텍스트 자료 분석 알고리듬은 모두 3개로 환경정보 문헌을 분석하여 문헌 토픽을 추출하는 LDA 분석 알고리듬, 문헌의 키워드 간 연관규칙을 발견하는 연관성 분석 및 키워드 네트워크 분석 알고리듬, 키워드 간 문장 내 관계를 분석하는 Word2Vec 알고리듬이다. 본 연구에서는 이상의 3개 알고리듬을 1993~2016년 KEI 연구보고서 및 2001~2016년 네이버 환경뉴스에 적용하여 두 종류의 문헌의 특성을 비교하였다. LDA 분석 결과는 다음과 같다. 2008~2012년간 KEI 연구 중 기후변화의 비중이 네이버 뉴스에서 기후변화 비중보다 상대적으로 높았으며, 폐기물, 에너지-자원, 수질오염 연구의 비중은 네이버 뉴스의 비중보다 낮았다. 그리고 2013년 이후에도 에너지-자원 및 폐기물 연구의 비중이 네이버 뉴스의 비중보다 낮은 수준으로 유지되고 있었다. 그리고 2013년 이후 네이버 뉴스에서 그 비중이 급증하고 있는 ‘유전자 변형-소음’, ‘보건-데이터’ 관련 연구가 KEI 연구동향에서는 독립된 토픽으로 나타나지 않아서, 이에 대한 연구가 필요한 것으로 파악되었다. 연관성 분석 및 키워드 네트워크 분석 결과는 다음과 같다. 키워드 네트워크의 시기적 추이를 보면 KEI는 2003~2007년간 기후변화 연구를 선도하였으며, 기후변화 및 녹색성장에 대한 민간의 관심이 높았던 2008~2012년에는 해당 연구를 중심으로 연구를 수행하였다. 단, 2013년 이후에는 네이버 뉴스에서 기후변화 연관 키워드가 세부주제를 중심으로 분기하고 있는 것과 달리, KEI 연구보고서에서는 기후변화 키워드의 중심성이 강화되고 있어 최근 조류를 반영하는 연구가 필요한 것으로 파악되었다. Word2Vec 분석 결과는 다음과 같다. Word2Vec 분석에서는 기후변화의 세부현상인 온난화, 홍수, 가뭄 3개 단어와 문장 내 연관관계가 높은 단어들을 파악하여 매체 간 비교를 수행하였다. KEI 보고서는 온난화의 단기적인 영향, 온난화가 인간에 미치는 영향, 홍수의 국내 영향, 가뭄이 인간에 미치는 영향과 관계된 단어가 3개 단어와 연관성이 높은 것으로 파악되었고, 네이버 뉴스에서는 온난화의 초장기적인 영향, 온난화가 생물 및 식량에 미치는 영향, 해외 홍수의 피해, 가뭄이 농업에 미치는 영향과 관계된 단어의 연관성이 높은 것으로 파악되었다. 이러한 차이는 연구보고서가 국민의 삶에 질과 연관하여 기후변화를 연구하고 있는 데 비해, 네이버 뉴스는 기후변화로 인한 세계적인 피해를 중심으로 기사가 작성되고 있는 현상을 반영한다고 할 수 있다. 이상에서 소개한 3개의 알고리듬을 2개의 텍스트 문헌에 적용한 텍스트 분석 결과로부터 환경 연구 수요 및 현재 연구 부족 분야를 파악하였다. 토픽 구성 변화를 보면, ‘에너지-자원’, ‘폐기물’, ‘유전자 변형/소음’, ‘보건/데이터’에 대한 민간의 관심이 제고되고 있는데 연구동향은 이를 담아내지 못하고 있었다. 그리고 키워드 분석의 결과를 보면 민간의 관심은 태풍, 한파, 대설 등 세분화된 기후변화 주제로 이동하고 있지만 연구동향은 기후변화 일반을 중심으로 전개되고 있었다. 따라서 환경연구의 외연을 기후변화 외부 영역으로 확장하고, 기후변화와 관계된 연구는 연구주제를 세분화하는 연구가 필요하다고 할 수 있다. 환경 빅데이터 연구 인프라 구축의 일환으로 공공데이터포털(대기오염 및 기상정보), 한국환경공단 AirKorea, 기상자료개방포털 3개 웹페이지의 자료 수집 알고리듬을 개발하였다. 공공데이터포털 자료 수집 알고리듬은 공공데이터포털에서 제공하는 API 서비스를 이용하여 자료를 수집하는 알고리듬이다. 한국환경공단 AirKorea 자료 수집 알고리듬은 웹사이트에 직접 접속하여 자료를 수집하는 알고리듬이다. 이상 2개의 알고리듬은 데이터를 수집하고 추출하는 전 과정을 Python 코드로 작성하여 자동화하였다. 반면 기상자료개방포털 자료 수집 알고리듬은 셀레니움(Selenium) 프로그램을 이용하여 웹브라우저의 로그인 과정을 대행하고, 로그인 이후부터 압축파일(Zip)로 제공되는 자료를 다운로드하는 과정을 자동화한 알고리듬이다. 이 3개 알고리듬을 구축하여 자료가 직접 게시되는 경우, API를 통해 제공되는 경우, 압축파일 형태로만 제공되는 경우에 각각 대응 가능한 자료 추출 도구를 구비하였다. 2017년 본 연구는 빅데이터 연구 방법론을 수치 자료에 적용하면 기존의 방법론보다 소규모 지역 단위에서 예측오차를 단축할 수 있고, 텍스트 자료에 적용하면 민간의 연구에 대한 수요(환경뉴스) 및 연구 공급 현황(연구보고서)을 비교·분석할 수 있음을 확인하였다. 본 연구가 제공하는 정교한 환경정보 예측치는 그 자체로서 민간 환경정보 서비스의 인프라로 기능할 수 있고, 단기 소규모 지역 단위 정책재원 운용의 기준으로 활용할 수 있다. 또한 의사결정나무를 이용하여 독립변수의 중요도를 파악하는 기법을 적용하면, 재정지출이 환경오염에 미치는 영향의 중요도를 평가하여 소규모 지역 단위 재정운용 성과평가 수단으로도 활용할 수 있다. 본 연구의 성과는 빅데이터 연구 방법론이 민간 환경정보사업의 인프라 구축, 정책운용의 효율성 제고, 정책평가 수단의 확충이라는 3가지 측면에서 잠재적으로 정책적 활용 가능성이 있음을 보여 주었다. 본 연구의 성과는 본 연구에서 구축한 깃허브(https://github.com/keibigdata)에 공개하였으며, 향후 본 연구에서 개발하는 환경 빅데이터 분석플랫폼의 기초자료로 활용할 계획이다.

BROWSE

Browse