기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

Title
기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구
Authors
진대용
Co-Author
강성원; 최희선; 한국진; 김도연
Issue Date
2018-12-31
Publisher
한국환경정책·평가연구원
Series/Report No.
기후환경정책연구 : 2018-04
Page
141 p.
URI
http://repository.kei.re.kr/handle/2017.oak/22456
Language
한국어
Keywords
텍스트 마이닝, 환경 이슈, 크롤링, 빅데이터, 기후, 기후변화, Text Mining, Climate Change, Web Crawling, Environmental Text Data, Big Data Analysis, Climate Environmental Issues
Abstract
In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived. First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it. Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news, Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition, the data is used to enable analysis of the latest data. Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust', 'heat waves', and 'environmentally friendly' had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of 'climate change' such as 'heat waves', and 'cold waves' rather than the keyword 'climate change'. In detail, Naver's environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for 'global climate change', such as the phenomenon of global warming and greenhouse gas reduction, has decreased over time. On Naver environmental news, the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves', 'drought' and 'cold waves'. The Ministry of Environment's press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat, cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as 'fine dust' and 'heat waves' are showing an increasing trend. Unlike other documents, the keyword of ‘climate change’ is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers. Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis. Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.


본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다. 먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다. 다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다. 본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재해(폭염, 한파 등)와 같은 세부현상에 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다. 본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다. 본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다.

Table Of Contents

제1장 서 론
1. 연구의 필요성 및 목적
2. 주요 연구내용 및 범위
3. 연구의 내용 및 수행체계

제2장 환경연구와 텍스트 마이닝
1. 텍스트 마이닝의 정의 및 과정
2. 텍스트 마이닝 방법론 소개
3. 환경(정책)연구와 텍스트 마이닝
4. 요약 및 결론

제3장 환경 텍스트 분석 프레임워크 구축
1. 환경 텍스트 분석 프레임워크 구축 개요
2. 환경 텍스트 데이터 수집 및 저장
3. 환경 텍스트 분석 기능 구축

제4장 기후변화 이슈 분석
1. 네이버 환경뉴스 분석
2. 환경부 보도자료 분석
3. 환경부 e-환경뉴스 분석
4. 환경부 환경백서 분석

제5장 환경 텍스트 분석 프레임워크의 활용
1. 환경 텍스트 분석 프레임워크의 활용
2. 환경 텍스트 분석 프레임워크를 활용한 웹 프로그램

제6장 요약 및 결론
1. 요약 및 결론
2. 정책적 활용방안

참고문헌

Abstract

Appears in Collections:
Reports(보고서) Climate Policy(기후환경정책연구)
Files in This Item:
Export
RIS (EndNote)
XLS (Excel)
XML

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse