사회·환경이슈 선제적 대응을 위한 환경 데이터 허브 구축 및 운영

Title
사회·환경이슈 선제적 대응을 위한 환경 데이터 허브 구축 및 운영
Authors
진대용
Co-Author
표종철; 한국진; 김도연; 조윤랑; 엄정호
Issue Date
2021-12-31
Publisher
한국환경연구원
Series/Report No.
사업보고서 : 2021-10-04
Page
253 p.
URI
https://repository.kei.re.kr/handle/2017.oak/23496
Language
한국어
Keywords
환경 이슈, 환경 데이터, 환경 데이터 허브, 환경 인공지능, 데이터 관리, Environmental Issues, Environmental Data, Environmental Data Hub, Environmental Artificial Intelligence, Data Management
Abstract
Ⅰ. 서론 1. 연구의 필요성 및 목적 ? 사회·경제 대전환의 핵심요소인 ‘데이터 댐’ 구축 필요 ㅇ 데이터 수집과 활용을 위한 데이터 허브(data hub) 필요 - 공공 및 민간 데이터는 미래 산업의 핵심 동력 - 데이터 지도, 데이터 연계 및 분석 서비스 등 데이터 댐의 新가치 창출 필요 ※ 데이터 댐: 데이터 수집 후 표준화하여 다시 공유하는 것 ㅇ 대규모 사회·환경 이슈 대응을 위한 데이터 활용 곤란 - 코로나19, 미세먼지, 가습기 살균제 등 대규모 사회·환경 이슈 발생 - 사회·환경 이슈 대응을 위한 환경관련 데이터가 산재되어 수집과 활용 곤란 ? 사회·환경 이슈 대응을 위한 데이터 허브 구축 중장기 로드맵 제시 ㅇ 환경정책 연구의 디지털 전환을 위한 데이터 허브 구축 방안 마련 - 주요 구축 사례 검토를 통한 환경 데이터 허브 구축의 필수요소 도출 - 연구데이터 리포지터리(IDR)를 기반으로 저장소 중심의 데이터 허브 시범 구축 ㅇ 효율적인 데이터 허브 구축을 위한 중장기 로드맵 제시 - 다양한 사회·환경 이슈 대응과 데이터 기반 의사결정 지원을 위한 데이터 발굴 - 산재된 데이터와 다양한 데이터 분석 플랫폼 활용을 고려한 중장기 로드맵 제시 2. 연구의 범위 및 방법 ? (시범) 구축 수행 후 향후 개선을 위한 중장기 구축 로드맵 제시 ㅇ 데이터 허브 구축 사례 검토하여 데이터 허브 필수기능 도출 - 데이터와 분석서비스, 데이터맵, 사용자 접근성 향상 등 주요 기능 사례 분석 ㅇ 사회·환경 분석 이슈 대응을 위한 데이터 허브의 기능 정의 - 데이터 기반 사회·환경 이슈 분석 사례 축적 및 데이터 분석의 장점과 한계점 검토 ㅇ 환경 데이터 허브 시범 구축 후 향후 확대 추진을 위한 중장기 로드맵 제안 - IDR 시스템을 중심으로 환경 데이터 허브 시범 구축 후 중장기 로드맵 제안 Ⅱ. 환경 데이터 허브 구축 방안 1. 데이터 허브 구축 개요 ? 환경 분야에 적용 가능한 데이터 허브 검토 필요 ㅇ 데이터 기반 대비 빈약한 데이터 분석 플랫폼과 데이터 허브 - 영국: 데이터 기반의 사회문제 해결과 행정데이터 분석연구 활용 지원 - 싱가포르: 국가 차원의 이슈 분석을 위한 범정부 플랫폼 운영 - 미국: 사이버 물리시스템(CPS) 기반의 스마트도시 데이터 허브 구축 및 활용 - 우리나라: 환경부 수집-저장 데이터 기반 구축, 연계 및 활용 제한 2. 주요 데이터 허브 사례 ? 공공데이터포털 ㅇ 국내 최대 데이터 허브로 ?공공데이터법?에 따라 설치 및 운영 - 파일데이터 약 4만 건, 오픈데이터 약 7,000건, 표준데이터 약 1만 건 보유 ㅇ 다양한 관점의 데이터 지도인 국가데이터맵 제공 ㅇ 시각화, 국민참여지도, 위치정보 시각화 등 시각화 서비스 제공 ? 국가통계포털 ㅇ 국내 최대 통계 데이터 허브로 ?통계법?에 따라 국내외 통계 제공 ㅇ 다양한 관점 데이터 지도와 e-지방지표(시각화) 등 시각화 제공 ㅇ 마이크로데이터 통합서비스 등 전문서비스 제공 ? 빅데이터 공통기반 혜안포털 ㅇ 범정부 빅데이터 분석 플랫폼 서비스 ㅇ SNS 텍스트 마이닝 분석과 시각화 제공, 대체로 느림 ㅇ 공동활용데이터 등록관리시스템 제공 ? 환경정보융합 빅데이터 플랫폼(환경데이터포털) ㅇ 환경 분야 전문 데이터 수집-저장 포털 ㅇ 데이터 분석 플랫폼 서비스 4종을 제공, 느리고 불편 ㅇ 2022년 이후 차세대 고도화 예정 ? 환경 비즈니스 빅데이터 플랫폼 ㅇ 환경 분야 데이터 유통 플랫폼 ㅇ 다양한 텍스트 마이닝 시각화 결과와 환경 데이터 시각화 예제 제공 ㅇ 모두 17개 공공과 민간이 참여 ? 연구데이터 리포지터리 ㅇ 연구데이터를 공유하는 시스템 - Open Science의 핵심 구성요소: 연구데이터 ? NASA, 인공위성 데이터 제공 ? CERN, 국제대형강입자충돌기 실험데이터 제공 ? 바이오 분야의 유전체 데이터 공유 서비스 ? 출판 분야의 Nature와 Springer, Elsevier ㅇ 연구 결과 및 과정을 개방, 공유하는 오픈 사이언스 개념 대두 - OECD: 개방성, 효과성, 지속가능성 등 13개 원칙 제시 - ISC: 공공데이터에 대한 보편적이고 동등한 접근을 증진하기 위한 14개 권고사항 제시 - 미국: 국가 수준의 연방기구의 디지털 데이터 관리 및 수집 시행, 국가연구기관 중심의 데이터 관리와 공유 정책 시행, 인프라 및 데이터 공유 프로그램 운영 - 유럽: 국가 저장소와 함께 유럽 전체 네트워크 OpenAIRE 구축, 투자 프로젝트의 연구결과 관리, 출판물과 문헌 관리 ㅇ 국가 차원의 체계적인 연구데이터 관리와 공유를 위한 정책과 제도 - 미국: NSF, NIH 등 연방기금 1억 달러 이상 지출 연방기관 R&D의 연구데이터 관리와 공동 활용을 위한 지침 제정 - 영국, 호주: 연구데이터 관리와 활용을 위한 정책 수립 ㅇ 국외 연구데이터 플랫폼 운영: 유럽, 미국, 영국, 일본, 호주 등 3. 데이터 허브의 주요 기능 ? 데이터 지도 ㅇ 방대한 데이터를 효과적으로 이용하는 데 활용 ㅇ 분류별, 지역별, 키워드별, 분야별 다양한 관점으로 제공 ㅇ 환경 분야는 키워드 접근 순서에 따라 다중 관점의 분류체계 필요 ? 데이터 표준화 ㅇ 누구든 해당 데이터를 쉽게 활용할 수 있도록 가공하는 것 의미 ㅇ 국제 표준화는 빅데이터의 수직, 수평적 상호운용성을 고려하여 추진 ㅇ 국내 표준화는 빅데이터 처리를 위해 일부 요소에만 적용 중 ? 빅데이터 분석 및 활용체계 ㅇ 데이터 지도와 연계하여 데이터를 확인 및 분석, 시각화하는 체계를 의미 ㅇ 데이터 분석 플랫폼 서비스와 유사한 기능 ? 공공데이터와 데이터 기반 행정의 업무 지원 ㅇ 최근 데이터 관련 법률과 관련 계획·평가 대응 증가 ㅇ DMP-연구데이터 등록으로 데이터 발굴, 현황 파악, 실적 증명이 가능해짐 ㅇ 다만, 환경 데이터 허브와 인트라넷 정보시스템 연동 필요 Ⅲ. 환경 데이터 허브 중심 코로나19 이슈 분석 1. 데이터 현황 검토 ? 환경통계 데이터는 신뢰도가 높지만 통계 산출에 많은 시간이 소요되며 시공간적 한계 존재 ? 신용카드 데이터는 지역별, 업종별 카드이용 현황 및 코로나19, 미세먼지 등 사회·환경 이슈 분석을 위한 소비 빅데이터 제공 ㅇ ’20~’21년 데이터바우처 사업을 통해 코로나19 관련 BC카드 소비데이터 확보 및 분석 수행 ? 사회·환경 이슈 도출 및 분석을 위해 SNS, 언론 보도자료 등 텍스트 자료 수집 및 활용 가능 ㅇ 텍스트 마이닝 분석으로 코로나19 사태 이후 발현한 환경 이슈* 도출 * 환경 이슈: 1) 쓰레기(폐기물 등) 증가, 2) 대기오염(대기질) 감소, 3) 에너지(전기, 가스 등) 증가 2. 코로나19에 의해 (준)실시간으로 발생한 환경 이슈 분석 ? 코로나19로 발현한 환경 이슈를 카드데이터와 환경 데이터를 융합 분석하여 (준)실시간으로 발생하는 환경 이슈에 대응하는 시의적절한 정책 개발 가능 ㅇ 카드데이터 기반 소비형태 변화 분석을 통해 발현 가능한 환경 이슈(폐기물 증가, 대기오염 감소, 에너지 사용량 증가) 분석 ㅇ 분석 결과, 코로나19 확진자가 증가하면 배달앱의 이용금액 및 건수가 모두 증가하고 대중교통과 주유 이용금액 및 건수는 모두 감소, 지역난방은 양의 상관관계로 보이나, 계절적인 특징으로 겨울철 지역난방 사용이 높아서 나타난 것으로 판단 3. 코로나19 사회적 거리두기 정책 전후 분석 ? 코로나19 사태 이후 사회적 거리두기 정책 전후 코로나 확진자 및 카드이용 변화 분석을 통해 정부 개입 효과 분석 수행 ㅇ 사회적 거리두기 기간을 기준으로 전후 4주(1개월) 데이터를 비교 분석 - 사회적 거리두기 단계에 따라 4개 구간(’20.3.22~’20.4.19, ’20.8.30~’20.9.13, ’20.9.14~’20.10.11, ’20.12.8~’20.12.28) ㅇ 코로나19 확진자 증감량의 산식에 사용되는 변수의 평균 변화 분석을 통해 정책 전후 차이 확인 ㅇ 정책 전과 후 추세에 대한 검증 및 검증된 추세를 기반으로 비교 분석 결과 4개 구간 모두에서 추세 변화 확인 4. 환경 데이터 허브의 추가 요구사항 ? 사회·환경 이슈의 탐지 및 현황 분석 제공 ㅇ 문헌, 언론, 보도자료와 포털 등의 데이터 수집 자동화 필요 ㅇ 사회·환경 이슈 조기 탐지를 위한 연관·관련 이슈 분석, 절차 필요 ? 사회·환경 이슈 분석을 위한 데이터 확보 및 공유기반 구축 ㅇ 공공 및 민간 데이터를 효율적으로 제공하기 위한 기능 필요 ㅇ 사회·환경 이슈 분석을 위한 데이터의 범위 검토, 데이터의 제공 및 분석 사례 구축 ? 데이터의 특성 및 범위의 검토 ㅇ 데이터의 신뢰도와 이슈 대응의 신속성 등 상황을 고려하여 데이터 활용 ㅇ 데이터의 공통 활용성 측면에서 검토하여 공동활용데이터로 활용 ㅇ 데이터의 접근성과 지속가능성을 고려하여 연구데이터 선정 ? 사회·환경 이슈 분석을 위한 분석 도구 활용방안 검토 ㅇ 모든 연구데이터가 분석데이터로 활용되지 않음 ㅇ 사회·환경 이슈 분석을 위한 분석 도구와 활용사례 발굴 필요 ? 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 ㅇ 빅데이터는 함축적 의미를 가진 간소화를 통해 분석되기 때문에 전문가의 해석과 정책화 등 의사결정을 위한 추가적인 절차가 반드시 필요 ㅇ 데이터기반 정책의사결정 지원체계 구축 필수 Ⅳ. 환경 데이터 허브 시범 구축 1. 환경 데이터 허브 구축의 필수요소 ? 데이터 세트 ㅇ 질적으로 우수한 데이터 확보 방안 필요 - 환경정책에 활용 가능한 데이터 수요조사 - 수집경로별 데이터 수집 자동화 - 환경부 데이터 실무협의체 참여 등 데이터 네트워크 발굴 - 데이터 세트 구축 사업과 데이터 지원 사업의 공모 참여 - 연구자 접근성 개선과 업무효율성 홍보 등 ? 데이터 저장소 ㅇ 메타정보 운영관리의 편리성과 무결성 유지를 병행할 방안 필요 - 데이터의 제출, 갱신, 검색 기능과 메타데이터 관리 기능 필요 - DMP, 권한관리, 외부 데이터와 데이터 분석 플랫폼 연계 활용 ? 데이터 분석 플랫폼 ㅇ 데이터 분석을 위한 데이터 파이프라인 구축 방안 필요 - 데이터의 적재, 전처리, 분석, 검증과 시각화 확인이 가능해야 함 - 프로그래밍 언어와 라이브러리 등 코드 사용의 편리함 고려 - 데이터 저장소와의 데이터 연계, 데이터 분석 결과의 유연한 저장 - 수치예측, 텍스트·이미지 분석 등 주요 AI 및 데이터 분석 모듈의 이용자 편의 2. 환경 데이터 허브 구축 ? 사전 검토사항 ㅇ 연구데이터 컬렉션 - 효율적인 조회와 검색결과 제공: 원본 데이터 여부, 출처, 데이터의 위치 등 - 최상위 컬렉션에 공동활용데이터와 과제수행 연도 반영 ? 공동활용데이터: 기후변화, 녹색전환, 대기환경, 물관리, 국토환경, 자원순환, 환경보건, 환경영향평가, 지표통계, 기타(외부) 등 모두 10개 ? 과제수행 연도별 컬렉션은 과제종류별 컬렉션을 담고, 그 하위에 과제명 컬렉션 존재 ※ 컬렉션: 연구데이터와 연구데이터의 메타데이터를 담고 있는 캐비닛 - 연구데이터 분류체계 ㅇ 데이터 인용 - 효율적인 연구수행으로 데이터 활용의 선순환 생태계 조성 ? 선행 연구자의 공로 인정 ? 후행 연구자는 연구 과정·결과의 재생 및 활용 ? 연구결과의 재이용을 통해 연구성과 확산에 기여 ? 연구자 간 연구결과의 신뢰와 투명성 제고 - KEI 형식, MLA, APA, ISO 690 등 모두 4종의 인용 문구 표시 - DOI 출판 기능 제공 ㅇ 데이터 지도 - 효율적인 데이터 검색 ? 활용하고자 하는 데이터에 대한 명확한 지식이 없는 이용자도 사용 ※ 통합 데이터 지도: 분류별, 지역별, 키워드별, 분야별 접근방식 제공 ※ 공공데이터포털: 트리맵과 검색기능 병행 제공, 데이터의 비중 파악 유리 ㅇ 데이터 관리 절차 - 데이터 구축과 관리를 통하여 체계적인 연구데이터 수집-저장 가능 ? 데이터 구축: 데이터 확인과 검토를 통해 데이터 분류 수행과 데이터 표준화를 위한 메타데이터 부여 ? 데이터 관리: 우선순위를 구분하여 중요데이터와 일반데이터로 분류하고 데이터 품질관리, 데이터 공개 여부 결정, 데이터 보완, 생애주기 관리 수행 ? DMP-연구데이터 동기화와 기획-수행-종료에 따라 단계별 생애주기 관리 필요 ㅇ 프레임워크 구축 - KEI-IDR 시스템은 연구데이터 저장소로 이용하고 DMP-연구데이터를 활용 - 연구DB는 인트라넷 시스템을 이용하고 연구정보 연동 - 빅데이터 분석 플랫폼은 KEI 빅데이터 분석 플랫폼 시범서비스를 활용 - 외부 허브는 데이터, 분석, 인프라 등 목적에 맞도록 연동 - 외부 데이터는 공공데이터포털, 국가통계포털, AI데이터허브, 빅카인즈 등 목적에 맞게 연동 ㅇ 시범 구축 - 사전 검토사항과 데이터 관리 절차, 환경 데이터 허브 프레임워크를 기반으로 환경 데이터 허브를 시범 구축 ? 자동으로 갱신되는 데이트를 수집하기 위해 동적 데이터 기능 구축 ? 이용자 간 데이터 공유 기능과 데이터 보호를 위해 보존 기간 기능 구축 ? 외부 학술DB 검색 기능과 데이터 지도, 외부 데이터 기능을 구축 ? 물리적인 저장소 NAS로 교체 ㅇ 외부 데이터 활용방안 - 공동활용데이터 컬렉션 분리: 연구 수행에 자주 사용하는 데이터, 분류기준이 범용적인 데이터 ? OpenAPI, WebDAV, FTP 등을 통해 원격에서 데이터 활용 가능 - 데이터포털과 데이터 분석 플랫폼 ? 환경 빅데이터 분석 플랫폼 시범서비스, 환경 Data Science 전환연구 서비스와 개인 분석환경 활용 ? 데이터의 활용이 더 중요한 경우, 외부의 데이터 분석 플랫폼을 이용하는 것이 유리함 ? MLOps: 분석환경을 온라인으로 전환하는 조직에서 활용 ㅇ 환경 데이터 허브 고도화 방안 - DMP 관리기능 개선: 템플릿 복사, 순서 변경, 엑셀 반출 등 - 개인 저장소 기능 개선: 업로드/다운로드, 공유, OpenAPI 사용, 프로그래밍 코드 연동 등 3. 환경 데이터 허브 확대 구축 로드맵 ? KEI형 환경 데이터 허브 로드맵 제시 ㅇ 제약조건을 고려하여 KEI형 환경 데이터 허브 로드맵(간소화) 제시 - 제약조건 ? 모든 연구데이터의 특성을 고려하여 환경 데이터 허브를 구축하는 것은 불가능 ? 일반적인 정보시스템 구축 방법론 적용도 현실성이 없음 ? 과업수행기간, 예산, 인력, 사회·환경 변화 고려 ? 연구자, 정책가, 수요기업과 대국민 등 수요자를 단계적으로 확대 - 제안사항 ? 환경 데이터 허브 구축 계획 수립: 2021년 표준 IDR 최신 업데이트가 마무리되는 시점부터 8개월간 수행, 제약조건을 고려하여 약 2개년에 대한 추진계획 작성 ? 환경 데이터 허브 인프라 구축: KEI-IDR 시스템과 외부 분석 플랫폼 서비스, 외부 데이터포털 등 다른 시스템과의 연계를 고려하여 구축, 유연한 분류체계 반영 ? 환경 데이터 허브 고도화: 외부 서비스 변경사항 반영, 수요조사 후 결과반영, 데이터 지도 확대 ㅇ 로드맵(간소화) 제약조건을 고려하여 환경 데이터 허브 확대 로드맵 제시 - 데이터 구축 ? 1단계(2020~2021년): 연구데이터 등록과 내부 공개 시범 운영, 환경 데이터 플랫폼 현황 파악과 분석, 외부 데이터 연동기능 구축 ? 2단계(2022~2024년): 모든 정부출연금 과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 절차 마련, 환경 전문가 수요조사 결과에 따른 AI데이터 구축 ? 3단계(2025년~): 수탁과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 대상 확대 - 데이터 저장소 구축 ? 1단계(2020~2021년): 표준 IDR 도입과 KEI-IDR 구축, 인트라넷 정보시스템 연동, 기본 데이터 통계, 데이터 지도와 외부 데이터 검색 기능 구축 ? 2단계(2022~2024년): KEI-IDR 안정화, 데이터 연계와 활용 기능 확대 ? 3단계(2025년~): 데이터 저장소 구축 완료, 데이터 아카이빙 서비스의 고도화 추진 - 데이터 분석 플랫폼 도입 ? 1단계(2020~2021년): 기존의 분석 플랫폼 서비스와 서버, 개인 분석환경 활용으로 1단계 없음 ? 2단계(2022~2024년): 분석환경에서 연구데이터를 직접 연결하는 기능개선과 전문가 중심의 대시보드 구축 ? 3단계(2025년~): 데이터 융합 활용사례 제공과 대시보드 고도화 - 성공조건: 전담조직 운영 > 예산확보, 제도개선 병행 ? 제도개선: 안전하고 유연한 접근이 가능하도록 정보보안 정책 개선 ? 전담조직: 데이터 관련 법률에 따라 전담조직 설치, 데이터 과학자와 기술자 자체 수급(전문교육 등 활용), 환경 매체별 부서와 전담조직의 협업 강화 ? 예산확보: KEI에서 집행 가능한 수준으로 조정(협의) 가능. 다만, 예산이 연속적으로 보장되어야 함 Ⅴ. 결론 (학술적 성과) 1. 결론 ? 연구자 인식전환 및 협업 생태계 구축 ㅇ 다양한 사회·환경 이슈 파악, 분석, 정책 결정을 위한 현실적인 방안과 사전대응체계 마련 필요 - 지속적인 사회·환경 이슈 발생으로 데이터 기반 대응사례 증가 추세 - 환경통계와 사회통계 융복합, 환경정책연구의 경계 약화 ㅇ 빠른 데이터 생산에 유연한 데이터 활용을 통한 정책 반영 - 사람과 사물 등 물리적 요소가 모두 연결되고, 상호작용하는 상황 반영 - 데이터에 대한 관점 변화: 적시적인 결과 도출과 데이터 신뢰의 중요도 판단 - 환경정책연구의 제약: 시의성 높은 이슈 분석에 사용할 수 있는 데이터가 미미 ㅇ 통계 구축의 주기성 단축과 대체재로서의 데이터 선별 지원 - 사회·환경 이슈 분석에 있어 다양한 데이터의 범위와 한계점 검토 - 의료 폐기물 발생량이 폭증하였으나, 2021년 쓰레기 배출량 공식통계 없음 ? 환경 데이터 허브 시범 구축과 환경 데이터 활용 기반 구축 - 환경 데이터 허브 구축의 필수요소 도출: 데이터 세트, 데이터 저장소, 데이터 분석 플랫폼 - KEI형 중장기 환경 데이터 허브 로드맵 제시 ? 사회·환경 이슈 분석을 위한 환경 데이터 허브의 요건 제시 - 사회·환경 이슈 분석을 데이터의 확보, 데이터 공유를 위한 기초 기반 구축, 분석 도구 구축 등 필요 - 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 필요


Ⅰ. Background and Aims of Research 1. Heading ? Construction of ‘data dam’, a key element of the great social and economic transformation ㅇ A data hub is required for data collection and utilization - Public and private data are the key drivers of the future industry - It is necessary to create new values for ‘data dam’ such as data maps, data linkage and analysis services. ※ Data Dam: Collecting data, standardizing it, and sharing it againn ㅇ Difficulty in using data to respond to large-scale social and environmental issues - Large-scale social and environmental issues such as COVID-19, fine dust, and humidifier disinfectant occurred - It is difficult to collect and utilize environment-related data to respond to social and environmental issues. ? Present a mid- to long-term roadmap for building a data hub to respond to social and environmental issues ㅇ Prepare a plan to build a data hub for the digital transformation of environmental policy research - Derivation of essential elements for building an environmental data hub through a review of major implementation cases - Based on Institutional Data Repository (IDR), build a storage-centric data hub pilot ㅇ Present a mid- to long-term roadmap for building an efficient data hub - Discovering data to respond to various social and environmental issues and support data-based decision-making - Presenting a mid- to long-term roadmap considering scattered data and utilization of various data analysis platforms 2. Research Scope and Methods ? (Pilot) After implementation, present a mid-to-long-term roadmap for future improvement ㅇ Deriving essential data hub functions through data hub implementation case review - Major functions : data and analysis service, data map, and user accessibility improvement ㅇ Functional definition of data hub to respond to social/environmental analysis issues - Accumulation of data-based social and environmental issue analysis cases and review of strengths and limitations of data analysis ㅇ Proposal of mid- to long-term roadmap for future improvement after pilot implementation of environmental data hub - Proposal of mid- to long-term roadmap after pilot implementation of environmental data hub based on IDR system Ⅱ. Strategies to Build an Environmental Data Hub 1. Overview of building a data hub ? Applicable data hubs in the environmental field need to be reviewed ㅇ Poor data analysis platform and data hub - UK: Support for data-based social problem solving and administrative data analysis research use - Singapore: Pan-government platform operation for national issue analysis - U.S.: Establishment and utilization of smart city data hub based on cyber physical system (CPS) - Korea: Establishment of collection-storage data base by the Ministry of Environment, and restriction of connection and use 2. Key Data Hub Examples ? Public Data Portal ㅇ Installed and operated according to the Public Data Act as the largest data hub in Korea - About 40,000 file data, 7,000 open data, and 10,000 standard data ㅇ Provides a national data map from various perspectives ㅇ Provide visualization services such as public participation map, location information visualization and so on ? National Statistics Portal ㅇ As the largest statistical data hub in Korea, domestic and foreign statistics are provided in accordance with the Statistical Act ㅇ Provide visualizations such as data maps from various viewpoints and e-local indicators (visualization) ㅇ Provide professional services such as micro data integration service ? Big data common-based insight portal ㅇ Pan-government big data analysis platform service ㅇ SNS text mining analysis and visualization provided, generally slow ㅇ Provide joint use data registration management system ? Environmental information convergence big data platform (environmental data portal) ㅇ Specialized data collection-storage portal in the environmental field ㅇ Provides 4 types of data analysis platform services, but it is slow and inconvenient ㅇ Next-generation upgrade planned after 2022 ? Environmental Business Big Data Platform ㅇ Environment field data distribution platform ㅇ Provide various text mining visualization results and environmental data visualization examples ㅇ A total of 17 public and private sectors participated ? Research data repository ㅇ A system for sharing research data - Core components of Open Science: Research data ? NASA provides satellite data ? CERN provides experimental data for the International Large Hadron Collider ? Genomic data sharing service in the bio field ? Nature, Springer, and Elsevier in publishing ㅇ The rise of the concept of open science to open and share research results and exaggerations ? OECD: 13 principles including openness, effectiveness, and sustainability ? ISC: makes 14 recommendations to promote universal and equal access to public data; ? U.S.: Implementation of digital data management and collection by federal agencies at the national level, implementation of data management and sharing policies centered on national research institutes, and operating programs for infrastructure and data sharing ? Europe: Establishment of OpenAIRE, an entire European network with national repositories, management of research results of investment projects, management of publications and literature ㅇ Overseas research data platform operation: Europe, USA, UK, Japan, Australia, etc. 3. Key Features of Data Hub? Data Map ㅇ Utilize to effectively use vast amounts of data ㅇ Provide various viewpoints by classification, region, keyword, and field ㅇ In the environmental field, a multi-view classification system is required according to the keyword access order ? Data standardization ㅇ It means processing the data so that anyone can use it easily. ㅇ International standardization is promoted in consideration of the vertical and horizontal interoperability of big data ㅇ Domestic standardization is being applied only to some elements for big data processing ? Big data analysis and utilization system ㅇ Refers to a system for checking, analyzing, and visualizing data in connection with the data map ㅇ Support for functions similar to data analysis platform services ? Support for public data and data-based administration work ㅇ Recently, data-related laws have increased and related plans and evaluation responses have increased ㅇ DMP-Research data registration makes it possible to discover data, understand the current status, and prove performance ㅇ However, necessary to connect environmental data hubs and intranet information systemsm. Ⅲ. Analysis of COVID-19 Issues Centered on Environmental Data Hub 1. Data Status Review ? Although environmental statistics data is highly reliable, it takes a lot of time to calculate statistics, and there are temporal and spatial limitations ? Credit card data provides consumption big data for analysis of card usage status by industry by sector and social and environmental issues such as COVID-19 and fine dust. ㅇ Securing and analyzing data on BC card consumption related to COVID-19 through ‘data voucher business’ in ’20~’21 ? Possible to collect and use text data such as SNS and press releases for deriving and analyzing social and environmental issues. ㅇ Deriving environmental issues* that emerged after the COVID-19 crisis through text mining analysis * Environmental issues: 1) Increase in garbage (waste, etc.), 2) Decrease in air pollution (air quality), 3) Increase in energy (electricity, gas, etc.) 2. Analysis of environmental issues caused by near real-time due to COVID-19 ? Possible to develop timely policies to respond to environmental issues that occur in (quasi) real-time by convergence analysis of card data and environmental data for environmental issues that have emerged due to COVID-19 ㅇ Analysis of possible environmental issues (increase in waste, decrease in air pollution, increase in energy consumption) through card data-based consumption pattern change analysis ㅇ As a result of the analysis, when the number of confirmed COVID-19 cases increases, both the amount and number of delivery apps use increases, and the amount and number of use of public transportation and gas both decrease. It is considered that this is due to the high 3. Analysis of before and after COVID-19 social distancing policy ? Analyze the effect of government intervention by analyzing the changes in COVID-19 confirmed cases and card use before and after the social distancing policy after the COVID-19 inciden ㅇ Comparative analysis of data before and after 4 weeks (1 month) based on the social distancing period - 4 sections according to the social distancing stage (‘20.3.22~`20.4.19, `20.8.30~`20.9.13, `20.9.14~`20.10.11, `20.12.8~`20.12.28) ㅇ Confirm the existence of differences before and after the policy by analyzing the average change of the variables used in the calculation of the increase or decrease of the number of COVID-19 confirmed cases ㅇ Verification of the trend before and after the policy and comparison analysis based on the verified trend confirms that there is a trend change in all 4 sections 4. Additional Requirements for Environment Data Hub ? Detection of social/environmental issues and provide current status analysis ㅇ Need to automate data collection of documents, press, press releases and portals ㅇ Relevant and related issue analysis and procedures required for early detection of social and environmental issues ? Securing data for analysis of social/environmental issues and building a base for sharing ㅇ Need functions to efficiently provide public and private data ㅇ Review the scope of data for analyzing social and environmental issues, provide data, and establish examples of analysis ? Review of the nature and scope of the data ㅇ Data is utilized in consideration of circumstances such as reliability of data and prompt response to issues ㅇ Used as data for common use by reviewing the aspect of common use of data. ㅇ Research data was selected in consideration of data accessibility and sustainability ? Review of the use of analysis tools to analyze social and environmental issues ㅇ Not all research data is used as analysis data ㅇ Necessary to discover analysis tools and use cases to analyze social and environmental issues ? Establishment of data-based policy decision support system that can draw policy implications ㅇ Since big data is analyzed through simplification with implications, additional procedures for decision-making such as expert interpretation and policymaking are absolutely necessary ㅇ Essential to establish a data-based policy decision support system Ⅳ. Implementation of a Pilot Environment Data Hub 1. Essentials of Building an Environmental Data Hub ? Data set ㅇ Demand for measures to secure quality data - Data demand survey that can be used for environmental policy - Automate data collection by collection path - Discover data networks such as participation in the data working group of the Ministry of Environment - Participation in competition for data set construction and data support projects - Improving researcher access and promoting work efficiency, etc. ? Data Repository ㅇ Demand for a method that can simultaneously maintain the convenience and integrity of meta information operation and management - Data submission, update, search function and metadata management function are required - Utilization of DMP, authority management, connection of external data and data analysis platform ? Data analysis platform ㅇ Need to build a data pipeline for data analysis - Data loading, pre-processing, analysis, verification, and visualization should be possible - Consider the convenience of using codes such as programming languages and libraries - Data linkage with data storage, flexible storage of data analysis results - User convenience of major AI and data analysis modules such as numerical prediction and text/image analysis 2. Building an Environmental Data Hub ? Preliminary considerations ㅇ Research data collection - Provide efficient inquiry and search results: whether original data, source, location of data, etc. - The joint use data and the year of the assignment are reflected in the top-level collection ? Shared data: climate change, green transition, atmospheric environment, water management, land environment, resource circulation, environmental health, environmental impact assessment, index statistics, other (external), etc. ? The collection by year of task execution contains collections by task type, and the task name collection exists under it ※ Collection: Cabinet containing research data and metadata of research data Research data categorization system ㅇ data citation - Creating a virtuous cycle ecosystem of data utilization through efficient research ? Recognition of merits of previous researchers ? Subsequent researchers can reproduce and utilize the research process and results ? Contribute to the spread of research results through reuse of research results ? Enhance the trust and transparency of research results among researchers - All 4 types of quotation marks including KEI format, MLA, APA, ISO 690 - DOI publishing function provided ㅇ Data map - Efficient data search ? Users who do not have clear knowledge of the data they want to use can also use it ※ Integrated data map: Provides approaches by classification, region, keyword, and field ※ Public data portal: Treemap and search function are provided concurrently, and it is advantageous to understand the weight of data ㅇ Data management procedure - Systematic research data collection and storage possible through data construction and data management ? Data construction: data classification and data standardization through data verification and review ? Data management: Classify priorities into important data and general data, and perform data quality management, data disclosure decision, data supplementation, and life cycle management ? Step-by-step life cycle management is required according to DMP-research data synchronization and planning-execution-completion ㅇ Building a framework - The KEI-IDR system is used as a research data repository and DMP-research data is used - Research DB uses intranet system and research information is linked - Big data analysis platform utilizes KEI big data analysis platform pilot service - External hubs are linked to suit the purpose of data, analysis, infrastructure, etc. - External data is linked according to the purpose of public data portal, national statistics portal, AI data hub, Big Kinds, etc. ㅇ Pilot build - Pilot implementation of an environmental data hub based on preliminary reviews, data management procedures, and ? Build dynamic data capabilities to collect automatically updated data ? Establishment of data sharing function among users and retention period function for data protection ? Build external academic DB search function, data map, and external data function ? Replace with physical storage NAS ㅇ External data utilization - Separation of data collection for common use: data frequently used for research, data with universal classification criteria ? Data can be used remotely through OpenAPI, WebDAV, FTP, etc. - Data portal and data analysis platform ? Use of environmental big data analysis platform pilot service, environmental data science conversion research service and personal analysis environment ? When the use of data is more important, it is advantageous to use an external data analysis platform ? MLOps: Used by organizations moving their analytics environment online ㅇ Environmental data hub upgrade plan - Improvement of DMP management function: copy template, change order, export to Excel, etc. - Improvement of personal storage function: upload/download, sharing, use of OpenAPI, interworking with programming code, etc. 3. Roadmap for expanding the environmental data hub ? Presenting a roadmap for the KEI-type environmental data hub ㅇ Presenting a KEI-type environmental data hub roadmap (simplification) in consideration of constraints - Constraints ? Impossible to build an environmental data hub considering the characteristics of all research data. ? Not practical to apply the general information system construction methodology ? Consider changes in task execution period, budget, manpower, and social/environment ? Step by step expansion of consumers such as researchers, policy makers, demanding companies and the general public - Proposals ? Establishment of environmental data hub construction plan: Implemented for 8 months from the time the latest update of the 2021 standard IDR is completed ? Establishment of environmental data hub infrastructure: Considering the linkage between the KEI-IDR system and other systems such as external analysis platform services and external data portals, and reflecting the flexible classification system ? Environmental data hub upgrade: reflect external service changes, reflect results after demand survey, expand data map ㅇ Roadmap (simplification) Presenting a roadmap for expanding the environmental data hub in consideration of constraints - Data construction ? Stage 1 (2020~2021): Research data registration and internal public pilot operation, environmental data platform status identification and analysis, and external data interlocking function establishment ? Stage 2 (2022~2024): Expand research data registration projects to all government subsidy projects, prepare procedures for external disclosure of research data, and build AI data based on the results of environmental expert demand surveys ? Stage 3 (from 2025): Expand research data registration target projects to consignment projects, expand research data disclosure target - Construction of data repository ? Stage 1 (2020~2021): Introduction of standard IDR and establishment of KEI-IDR, interworking of intranet information system, establishment of basic data statistics, data map and external data search function ? Stage 2 (2022~2024): stabilization of KEI-IDR, expansion of data linkage and utilization functions ? Stage 3 (from 2025): Completion of data storage construction, advancement of data archiving service - Introduction of data analysis platform ? Stage 1 (2020~2021): No phase 1 due to the use of the existing analysis platform service, server, and personal analysis environment ? Stage 2 (2022~2024): Function improvement to directly connect research data in the analysis environment and establishment of an expert-oriented dashboard ? Stage 3 (from 2025): Provide data convergence use cases and upgrade dashboard - Success conditions: Operation of a dedicated organization > Securing a budget and improving the system ? Data policy improvement: information security policy improvement to enable safe and flexible access ? Dedicated organization: Establishment of a dedicated organization in accordance with data-related laws, self-supply of data scientists and technicians (using professional training, etc.), and strengthening collaboration between departments and dedicated organizations by environmental media ? Budget Securing: Possible to adjust (negotiate) to a level that is enforceable by KEI, however, the budget must be continuously guaranteed Ⅴ. Conclusion 1. Conclusion ? Improvement of researcher awareness and establishment of a collaborative ecosystem ㅇ Practical measures are needed to identify, analyze, and make policy decisions on various social and environmental issues, and it is necessary to prepare a system to respond in advance - Data-based response cases are increasing due to the continuous occurrence of social and environmental issues - Convergence of environmental statistics and social statistics, weakening the boundaries of environmental policy research ㅇ Policy reflection through flexible data utilization for rapid data production - Reflects the situation in which all physical elements such as people and objects are connected and interacted - Changes in perspective on data: timely results and determination of the importance of data trust - Constraints in environmental policy research: There is very little data available for timely issue analysis ㅇ Support for shortening the periodicity of statistical construction and screening data as a substitute - Review of the scope and limitations of various data in analyzing social and environmental issues - Although the amount of medical waste has increased significantly, there are no official statistics on the amount of waste in 2021 ? Establishment of a pilot environment data hub and foundation for environmental data utilization - Derivation of essential elements of building an environmental data hub: data set, data storage, data analysis platform - KEI-type mid- to long-term environmental data hub roadmap presented ? Suggestion of requirements for environmental data hub for social/environmental issue analysis - Necessary to secure data for analysis of social and environmental issues, to establish a foundation for data sharing, and to establish an analysis tool - Necessary to establish a data-based policy decision support system that can draw policy implication

Table Of Contents

요 약

제1장 서론
1. 연구의 필요성 및 목적
2. 연구의 범위 및 방법

제2장 환경 데이터 허브 구축 방안
1. 데이터 허브 구축 개요
2. 주요 데이터 허브 구축 사례
3. 데이터 허브의 주요 기능

제3장 데이터 기반 사회·환경 이슈 분석
1. 코로나19의 개요 및 대응
2. 코로나19 관련 주요 환경 이슈
3. 코로나19 관련 데이터 활용 주요 사례
4. 데이터 기반 코로나19-환경 연계 이슈 분석
5. 사회·환경 이슈 대응을 위한 환경 데이터 허브 보완사항

제4장 환경 데이터 허브 시범 구축
1. 환경 데이터 허브 구축의 필수요소
2. 환경 데이터 허브 시범 구축
3. 환경 데이터 허브 확대 구축 로드맵

제5장 결론 및 제언
1. 연구요약
2. 연구성과 활용 및 제언
3. 연구의 한계점 및 보완사항

참고문헌

부 록
Ⅰ. 데이터기반 코로나19 추가 분석 사례
Ⅱ. 환경 데이터 허브 사용 방법
Ⅲ. 환경 데이터 허브 제원

Executive Summary

Appears in Collections:
Reports(보고서) Project Report(사업보고서)
Files in This Item:
Export
RIS (EndNote)
XLS (Excel)
XML

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse