본문 바로가기

2020 공공 데이터 인턴6

[6일차] 공공데이터 품질진단 및 개선 1 [데이터 품질의 이해 1] 인공지능 (AI) - 딥러닝 기술이 핵심 기술이며, 빅데이터 분석과 클라우드 컴퓨팅 기술이 주요 동인 기술 [데이터 품질의 이해2] [데이터 품질의 이해3] [데이터 오류의 유형1] 데이터오류 - 시스템의 데이터베이스 구조가 잘못 설계되거나 입력하는 사람의 실수로 의도와 맞지 않는 데이터가 입력되었을 때 생기는 현상 [데이터 품질점검 기준 및 품질진단 절차 1] 데이터 품질 진단 - 도메인진단 : 컬럼의 고유한 특성을 진단 - 업무규칙 진단 : 업무요건 및 법령 진단 - 참조 무결성 진단 : 자식/부모 테이블 간 관계의 정합성을 진단 [데이터 품질진단 절차 상세] [대상 칼럼 정보 수집] [데이터 프로파일링] [데이터 품질점검 기준 및 품질진단 절차 2] [진단대상 분석] [도.. 2020. 8. 25.
[5일차] 공공데이터 개방 수행방법론 [공공데이터 목록등록관리시스템] 공공기관은 생성, 수집하여 관리하고있는 공공데이터를 목록등록관리시스템(all.data.go.kr)에 등록하며 주기적관리가 필수적 공공데이터 목록 주요 등록기준 [데이터 구조 설계] 개념 데이터 모델 : 업무 요건을 충족하는 데이터의 구조와 핵심 데이터 요소를 정의하고 이들 간의 관계를 정의한 가장 추상적인 모델 논리 데이터 모델 : 개념데이터 모델을 상세화하여 논리적으로 데이터 항목 관계 등을 정의한 모델 물리 데이터 모델 : 논리 모델을 DBMS의 특성 및 성능을 고려하여 구체화시킨 것 [데이터 모델링] - 데이터 베이스 설계에서 가장 중요한 단계 - 정보시스템을 구축하기 위한 데이터관점의 업무 분석 기법 - 현실세계의 데이터를 약속된 표기법에 의해 표현하는 과정 - 데.. 2020. 8. 24.
[4일차]공공데이터 개방/품질 기초 [1. 데이터 품질 관리의 이해 1] 공공데이터 품질 관리란? - 공공데이터의 최신성, 정확성, 상호연계성 등을 확보하여, 사용자에게 유용한 가치를 제공하도록 안정적이고 지속적인 품질 수준 유지를 위한 일련의 활동 [계획단계 품질관리] - 각 기관은공공데이터 품질관리 위한 내부규정 마련 및 추진조직을 구성하고, 소관 공공데이터의 품질관리계획을 수립하여 매년 시행 [구축단계 품질관리] DB 구축 시, 데이터 표준을 적용하고, 데이터구조 일관성 확보, 오류 데이터 유입방지, 데이터 관련 산출물을 확보해야 함 데이터 표준 수립 : 각 기관은 소관 데이터에 일관되게 적용할 표준코드, 표준용어, 표준도메인을 정의 [운영단계 품질관리] 연계데이터 정합성 관리 : 연계 데이터에 대한 현황을 체계적으로 관리하고, 상호.. 2020. 8. 21.
[3일차] 데이터 기초2 [데이터 문제정의 및 수집] ▶문제 정의 필수 고려사항 - 문제의 목표 정의 - 문제 범위 결정 - 문제 결과에 대한 성공 기준 - 문제 해결에 필요한 시간 및 비용 ▶데이터 정의 필수 고려사항 - 문제에 관련된 데이터에 필요한 속성 - 문제 해결에 필요한 데이터 수집 방법 - 데이터 처리 및 분석을 위한 Tool - 최종 결과물의 형태와 전달 대상 ▶문제 정의 사례 [데이터 수집] - DBMS 수집 : DB에 직접 연결해 데이터 수집 - FTP 수집 : 대용량 파일을 수집하기 위해 클라이언트 서버와 연결 (get / put 명령 기능) [Open API] [데이터 전처리, 파이프라인] 데이터 전처리 : 정확하고 신뢰 할 수 있는 데이터 마이닝 결과를 추출하기 위하여 데이터의 분석 및 처리에 적합한 형식.. 2020. 8. 20.