본문 바로가기
2020 공공 데이터 인턴

[6일차] 공공데이터 품질진단 및 개선 1

by 빵으니 2020. 8. 25.

[데이터 품질의 이해 1]

인공지능 (AI)

- 딥러닝 기술이 핵심 기술이며, 빅데이터 분석과 클라우드 컴퓨팅 기술이 주요 동인 기술


[데이터 품질의 이해2]

 

 


[데이터 품질의 이해3]


[데이터 오류의 유형1]

데이터오류

- 시스템의 데이터베이스 구조가 잘못 설계되거나 입력하는 사람의 실수로 의도와 맞지 않는 데이터가 입력되었을 때 생기는 현상


[데이터 품질점검 기준 및 품질진단 절차 1]

데이터 품질 진단

- 도메인진단 : 컬럼의 고유한 특성을 진단

- 업무규칙 진단 : 업무요건 및 법령 진단

- 참조 무결성 진단 : 자식/부모 테이블 간 관계의 정합성을 진단

 

 

[데이터 품질진단 절차 상세]

주기적으로 이 사이클을 수행해야 함

[대상 칼럼 정보 수집]

 

[데이터 프로파일링]

데이터 프로파일링은 보통 상향식으로 진행됨


[데이터 품질점검 기준 및 품질진단 절차 2]

 

[진단대상 분석]

 

[도메인분석]

 

[업무요건 분석]

정확성 확보를 위해 정지된 상태에서 실시
일반적으로 인사이드아웃 방식을 통해 업무규칙을 도출한다

 

[업무규칙 도출 대상 선정]

 

[업무규칙 상세화]

 

[진단대상 및 방법 선정]

[진단실행]

[네트워크 구성 예시]


[데이터 품질과 데이터 구조 1]

데이터 구조가 제대로 정리되어있지 않으면 데이터 품질도 높일 수 없다

 

데이터 모델과 모델링

데이터 모델링의 핵심은 데이터를 분류해서 데이터 간 관계를 설정하는 것!

 

[데이터 모델링 기법]

 

[엔티티 타입]

사건과 개념이 업무에서 많이 사용되는 엔티티타입

[속성]

직번, 성명, 주소, 전화번호가 속성

[엔티티와 엔티티타입]

 

[관계]

엔티티타입 간의 관계

[페어링과 관계]

엔티티타입 안에 들어있는 엔티티들간의 관계를 페어링이라 함


[데이터 품질과 데이터 구조 2]

카디낼리티와 선택성(옵셔널리티)을 결정하는 것은 엔티티의 페어링

 

페어링 수를 표현 
페어링 여부를 표현
이 조직에서는 데이터를 4개를 분류했고 데이터 간 어떤 관계가 있고 페어링이 어떻게 맺어졌는지 확인 가능

 

[식별자]

식별자의 구성요소

- 하나 혹은 다수의 속성으로 구성

- 하나 혹은 다수의 관계로 구성

- 속성과 관계의 조합으로 구성

 

[외부키(FK)]

 

[관계형 식별자]

 

[데이터 모델의 활용]

논리모델은 이상적인 모델
현실적인 상황이 반영된 데이터 모델

 

[데이터 아키텍처의 필요성]

댓글