데이터를 다루는 일을 하고 있나요?
그럼 당신 회사의 데이터 거버넌스는 만족할 만한 수준인가요?
데이터 사이언티스트의 말못할 고충
한 조사에 따른 데이터사이언티스트들은 관련성있는 데이터(relevan data)를 찾는데, 1인당 평균 1주의 3시간 정도를 사용하고 있다고 한다.
그 조사에서는 이것도 문제라고 인식했지만, 사실 우리 주변에는 더많은 시간이 소요되는 경우도 잦다. 실제 분석을 시작하기도 전에 데이터가 어디에 어떻게 존재하는지 찾는데만도 한세월이다.
디지털화 진전에 따라 조직 내부의 데이터는 폭발적으로 증가하고 있다. 하지만 활용되는 데이터는 많지 않다. 데이터분석가들은 데이터는 많지만 활용할 수 있는 데이터는 별로 없다고 이야기한다. 또는 데이터를 활용하기 위해서 데이터를 탐색하고 정제하고 가공하는데 너무 많은 시간과 노력이 든다고 이야기한다.
왜 이런 일이 생기는 걸까?
기업 내부에서 데이터 활용에 어려움을 겪는 이유
1. 데이터생산자와, 데이터처리자, 데이터사용자가 다르다.
데이터사용자는 데이터가 어떻게 생산되었고 어떤 기준에 의해서 처리되었는지 알지 못한다. 또한 어떤 데이터가 생산되고 있는지도 모른다.
2. 동일한 데이터를 여러 부서가 사용한다.
사용 부서의 관리 목적에 따라 데이터의 개념과 분류 기준, 가공 방법 등이 다르다. 하나의 데이터로 여러 부서의 서로 다른 사용 목적을 모두 충족시키기는 쉽지 않다.
3. 기업이 사용하는 애플리케이션을 외부에 의존하는 경우가 늘어나고 있다.
외부에서 개발된 ERP를 도입하거나 또는 SaaS 형태로 외부의 애플리케이션을 사용하기도 한다. 기업이 사용하는 데이터 정의와 외부 공급자가 개발한 데이터 정의는 서로 맞지 않다.
4. 데이터 규제가 점점 더 다양하게 적용되고 있다.
개인데이터의 경우 데이터사용자는 법규에 정해진 기준에 따라서 데이터를 활용하여야 한다.데이터 규제를 따르지 않으면 기업은 심각한 제재를 받을 수 있다. 기업 내부의 다양한 데이터 사용자들이 데이터 규제를 준수할 수 있도록 가이드하기는 쉽지 않다.
5. 데이터를 사용하기 위해서는 데이터 내용과 함께 데이터 컨텍스트를 알아야 한다.
데이터베이스에 기록된 데이터는 값과 명칭만 있는 경우가 대부분이다. 데이터 컨텍스트를 기록하는 것이 메타데이터이다. 메타데이터가 없으면 데이터의 원래 의미와 다르게 활용할 수 있는 위험이 따른다.
6. 데이터는 사용하려는 부서 및 사용자는 많다.
그리고 (더욱이) 점점 늘어난다. 하지만 기업 내에서 데이터를 관리하는 인원은 충분하게 할당되어 있지 않다. 또한 데이터 자체를 위한 투자도 소극적이다. 데이터 활용은 수익 창출, 비용 절감 등의 성과와 직접 연결된다. 데이터 관리는 활용을 위한 기반을 만드는 것인데, ROI를 중시하는 기업 문화에서는 데이터 투자의 타당성을 인정받기가 쉽지 않다.
그래서 데이터 거버넌스가 필요하다
데이터 거버넌스(data governance)는 기업에서 사용하는 데이터의
가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 말한다.
그리고 그 과정에서 프라이버시, 보안성, 데이터품질, 관리규정 준수를 강조한다.
또는
데이터거버넌스는 데이터의 가치를 보전하고 활용하기 위한 목적으로 수행하는 전사 차원의 경영 체계라고 할 수 있다.
무슨 말인가? 어렵다.
위에서 말한 문제점은 조직 내부에 데이터 사일로(silo)가 다수 존재하기 때문이다.
간단하게 말해 데이터 사일로를 제거하는 것이 데이터거버넌스의 궁극적 목표이다.
특정 부서 또는 사용자만이 이해할 수 있는 데이터는 전사 차원에서는 가치가 없기 때문이다.
데이터거버넌스의 목표는 다음과 같다.
데이터 거버넌스의 목표
1.데이터 규제를 준수하여, 예상되는 컴플라이언스 리스크에 대처한다.
2.고객으로부터 데이터를 안전하게 처리하고 있다는 신뢰를 얻는다.
3.데이터사용자들의 데이터 이해와 신뢰를 높여서, 데이터활용을 확산시킨다.
4.데이터 컨텍스트를 공유함으로써, 데이터 오용을 방지한다.
5.데이터 관리 기준을 정립하고 프로세스를 시스템화하여, 데이터 비용을 절감시킨다.
6.데이터 자산의 훼손 및 유출 등을 방지하여, 디지털자산을 안전하게 보관한다.
7.활용할 수 있는 외부데이터를 확보하고 융합하여, 데이터 경영 기회를 활용한다.
데이터 거버넌스의 특징
1.데이터거버넌스는 데이터 전략, 데이터 정책, 데이터 표준, 데이터 프로세스, 데이터조직의 역할과 책임 등을 포함한다. 데이터 전략은 데이터를 통해서 얻고자 하는 가치를 설명한다.
2.데이터거버넌스의 대상은 조직 전체이다. 어느 특정 부서에 국한되지 않는다. 단위 조직은 전사 데이터 목표를 달성하기 위해서 권한과 책임을 갖는다.
3.데이터거버넌스는 데이터의 가용성, 사용성, 무결성, 안전성 등을 확보하고 증진하는데 목적이 있다.
4.데이터거버넌스는 데이터자산을 효과적으로 관리하기 위한 기술, 소프트웨어, 프로세스, 데이터 인력 등을 대상으로 한다.
[출처] https://www.2e.co.kr/news/articleView.html?idxno=300312 에서 발췌 및 수정
'Data 용어 정리' 카테고리의 다른 글
JDBC란? OBDC란? (0) | 2021.07.27 |
---|---|
마이데이터 표준 API 의 하위 분류 (0) | 2021.02.16 |
NoSQL이란? (0) | 2021.02.10 |
DSP, SSP, Ad Exchange, DMP 란? (0) | 2021.02.10 |
데이터 사이언티스트 vs 데이터 엔지니어 (0) | 2021.01.06 |