데이터의 이해
(1) 데이터의 정의
- 다른 객체와의 상호관계 속에서 가치를 가진다.
(2) 데이터의 유형
- 정성적(qualitative) 데이터: 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함
예) 언어, 문자 등 (기상특보)
- 정량적(quantitative) 데이터: 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이
예) 수치, 기호, 도형 등 (풍속, 강우량)
(3) 지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할
- 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 경영
| 구분 | 의미 | 예 |
| 암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 | 김치 담그기 자전거타기 |
| 형식지 | 문서나 매뉴얼처럼 형상화된 지식, 외부로 표출되어 여러 사람이 공유할 수 있는 지식 | 교과서 비디오 DB |
(4) SECI 모델 (Socialization - Externalization - Combination - Internalization Model)
- 암묵지+형식지의 4단계 지식전환 모드
1) 공동화 : 경험을 공유를 통해 새로운 암묵지 창조
- 암묵지 지식 노하우를 다른 사람에게 알려주기)
2) 표출화 : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출
- 암묵적 지식 노하우를 책이나 교본 등 형식지로 만들기
3) 연결화 : 표출된 형식지의 완성도를 높여 지식체계로 전환
- 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하기
4) 내면화 : 표준화와 연결화로 공유된 정신 모델이나 기술적 노하우가 개인의 암묵지로 내면화
- 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득
(5) DIKW 피라미드
| 구분 | 의미 | 예 |
| 데이터 | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실. 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 | A는 100원, B는 200원에 연필을 판매 |
| 정보 | 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것. 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 | A마트의 연필이 더 싸다 |
| 지식 | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과 | 상대적으로 저렴한 A마트에서 연필을 사야겠다 |
| 지혜 | 지식의 축적과 아이디어가 결합된 창의적인 산물. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어 | A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다. |
(6) 데이터(자료) 양의 단위
| B[Bite, 바이트]* | 1B=1Byte | 20B |
| KB[Kilo Byte, 킬로바이트] | 1KB = 1024Byte | 210B |
| MB[Mega Byte, 메가바이트] | 1MB = 1024KB | 220B |
| GB[Gega Byte, 기가바이트] | 1GB = 1024MB | 230B |
| TB[Tera Byte, 테라바이트] | 1TB = 1024GB | 240B |
| PB[Peta Byte, 페타바이트] | 1PB = 1024TB | 250B |
| EB[Exa Byte, 엑사바이트] | 1EB = 1024PB | 260B |
| ZB[Zeta Byte, 제타바이트] | 1ZB = 1024EB | 270B |
| YB[Yotta Byte,요타바이트] | 1YB = 1024ZB | 280B |
데이터베이스 정의와 특징
(1) 데이터베이스의 특징
- 통합된 데이터(integrated data): 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미한다.
- 저장된 데이터(stored data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미한다.
- 공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미한다.
- 변화되는 데이터(changeable data): 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄. 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야 한다는 것을 의미한다.
(2) 데이터베이스의 설계 절차
- 요구사항 분석 > 개념적 설계 > 논리적 설계 > 물리적 설계
(3) 기업 내부 데이터베이스 솔루션
- OLTP (On-Line Transaction Processing) : 온라인 거래 처리
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나이다. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태를 말한다.
- (예) 주문 입력 시스템, 재고 관리 시스템 등
- OLAP (On-Line Analytical Processing) : 온라인 분석 처리
- 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석한다.
- CRM (Customer Relationship Management)
- 기업 내부 데이터베이스를 기반으로 고객과 관련된 내·외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정이다.
- SCM (Supply Chain Management)
- 기업에서 원재료의 생산·유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 "공급망 관리"를 뜻한다.
- ERP (Enterprise Resource Planning)
- 인사·재무·생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다.
- BI (Business Intelligence)
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스를 말한다. 즉, 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술인 것이다.
- 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스
- 가트너는 '여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의했다.
- ad hoc report
- BA (Business Analization)
- 데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
- 사전에 예측하고 최적화하기 위함
- BI 보다 진보된 형태
(4) DBMS의 종류
① 관계형 DBMS
- 컬럼과 로우를 이루는 하나 이상의 테이블로 정리
- 키가 존재
② 객체지향 DBMS
- 정보를 객체 형태로 표현하는 데이터베이스 모델
③ 네트워크 DBMS
- 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델
④ 계층형 DBMS
- 트리 구조를 기반으로 하는 계층 데이터베이스 모델
데이터의 가치와 미래
(1) 빅데이터의 정의
- 4V(ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)
- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면
- Value (가치) : 비즈니스 효과 요소
(2) 빅데이터의 출현배경
- 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
- 클라우드 분산 병렬 처리 컴퓨팅, 대용량 데이터 처리 비용을 줄임(예: 하둡)
(3) 데이터의 가치 측정이 어려운 이유
- 데이터의 재사용이 일반화되면서 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문
- 빅데이터는 기존에 존재하지 않던 가치를 창출하기 때문
- 분석 기술의 발전으로 과거의 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문
(4) 빅데이터에 거는 기대를 잘 표현한 비유
| 산업혁명의 석탄, 철 | 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 |
| 21세기 원유 | 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 |
| 렌즈 | 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것 ex) 구글 'Ngram Viewer' |
| 플랫폼 | 공통 활용의 목적으로 구축된 유/무형의 구조물 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망 ex) kakao , facebook |
(5) 빅데이터가 만들어 내는 본질적인 변화
- 사전처리에서 사후처리
- 표본조사에서 전수조사
- 질보다 양
- 인과관계에서 상관관계
(6) 빅데이터 활용 3요소
| 구분 | 의미 | 예 |
| 데이터 | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실. 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 | A는 100원, B는 200원에 연필을 판매 |
| 정보 | 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것. 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 | A마트의 연필이 더 싸다 |
| 지식 | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과 | 상대적으로 저렴한 A마트에서 연필을 사야겠다 |
| 지혜 | 지식의 축적과 아이디어가 결합된 창의적인 산물. 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어 | A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다. |
(7) 산업별 분석 애플리케이션
| 산업혁명의 석탄, 철 | 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 |
| 21세기 원유 | 경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 |
| 렌즈 | 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것 ex) 구글 'Ngram Viewer' |
| 플랫폼 | 공통 활용의 목적으로 구축된 유/무형의 구조물 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망 ex) kakao , facebook |
(8) 데이터의 유형
| 유형 | 내용 | 예시 |
| 정형 데이터 | - 형태가 있으며 ,연산 가능 , 주로 관계형 데이터베이스에 저장됨 - 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 | 관계형 데이터베이스 , csv , 스프레드 시트, ERP , CRM Transcation data , Demand Forecast |
| 반정형 데이터 | - 형태(스키마, 메타데이터)가 있으며 , 연산이 불가능, 주로 파일로 저장됨 - 보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨 | XML , HTML , JSON, e-mail , report , social media , blogs and news |
| 비정형 데이터 | - 형태가 없으며, 연산이 불가능 , 주로 NoSQL에 저장됨 - 데이터 수집 난이도가 높으며 처리가 어려움 | 소셜데이터, 영상, 이미지 , 음성 , 텍스트(word, pdf ), machine data |
- 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터이다. 데이터에 대한 데이터이다.
- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조. 원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능
(9) 데이터웨어하우스
- 기업내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간
- 재무, 생상, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞춰 구축된다.
- *ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
- 데이터 웨어하우스의 4가지 특징 - 주제지향성, 통합성, 비휘발성, **시계열성.
- 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경이 발생할 수 없다.
*ETL(Extraction, Transformation and Load)
- Extraction: 데이터 원청 소스에서 데이터 획특
- Transformation: 데이터 클렌징, 형식변환, 표준화, 통합
- Load: 특정 목표 시스템에 적재
(10) 빅데이터 활용 기본 테크닉
| 테크닉 | 내용 | 예시 |
| 연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법 | - 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? - 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가? |
| 유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | - 이 사용자는 어떤 특성을 가진 집단에 속하는가? - 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 |
| 유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) | - 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
| 기계학습 | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | - 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
| 회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 ) - 고객 만족도가 충성도에 어떤 영향을 미치는가? |
| 감정분석 (감성분석) | - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 (트위터 형용사 분석) - 주관적 평가를 측정 - 주로 문장이나 단어가 분석의 대상 - 특정 주제에 대한 긍정/부정 의견 분석 | - 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
| 소셜네트워크분석(사회관계망분석) | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 ( SNA 고객들 소셜 관계 파악 ) | - 고객들 간 관계망은 어떻게 구성되어 있나? - 고객의 만족도가 충성도에 어떤 영향을 미치는가? |
(11) 빅데이터 시대의 위기 요인
① 사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다.
- 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다. → 동의에서 책임으로
- 사생활 침해 사례: 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적인 사례 발생 → 익명화 기술 발전이 필요하다.
② 책임 원칙 훼손
- 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다. → 결과 기반 책임 원칙 고수
- 책임 훼손의 사례: 범죄 예측 프로그램을 통해 범죄 전 체포
③ 데이터 오용
- 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. → 알고리즘 접근 허용
- 알고미즈미스트는 데이터오용의 피해를 막아주는 역할을 한다.
데이터 사이언스와 전략 인사이트
(1) 데이터 사이언스의 의미와 역할
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
- 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.
(2) 데이터 사이언티스트의 요구역량
① 하드스킬(Hard Skill)
- 빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적
② 소프트 스킬(Soft Skill)
- 통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달: 스토리텔링, 시각화
- 다분야간 협력: 커뮤니케이션
- 전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 외에 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문학적 요소가 필요하다.
- 가트너(Gartner)가 정의한 데이터 사이언티스트의 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬
(3) 개인정보 비식별화 기법
- 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
- 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
- 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
- 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
'기타 > Etc' 카테고리의 다른 글
| [ADSP] 3과목 요약 정리 (1) | 2024.02.05 |
|---|---|
| [ADSP] 3과목 요약 정리 (0) | 2023.07.24 |
| [ADsP] 주관식 요약(2) (0) | 2023.07.16 |
| [ADsP] 주관식 요약 (0) | 2023.05.11 |
| [ADSP] 2과목 요약 정리 (0) | 2023.02.23 |
댓글