본문 바로가기
기타/Etc

[ADSP] 1과목 요약 정리

by Nataliaa 2023. 2. 23.

데이터의 이해 

(1) 데이터의 정의
- 다른 객체와의 상호관계 속에서 가치를 가진다.
 
(2) 데이터의 유형
 - 정성적(qualitative) 데이터: 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함
    예) 언어, 문자 등 (기상특보)
 - 정량적(quantitative) 데이터: 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이
    예) 수치, 기호, 도형 등 (풍속, 강우량)
 
(3) 지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할
- 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 경영

구분의미
암묵지학습과 경험을 통해
개인에게 체화되어 있지만
겉으로 드러나지 않는 지식
김치 담그기
자전거타기
형식지문서나 매뉴얼처럼
형상화된 지식,
외부로 표출되어 여러 사람이 공유할 수 있는 지식
교과서
비디오
DB

 
(4) SECI 모델 (Socialization - Externalization - Combination - Internalization Model) 
 - 암묵지+형식지의 4단계 지식전환 모드
1) 공동화 : 경험을 공유를 통해 새로운 암묵지 창조 
 - 암묵지 지식 노하우를 다른 사람에게 알려주기)
2) 표출화 : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출
 - 암묵적 지식 노하우를 책이나 교본 등 형식지로 만들기
3) 연결화 : 표출된 형식지의 완성도를 높여 지식체계로 전환
 - 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하기
4) 내면화 : 표준화와 연결화로 공유된 정신 모델이나 기술적 노하우가 개인의 암묵지로 내면화
 - 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득
 
(5) DIKW 피라미드

구분의미
데이터개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실.
존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
A는 100원,
B는 200원에
연필을 판매
정보데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가
도출된 것.
데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고
그 의미를 부여한 데이터
A마트의
연필이 더 싸다
지식데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것.
상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과
상대적으로
저렴한 A마트에서 연필을 사야겠다
지혜지식의 축적과 아이디어가 결합된 창의적인 산물.
근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어
A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다.

 
(6) 데이터(자료) 양의 단위

B[Bite, 바이트]*1B=1Byte20B
KB[Kilo Byte, 킬로바이트]1KB = 1024Byte210B
MB[Mega Byte, 메가바이트]1MB = 1024KB220B
GB[Gega Byte, 기가바이트]1GB = 1024MB230B
TB[Tera Byte, 테라바이트]1TB = 1024GB240B
PB[Peta Byte, 페타바이트]1PB = 1024TB250B
EB[Exa Byte, 엑사바이트]1EB = 1024PB260B
ZB[Zeta Byte, 제타바이트]1ZB = 1024EB270B
YB[Yotta Byte,요타바이트]1YB = 1024ZB280B

 

데이터베이스 정의와 특징

(1) 데이터베이스의 특징
- 통합된 데이터(integrated data): 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미한다.
- 저장된 데이터(stored data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미한다.
- 공용 데이터(shared data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미한다. 
- 변화되는 데이터(changeable data): 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄. 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야 한다는 것을 의미한다.
 
(2) 데이터베이스의 설계 절차
 - 요구사항 분석 > 개념적 설계 > 논리적 설계 > 물리적 설계
 
(3) 기업 내부 데이터베이스 솔루션 
- OLTP (On-Line Transaction Processing) : 온라인 거래 처리 
 - 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나이다. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태를 말한다.
 - (예) 주문 입력 시스템, 재고 관리 시스템 등
 
- OLAP (On-Line Analytical Processing) : 온라인 분석 처리
 - 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석한다.
 
- CRM (Customer Relationship Management) 
 - 기업 내부 데이터베이스를 기반으로 고객과 관련된 내·외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정이다.
 
- SCM (Supply Chain Management) 
 - 기업에서 원재료의 생산·유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 "공급망 관리"를 뜻한다. 
 
- ERP (Enterprise Resource Planning) 
 - 인사·재무·생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다. 
 
- BI (Business Intelligence) 
 - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구 
 - 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스를 말한다. 즉, 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술인 것이다.
 - 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스 
- 가트너는 '여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의했다.
- ad hoc report
 
- BA (Business Analization) 
 - 데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
 - 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법 
 - 사전에 예측하고 최적화하기 위함
 - BI 보다 진보된 형태
 
(4) DBMS의 종류
관계형 DBMS
  - 컬럼과 로우를 이루는 하나 이상의 테이블로 정리
  - 키가 존재
② 객체지향 DBMS
  - 정보를 객체 형태로 표현하는 데이터베이스 모델
③ 네트워크 DBMS
  - 레코드=노드, 관계=간선, 으로 표현되는 그래프 기반 데이터베이스 모델
④ 계층형 DBMS
  - 트리 구조를 기반으로 하는 계층 데이터베이스 모델
 
 

데이터의 가치와 미래

(1) 빅데이터의 정의
- 4V(ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)
- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면
- Value (가치) : 비즈니스 효과 요소
 
(2) 빅데이터의 출현배경 
 - 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
- 클라우드 분산 병렬 처리 컴퓨팅, 대용량 데이터 처리 비용을 줄임(예: 하둡)
 
(3) 데이터의 가치 측정이 어려운 이유
 - 데이터의 재사용이 일반화되면서 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문
 - 빅데이터는 기존에 존재하지 않던 가치를 창출하기 때문
 - 분석 기술의 발전으로 과거의 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문
 
(4) 빅데이터에 거는 기대를 잘 표현한 비유

산업혁명의 석탄, 철제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려
사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대
21세기 원유경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고
기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망
렌즈렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
ex) 구글 'Ngram Viewer'
플랫폼공통 활용의 목적으로 구축된 유/무형의 구조물
다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망
 ex) kakao , facebook

 
(5) 빅데이터가 만들어 내는 본질적인 변화 
 - 사전처리에서 사후처리
 - 표본조사에서 전수조사
 - 질보다 양
 - 인과관계에서 상관관계
 
(6) 빅데이터 활용 3요소

구분의미
데이터개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실.
존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
A는 100원,
B는 200원에
연필을 판매
정보데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가
도출된 것.
데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고
그 의미를 부여한 데이터
A마트의
연필이 더 싸다
지식데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것.
상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과
상대적으로
저렴한 A마트에서 연필을 사야겠다
지혜지식의 축적과 아이디어가 결합된 창의적인 산물.
근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어
A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다.

 
(7) 산업별 분석 애플리케이션

산업혁명의 석탄, 철제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려
사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대
21세기 원유경제 성장에 필요한 정보를 제공함으로써 생산성을 한 단계 향상시키고
기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망
렌즈렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
ex) 구글 'Ngram Viewer'
플랫폼공통 활용의 목적으로 구축된 유/무형의 구조물
다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망
 ex) kakao , facebook

 
(8) 데이터의 유형 

유형내용예시
정형 데이터- 형태가 있으며 ,연산 가능 , 주로 관계형 데이터베이스에 저장됨
- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움
관계형 데이터베이스 , csv , 스프레드 시트, ERP , CRM Transcation data , Demand Forecast
반정형 데이터- 형태(스키마, 메타데이터)가 있으며 , 연산이 불가능, 주로 파일로 저장됨
- 보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨
XML , HTML , JSON, e-mail , report , social media , blogs and news
비정형 데이터- 형태가 없으며, 연산이 불가능 , 주로 NoSQL에 저장됨
- 데이터 수집 난이도가 높으며 처리가 어려움
소셜데이터, 영상, 이미지 , 음성 , 텍스트(word, pdf ), machine data

 - 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터이다. 데이터에 대한 데이터이다. 
 - 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조. 원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능 
 
(9) 데이터웨어하우스 
 - 기업내의 의사결정지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간
 -  재무, 생상, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞춰 구축된다.
 - *ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
 - 데이터 웨어하우스의 4가지 특징 - 주제지향성, 통합성, 비휘발성, **시계열성.
 - 데이터웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경이 발생할 수 없다.
 
*ETL(Extraction, Transformation and Load) 
 - Extraction: 데이터 원청 소스에서 데이터 획특
 - Transformation: 데이터 클렌징, 형식변환, 표준화, 통합
 - Load: 특정 목표 시스템에 적재
 
 
(10) 빅데이터 활용 기본 테크닉 

테크닉내용예시
연관규칙학습변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가?
유형분석문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용- 이 사용자는 어떤 특성을 가진 집단에 속하는가?
- 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 )- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
회귀분석독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 )
- 고객 만족도가 충성도에 어떤 영향을 미치는가?
감정분석 (감성분석) - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 (트위터 형용사 분석)
- 주관적 평가를 측정
- 주로 문장이나 단어가 분석의 대상
- 특정 주제에 대한 긍정/부정 의견 분석
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석(사회관계망분석)특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
( SNA 고객들 소셜 관계 파악 )
- 고객들 간 관계망은 어떻게 구성되어 있나?
- 고객의 만족도가 충성도에 어떤 영향을 미치는가?

 
(11) 빅데이터 시대의 위기 요인
① 사생활 침해 
 - 개인정보가 포함된 데이터를 목적 외에 활용할 경우사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다.
 - 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다. → 동의에서 책임으로
 - 사생활 침해 사례: 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적인 사례 발생 → 익명화 기술 발전이 필요하다.

 
② 책임 원칙 훼손 
 - 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다. → 결과 기반 책임 원칙 고수
 - 책임 훼손의 사례: 범죄 예측 프로그램을 통해 범죄 전 체포
 
③ 데이터 오용 
- 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. → 알고리즘 접근 허용
- 알고미즈미스트는 데이터오용의 피해를 막아주는 역할을 한다.
 
 

데이터 사이언스와 전략 인사이트

(1) 데이터 사이언스의 의미와 역할
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
- 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.
 
(2) 데이터 사이언티스트의 요구역량
  하드스킬(Hard Skill)
 - 빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
 - 분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적
 
 소프트 스킬(Soft Skill)
 - 통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
 - 설득력 있는 전달: 스토리텔링, 시각화
 - 다분야간 협력: 커뮤니케이션
 - 전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 외에 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문학적 요소가 필요하다.
- 가트너(Gartner)가 정의한 데이터 사이언티스트의 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬 
 
(3) 개인정보 비식별화 기법  
  - 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
  - 가명처리 : 다른 값으로 대체 (홍국, 항곡대학)
  - 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
  - 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
  - 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
 

'기타 > Etc' 카테고리의 다른 글

[ADSP] 3과목 요약 정리  (1) 2024.02.05
[ADSP] 3과목 요약 정리  (0) 2023.07.24
[ADsP] 주관식 요약(2)  (0) 2023.07.16
[ADsP] 주관식 요약  (0) 2023.05.11
[ADSP] 2과목 요약 정리  (0) 2023.02.23

댓글