1과목 데이터 이해 1편
1. 데이터 이해
1. 데이터의 이해
1-1. 데이터와 정보
1) 데이터의 정의 : 추론과 추정의 근거를 이루는 사실
① ‘객관적 사실’ 이라는 존재적 특성을 가짐 (fact)
② ‘추론, 예측, 전망, 추정을 위한 근거’로 기능하는 당위적 특성을 가짐 (basis) → 다른 객체와의 상호관계 속에서 가치를 갖는 다는 의미
2)데이터의 유형
① 정성적 데이터 : 자료의 성질과 특징을 자세히 풀어쓰는 방식
② 정량적 데이터 : 자료를 수치화 하는 것
※ 반정형 데이터 : 고정된 틀은 존재하지만 연산이 불가능한 데이터를 의미, 파일단위로 구성되어 전송과 공유가 용이, 정형 데이터로 변환하여 사용 가능 → XML, HTML 파일 등
정량적 데이터 | 정성적 데이터 |
정형 데이터 : 행과 열 구조로 저장된 스프레드시트 형태 | 비정형 데이터 : 형태나 구조가 정해지지 않음 예) 이메일, SNS, 이미지, 동영상, 음성 등 |
통계분석 (수치, 도형, 기호 등) | 요약 (언어, 문자 등) |
예) 나이, 몸무게, 주가 등 | 예) 품질, 성능, 만족도 등 |
객관적 결론 측정 | 주관적 결론 측정 |
3) 지식경영 핵심 이슈 → 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용 역할을 한다.
지식의 2가지 차원 :
① 암묵지 : 학습과 체험을 통해 개인에게 습득되지만 겉으로는 드러나지 않는 상태의 지식
② 형식지 : 암묵지가 문서나 메뉴얼처럼 외부로 표출되어서, 여러 사람이 공유할 수 있는 지식
- 암묵지와 형식지의 상호작용
- 공통화(socialization) : 암묵지 지식 노하우를 다른 사람에게 알려줌
- 표출화(externalization) : 암묵지 지식 노하우를 책, 교본 형식으로 전환함
- 연결화(combination) : 책, 교본에 자신이 알고 있는 새로운 지식을 추가함
- 내면화(internalization) : 만들어진 책, 교본을 보고 다른 이의 암묵적 지식을 습득함
⁂ 개인의 암묵지와 집단의 형식지가 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 경영을 지식경영이라 한다.
4)데이터와 정보의 관계
① DIKW 피라미드 : 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명
- 데이터 : 개별 데이터 자체로는 의미가 중요하지 않는 객관적 사실을 말하며, 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
- 정보 : 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여
- 지식 : 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
- 지혜 : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어
1-2. 데이터베이스 정의와 특징
1) 데이터베이스 정의
데이터베이스 (DB) | 데이터베이스 관리시스템 (DBMS) |
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 일정한 구조에 따라 편성된 데이터의 집합 | 이용자가 쉽게 DB를 구축하고 유지할 수 있도록 하는 소프트웨어 |
2) 데이터베이스 특징
통합된 데이터 (integrated data) | DB에서 동일한 내용의 데이터가 중복 되어 있지 않다는 것을 의미 |
저장된 데이터 (stored data) | 디스크 등 컴퓨터가 접근 할수 있는 저장매체에 저장되는 것을 의미 |
공용 데이터 (shared data) | 여러 사용자가 서로 다른 목적으로 DB의 데이터를 공동 이용한다 |
변화되는 데이터 (changed data) | 새로운 데이터의 추가, 기존 데이터의 삭제/갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미 |
3) 데이터베이스 특성
정보의 축적 및 전달 측면 정보를 읽고 쓸수 있는 기계가독성, 검색가능성, 원격조작성
정보이용 측면 | 이용자의 정보 요구에 따라 신속하고 경제적으로 찾아낼 수 있음 |
정보관리 측면 | 방대한 양을 체계적으로 축적하고 새로운 내용 추가나 갱신이 쉽다 |
정보기술발전 측면 | 정보처리, 검색 등 네트워크 발전 기술을 견인할 수 있다 |
경제/산업적 측면 | 인프라로서 특성을 가지므로 편의를 증진하는 수단 |
4) 데이터베이스 관리시스템의 발전과정
① 1세대 : 네트워크 DBMS, 계층 DBMS → 복잡하고 변경이 어려움
② 2세대 : 관계(Relation) DBMS → 데이터베이스를 테이블 형태로 구성
예) 오라클, 액세스, MySQL, Maria DB
③ 3세대 :
객체지향모델 (ODBMS) | 객체관계형모델(ORDBMS) | 관계형모델(RDBMS) |
복합 정보 타입 지원, 복잡한 구조의 모델링 가능, 기본적인 DB관리 기능에 있어서 안정성 및 성능의 검증이 미지 | 기존 관계형 모델에 객체 지향형 모델의 장점을 선별하여 관계형 모델에 통합한 새로운 개념 | 문자, 숫자, 날짜의 단순한 정보타입만 지원, 오랜기간 걸쳐 검증된 안정성과 대규모 정보처리 성능, 제한된 형태의 정보만 처리 가능 |
④ 4세대 :
- NoSQL DBMS : 데이터 구조를 미리 정해두지 않기 떄문에 비정형 데이터를 저장하고 처리함. 유연성과 확장성을 비롯해 고성능의 DB를 필요로 하는 모바일, 웹, 게이밍과 같은 현대적인 애플리케이션에 적합함. 반정형 또는 비정형 데이터에서 분석을 위해 설계
5) 데이터베이스 설계 절차
① 요구조건 분석 / 명세서 작성 : DB 사용자, 사용목적/범위, 제약조건 등의 내용을 정리하고 명세서를 작성
② 개념 설계 (E-R모델) : 정보를 추상적 개념으로 표현하는 과정으로 개념 스키마 모델링과 트랜잭션 모델링을 병행하고, 요구조건 분석을 통해 DBMS 독립적인 E-R 다이어그램을 작성
③ 논리적 설계 (데이터 모델링) : 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS의 논리적 자료 구조로 변환하는 과정. 관계형 DB라면 테이블을 설계하는 단계
④ 물리적 설계 (데이터 구조화) : 논리적 구조로 표현된 데이터를 디스크 등 물리적 저장 장치에 저장할 수 있는 구조의 데이터로 변환하는 과정. DB 파일의 저장 구조 및 액세스 경로를 결정
6) 데이터웨어하우스 DW
① DW 정의 : DB 시스템에서 사용자들이 필요로 하는 정보를 추출해서 가공된 데이터 형태. DB 관련자들이 업무처리를 위해 저장한 데이터들을 어떻게 하면 유용하고 효율적으로 활용할 것인가에 대한 관점에서 시작한 개념
② DW 특징:
- 주체지향성 : DW는 의사결정에 필요한 주제와 관련된 데이터만 유지함
- 통합성 : 데이터가 항상 일괄된 상태를 유지하도록 여러 데이터베이스에서 추출한 데이터를 통합하여 저장함
- 시계열성 : 과거와 현재의 데이터를 동시에 유지하여 데이터간의 시간적 관계나 동향을 분석해 의사결정에 반영할 수 있도록 하고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미함
- 비휘발성 : 데이터베이스에 저장된 제이터는 삽입, 삭제, 수정 작업이 자주 발생하지만 데이터웨어하우스는 검색작업만 수행되는 읽기 전용의 데이터를 유지함
③데이터베이스, DW, 데이터마트 비교
DB (정보의 집합체) | DW (전사 개념) |
OLTP 데이터를 저장하는 자료 저장소 | OLAP 데이터를 저장하는 자료 저장소 |
DM (특정 사업/부서 개념) | 의사 결정을 지원할 수 있는 분석 정보를 제공 |
데이터웨어하우스에 있는 일부 데이터를 가지고 특정 사용자를 대상으로 제공함 | 기업이나 조직에서 여러 소스로부터 수집된 데이터를 중앙집중화하고 통합하여 저장하는 데이터 저장소 |
④ 데이터베이스 언어 SQL
- SQL(Structure Query Language) : 관계 데이터베이스를 위한 표준 질의어로 많이 사용하는 언어로서, 기능에 따라 데이터 정의어, 데이터 조작어, 데이터 제어어로 나눈다.데이터 정의어 (DDL) 테이블을 생성, 변경, 제거하는 기능 제공
데이터 조작어 (DML) 데이터를 검색, 삽입, 수정, 삭제하는 기능 제공 데이터 제어어 (DCL) 보안을 위해 데이터에 대한 접근, 사용권한을 사용자별로 부여하거나 취소하는 기능 제공
1-3. 데이터베이스 활용
1) 기업내부 데이터베이스
구분 | 주요 특징 |
1980년대 | ① OLTP 온라인 거래처리 : 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 즉석에서 사용자에게 되돌려 보내 주는 처리 형태. 여러 과정이 하나의 단위 프로세스로 실행 ② OLAP 온라인 분석처리 : 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술 |
2000년대 | ① CRM : 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 가능케 하여 높은 이익을 창출할 수 있는 솔루션 ② SCM : 제조, 물류, 유통업체 등 유통공급망에 참여하는 모든 업체가 협력을 바탕으로 정보기술을 활용해 재고를 최적화하기 위한 솔루션 |
2) 분야별 기업 내부 데이터베이스
분야 | 주요 솔루션 |
제조 | ① DW : 정보검색을 목적으로 구축된 데이터베이스. 전사규모의 시스템인 반면, 데이터마트는 사업부 단위의 소규모 DW라고 할 수 있음 ② ERP(Enterprise Resource Planning) : 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 등의 프로세스 관리를 돕는 여러 모듈로 구성된 통합 소프트웨어 패키지 ③ BI(Business Intelligence) : 기업 DW에 저장된 데이터에 접근해 경영의사결정에 필요한 정보를 획득하고, 이를 경영활동에 활용하는 리포트 중심의 도구 ※ BA(Business Analytics) : 의사결정을 위한 통계적이고 수학적인 분석에 초점 ④ CRM(Customer Relationship Management) : 선별된 고객으로부터 수익을 창출하고 장기적 관계를 통해 높은 이익을 창출하는 솔루션 |
금융 | ① EAI(Enterprise Architecture Integration) 기업 애플리케이션 통합을 의미함. ERP, CRM, SCM, 인트라넷 등의 시스템 간 상호 연동이 가능하도록 통합하는 솔루션 ② EDW(Enterprise Data Warehouse) : 기존 DW를 전사적으로 확장한 모델인 동시에 BPR, CRM, BSC 같은 분석 애플리케이션을 위한 원천이 됨. 기업 리소스의 유기적 통합, 다원화된 관리 체계정비, 데이터의 중복방지 등을 위해 시스템을 재설계하는 것 ③ 블록체인 : 데이터분산처리기술로, 네트워크에 참여하는 모든 사용자가 모든 거래 내역 등의 데이터를 분산, 저장하는 기술을 말함. ④ 이외에도 ERP, e-CRM 등 이용 |
유통 | ① KMS(Knowledge Management System) : 지식관리시스템으로, 조직 내의 지식을 체계적으로 관리하는 시스템. 지식을 저장하고 검색하여 이해, 협업, 프로세스 정렬을 향상시키는 모든 종류의 IT 시스템 ② RFID : 무선 주파수(RF: Radio Frequency)를 이용해 대상(물건, 사람 등)을 식별할 수 있는 기술로, 안테나와 칩으로 구성된 RF태그를 RFID 리더를 통해 정보를 인식함 ③ 이외에도 CRM, SCM 등 이용 |
3) 사회기반 구조로서의 데이터베이스
① 1990년대 정부 부처를 중심으로 전자문서교환(EDI)의 활용이 본격화 되었고, 부가가치통신망(VAN)을 통한 정보망이 구축되기 시작함
② EDI(Electronic Data Interchange) : 표준화된 상거래 서식 또는 공공 서식을 서로 합의된 표준에 따라 전자문서를 만들어 컴퓨터 및 통신을 매개로 상호 교환하는 것
③ CALS : 광속상거래(Commerce At Lighted Speed). 각종 기술 자료를 디지털화해 관련 데이터를 통합 운영하는 업무 환경을 의미
4) 분야별 사회기반 구조로서의 데이터베이스
분야 | 주요 솔루션 |
물류 | ① 종합물류정보망 : ‘실시간 차량추적’으로 전자지도상에서 운행 중인 차량의 위치 및 상태를 실시간으로 파악 ② 부가가치통신망(Value Added Network) : 네트워크에 단순한 전송 기능 이상의 부가가치를 첨가하여 정보를 축적, 가공, 변환 처리하여 음성 또는 데이터 정보를 제공하는 광범위하고도 복합적인 통신서비스의 집합 |
지리 | 국가지리정보체계(NGIS), RS, GPS |
교통 | 지능형교통시스템(ITS) |
의료 | 의료 EDI |
교육 | 교육행정정보시스템(NEIS) |