01. 데이터베이스 기본 개념
1.1. 데이터베이스의 필요성
1.1.1. 데이터와 정보
-
데이터
관찰 혹은 측정을 통해 수집한 사실이나 값 -
정보
데이터를 의사결정에 유용하게 활용할 수 있도록 체계적으로 조직한 결과물 -
정보처리
데이터에서 정보를 추출하는 과정
1.1.2. 정보 시스템과 데이터베이스
-
정보시스템
조직 운영에 필요한 데이터를 수집하여 저장해두었다가 의사 결정 시 유용한 정보를 만들어 주는 수단사용 목적에 따라 다양한 이름이 있다
- 경영정보 시스템(MIS: Management Information System)
- 의사 결정 지원 시스템(DSS: Decision Support System)
-
데이터베이스 정보시스템 안에서 데이터를 저장해두었다가 제공하는 핵심적인 역할을 담당한다.
1.2. 데이터베이스의 정의와 특징
1.2.1. 데이터베이스의 정의
여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장한 운영데이터의 집합
- 공유 데이터
여러 사용자가 함께 소유하교 이용하는 공용 데이터로써, 사용 목적이 다른 사용자들을 두루 고려하여 데이터베이스를 구성해야한다. - 통합 데이터
의도하지 않은 데이터의 중복을 최소화한다. - 저장 데이터
컴퓨터가 접근할 수 있는 매체에 데이터를 저장한다. - 운영 데이터
조직을 운영하기 위해 지속적으로 유지해야 하는 데이터이다.
1.2.2. 데이터베이스의 특징
- 실시간 접근이 가능하다
- 사용자의 데이터 요구에 실시간으로 응답할 수 있다.
- 계속 변화한다
- 삽입, 수정, 삭제를 통해 데이터를 업데이트한다.
- 동시 공유가 가능하다
- 여러 사용자가 동시에 같은 데이터를 사용할 수 있다.
- 내용으로 참조가 가능하다
- 데이터가 저장된 주소나 위치가 몰라도 내용으로 참조할 수 있다.
1.3. 데이터 과학 시대의 데이터
데이터를 수집하기 위해서는 먼저 수집할 데이터의 유형을 파악한 뒤, 유형별로 적합한 저장 및 처리 기술을 선택해야 한다. 예를들어 고객 수와 같은 수치형 데이터는 평균 연산을 적용할 수 있지만, 회원등급과 같은 범주형 데이터는 다른 분석방법을 적용해야 한다.
1.3.1. 형태에 따른 데이터 분류
- 정형 데이터
미리 정해진 구조(스키마)에 따라 저장된 데이터
Ex) 엑셀의 스프레트 시트, RDB의 테이블 - 반정형 데이터
구조에 따라 저장되었지만, 저장된 내용에 구조에 대한 설명이 함께 존재
Ex) JSON - HTML - 비정형 데이터
정해진 구조가 없는 데이터
Ex) 멀티미디어 데이터
1.3.2. 특성에 따른 데이터 분류
- 범주형 데이터(질적 데이터)
크기 비교와 산술연산이 불가능한 값을 가진 데이터- 명목형 데이터
데이터 항목간에 서열이 없는 데이터
Ex) MBTI, 혈액형 - 순서형 데이터
데이터 항목간에 서열이 있는 데이터
Ex) 학년, 학점, 회원등급
- 명목형 데이터
- 수치형 데이터(양적 데이터)
크기 비교와 산술연산이 불가능한 값을 가진 데이터- 이산형 데이터
단절된 숫자값을 가지는 데이터
Ex) 고객 수, 판매량 - 연속형 데이터
연속된 숫자값을 가지는 데이터
Ex) 키, 몸무게, 온도
- 이산형 데이터
다음 포스트