[DS] 2. Data Representation and Analysis
Data Representation
Big Data
Big Data Categories (빅데이터 분류)
- Structured data (정형 데이터)
- 일정한 규칙으로 정리된 데이터
- 바로 해석해서 활용 가능
- Semi-structured data (반정형 데이터)
- 고정된 필드에 저장되어 있지는 않지만, 메타데이터와 스키마를 포함함
- Unstructured data (비정형 데이터)
- 고정된 필드나 스키마가 없음
- 소셜 데이터
Data Visualization
데이터 가시화는 중요함
Data types
- Nominal: categorical data, no ordering
- example - Pet: {dog, cat, rabbit, …}
- Operations: $=, \neq$
- Ordinal: categorical data, with ordering
- Example - Rating: {1, 2, 3, 4, 5}
- Operations: $=, \neq, \leq, \geq, >, <$
- Interval: numberical data, zero point가 없음
- Example: Time, Temperature Fahrenheit
- Operation: $=, \neq, \leq, \geq, >, <, +, -$
- Ratio: numberical data, meaningful zero point가 있음
- Example: Age, Temperature Kelvin
- Operation: $=, \neq, \leq, \geq, >, <, +, -, \div$