data type
结构化数据(structured data)
有预定义的数据模型(有固定、严格的schema),可以使用关系型数据库表示和存储,表现为二维形式的数据。
易于分析,检索
占比少,约15%
比如:
- 数据库中数据
半结构化数据(semi-structured data)
没有固定的schema,数据和schema之间没有严格的分隔,
有自描述结构(tag or marker),有层次
有metadata
比如:
- Email(有metadata)
- 日志
- CSV
- JSON
- XML
- HTML
- NoSQL databases
- EDI (electronic data interchange): 电子单据信息
- RDF(Resource Description Framework) 资源描述框架
非结构化数据(unstructured data)
没有固定结构的数据
比如:
- 文本
- Email内容
- 媒体信息:图像、音频、视频
- website data
- 传感器数据