structured-semi-unstructured data

 Sun 12 July 2020   In 编程   :)

data type

结构化数据(structured data)

有预定义的数据模型(有固定、严格的schema),可以使用关系型数据库表示和存储,表现为二维形式的数据。
易于分析,检索
占比少,约15%

比如:

  • 数据库中数据

半结构化数据(semi-structured data)

没有固定的schema,数据和schema之间没有严格的分隔
有自描述结构(tag or marker),有层次
metadata

比如:

  • Email(有metadata)
  • 日志
  • CSV
  • JSON
  • XML
  • HTML
  • NoSQL databases
  • EDI (electronic data interchange): 电子单据信息
  • RDF(Resource Description Framework) 资源描述框架

非结构化数据(unstructured data)

没有固定结构的数据

比如:

  • 文本
  • Email内容
  • 媒体信息:图像、音频、视频
  • website data
  • 传感器数据

reference

structured-vs-unstructured data

semi-structured data