开源图数据库 Titan 项目已经停止更新,JanusGraph 可以说复活了 Titan 项目,到目前为止,JanusGraph 与 Titan 在核心机制上相差不大。JanusGraph/Titan 有如下关键设计: 支持大规模图数据存储,Titan 图数据库是建立在分布式集群上,数据存储容量和集群节点数量成正比 支持弹性和线性扩展,高可用,高容错 支持 Gremlin 图查询语言 支持利用 … [ 小百科 ]

开源图数据库 Titan 项目已经停止更新,JanusGraph 可以说复活了 Titan 项目,到目前为止,JanusGraph 与 Titan 在核心机制上相差不大。JanusGraph/Titan 有如下关键设计:

  1. 支持大规模图数据存储,Titan 图数据库是建立在分布式集群上,数据存储容量和集群节点数量成正比
  2. 支持弹性和线性扩展,高可用,高容错
  3. 支持 Gremlin 图查询语言
  4. 支持利用 Hadoop 计算框架对图数据进行分析
  5. 支持外部索引:ElasticSearch、Solr、Lucene
  6. 支持多储存引擎:Cassandra、HBase、Berkeley DB 和 InMemory 模式
  7. 基于 Apache License 2.0

同大多数图数据库一样,JanusGraph 采用属性图进行建模。基于属性图的模型,JanusGraph 有如下基本概念:

Vertex Label:节点的类型,用于表示现实世界中的实体类型,比如"人”,“车”。在 JanusGraph 中,每一个节点有且只有一个 Vertex Label。当不显式指定 Vertex Label 时,采用默认的 Vertex Label。

Vertex:节点/顶点,用于表示现实世界中的实体对象。

Edge Label:边的类型,用于表示现实世界中的关系类型,比如“通话关系”,“转账关系”,“微博关注关系”等。

Edge: 边,用于表示一个个具体的联系。JanusGraph的边都是单向边。如果需要双向边,则通过两条相反方向的单向边组成。JanusGraph 不存在无向边。

Property Key:属性的类型,比如“姓名”,“年龄”,“时间”等。Property Key 有 Cardinality 的概念。Cardinality 有 SINGLE、LIST 和 SET 三种选项。这三种选项分别用于表示一个 Property 中,对于同一个 Property Key 是只允许有一个值、允许多个可重复的值,还是多个不可重复的值。

Property:属性,用于表示一个个具体的附加信息,采用 Key-Value 结构。Key 就是 Property Key,Value 就是具体的值。

属性图举例

张三与李四是同事关系,他们从 2017 年开始成为同事,用属性图表达:

图切割

作为一种分布式图数据库,JanusGraph 需要将数据切分存储到多台机器上。

典型的图切割方法有两种: 一种是按点切割,另一种是按边切割。

按点切割(Vertex-Cut)

按 Vertex 切割时,切割线通过图的 Vertex,而不是 Edge。每一条 Edge 边只保存一次,并且每一条 Edge 只出现在一台机器上,邻居多的 Vertex 会被分发到不同的机器上。

按边切割(Edge-Cut)

按 Edge 切割时,切割线只穿过连接 vertex 的 edge,此时,每一个 vertex 只保存一次。切断的 Edge 会保存到多台机器上。

JanusGraph 采用的分片方式是按 Edge 切割,而且是对于每一条边,都会被切断。切断后,该边会在起始 Vertex 上和目的 Vertex 上各存储一次。通过这种方式,JanusGraph 不管是通过起始 Vertex,还是从目的 Vertex,都能快速找到对端 Vertex。

Property 存储格式

一个 Property Key 所关联的属性值有可能有一个,也有可能有多个,因此,JanusGraph 使用 Cardinality 来描述 Property Key 的这种特点。有,和三种类型:

  • SINGLE 表示一个 Property Key 只对应一个 Value,这是最常用的场景。
  • LIST 表示一个 Property Key 可以对应多个 Value,多个 Value 可以有重复值。
  • SET 表示一个 Property Key 可以对应多个 Value,多个 Value 不可以有重复值。

JanusGraph 的 Property,在不同的 Cardinality 下,数据存储结构略有不同。整体原则是:根据 Cardinality 的不同,列名本身能够确定唯一的一个属性。

Cardinality为SINGLE时的存储结构

HBase的列名只存储Property Key的ID及方向。具体的Property Value值以及Property ID(JanusGraph为每一个Property分配的唯一ID),都存放在Cell的Value中。另外,如果该Property还有额外的Remaining properties,也会放在Value中。Remaining properties一般不使用,仅在一些特殊场景下,用于为该Property记录更多的附加信息(比如存储元数据Edge Labe的定义等)。

PropertyKeyID及方向整个结构的详细结构在后文中描述;占用一个或多个字段,具体格式在后文描述;及采用相同的格式,具体格式在后文描述。

Candinality为LIST时的存储结构

各个部分与Cardinality为SINGLE时的结构相似,区别在于属性的ID被放在了列名中,而不是放在Value中。

Candinality为SET存储结构

各个部分与Cardinality为SINGLE时的结构相似,区别在于属性的值被放在了列名中,而不是放在Value中。

属性的Property Key ID和方向存储结构

每一个Property Key本身也有一个唯一的ID。为标识各个属性是属于哪一种Property Key,JanusGraph记录了各个属性对应的Property Key的ID。JanusGraph在存储时,会将Property Key ID以及DirectionID(分系统类型/隐藏/常规不隐藏三种属性)组装在一起,使用多个字节来表示。

属性的ID和属性值存储结构

属性的值根据Property Key中定义的数据类型不同,有不同的序列化器。比如,String有StringSerializer, integer有IntegerSerializer. 其中IntegerSerializer与属性ID的格式化方式相同。

属性的ID作为一种无符号整数,JanusGraph将其格式化为多个字节。每一个字节的最高位比特用于表示是最后一个字节。表示不是最后一个字节,表示是最后一个字节。

边存储格式

JanusGraph的Edge Label也有一个概念。有等不同的取值,其中以取值最为常用。

MULTIPLICITY为MULTI时的存储结构

边的存储格式与属性类似,Property Key和Edge Label被抽象成了Relation Type,并采用相同的数据结构。SortKey是一种特殊的属性,JanusGraph允许在定义Edge Label时指定其中的一个或多个属性为Sort Key。对于边的Sort Key属性,JanusGraph在存储时会将其存储在Relation Type ID的后面,其他所有字段的前面。通过这种方式,可以保证一个节点的多条同一个类型的边,会按Sort Key属性排序存储。这对于一个节点有大量边时,对查询性能提升有帮助。

MULTIPLICITY非MULTI且此方向存在多条边时的存储结构

MULTIPLICITY非MULTI且此方向仅有一条边时的存储结构