阅读: 2023/5/22 9:35:33
基于时空知识图谱的地籍数据质检与更新方法研究
陈栾杰1,2, 李玮超1, 彭玲1,2, 陈嘉辉1,2, 高翔3
1.中国科学院空天信息创新研究院,北京 100094
2.中国科学院大学资源与环境学院,北京 100049
3.长沙市天心阁大数据研究院,长沙 410000
摘要:
准确、高效地开展地籍数据质量检测与地籍数据库更新对自然资源监管至关重要。针对当下地籍数据管理质检更新效率低、动态监管需求难以满足、方法适用范围小等问题,基于时空知识图谱提出了一种地籍数据质检与更新方法框架,以地籍数据和遥感影像作为数据源,通过设计时空知识图谱概念层、数据层与推理规则,构建了针对地籍数据质检与更新工作流程的时空知识图谱。最后使用长沙市7块宗地进行实验,解决了质检与更新过程中的常见错误,并证明了相比一般方法本方法在效率上的优势。
0 引言
土地资源作为一种宝贵自然资源,是构成陆地生态系统的必要条件。对土地资源进行高效管理可以辅助规划更合理的资源分配方案,维持生态平衡及可持续发展[1-2]。随着数据获取能力的不断增加和测绘数字化体系的逐渐完备,地籍数据作为一种高质量基础数据,在土地资源管理中作用越来越大。地籍数据包含了对宗地的几何形态的描述,同时也包含对宗地的性质、所有权和控制权等属性信息[3-4],其价值体现在它可以帮助保障土地的使用权[5]、辅助完善土地税收政策[6]、为土地信息系统提供数据支持[3]等方面。
为了更好地发挥地籍数据在土地管理中的重要作用,需要对地籍数据进行汇总与管理。传统的地籍数据管理方法需要人力介入[7],这种管理效果受到人为因素限制并需要耗费较多人力和时间成本。许多研究开始关注如何在减少成本的同时,更好地保障地籍数据质量进而提高地籍数据的更新效率,即研究高效自动化的地籍数据质检更新方法。例如,文献[8]以基础地理信息数据和专题资料数据作为经验数据,通过使用所设计的自动化质检软件来提高质检更新效率; 文献[7]通过分析测绘地理信息数据质检过程中的资料来源,提出建立质检数据库来提高质检更新效率。
另一方面,建立高效的地籍数据质检与更新框架也是地籍数据管理领域的研究热点,其中主流的方法是使用以ArcGIS为代表的地理信息系统[9]和基于关系型数据库的地籍信息系统[10]作为质检更新的参照系统,地籍数据通过参照系统检验无误后在真实地籍数据库中进行更新,从而提高入库数据的准确性。然而,以ArcGIS为代表的地理信息系统存在无法同时加载大规模地籍数据、质检过程运算效率低的问题,而传统的地籍信息系统通常展示地籍数据某一时刻的空间分布情况,不容易满足地籍动态监管的需求。因此,一些研究尝试构建融入时间信息的地籍信息系统。例如文献[11]在地籍数据的属性数据表中加上时间标识和事件标识,以记录土地的合并、分割等变更情况; 文献[12]根据地籍对象的变更过程,建立了地籍时空数据更新模型。但是,由于关系型数据库在建模过程中对数据结构限制十分严格,无法直观表示时空信息,同时当数据的时空信息变更时会对地籍信息系统产生额外的运行开销,存在地籍数据质检更新效率低或适用范围小的问题。此外,由于所用技术的性能限制,在地籍数据管理系统中通常只以存量地籍数据作为增量地籍数据质检与更新的依据,很少考虑引入其他来源的数据作为质检更新过程的数据参照,这可能会导致质检通过的地籍数据依然无法反映真实地物情况。
综上所述,本文借助知识图谱在知识融合上的优势和高效的计算分析能力,以遥感影像作为地籍数据真实性检验的参照依据,提出了一套基于时空知识图谱的地籍数据质检与更新方法,考虑了地籍数据的时空动态特性,在解决地籍数据质检与更新耗费大量人力与时间成本问题的同时,也改善了使用关系型数据库带来的时空信息表达能力弱和更新效率低的问题,并通过实验证明了时空知识图谱对于地籍数据时空信息的表达优势与处理质检更新任务时的性能优势。
1 地籍数据质检与更新技术框架设计
1.1 整体技术框架与流程设计
本文基于知识图谱[13]技术设计了地籍数据质检与更新技术框架。知识图谱是一种集成与利用知识的有效手段,它以“实例-关系-实例”“实例-属性-属性值”的三元组进行实例及其关系的表示,多个同领域实例的三元组相互连结形成表示这一领域知识的知识图谱。相比关系型数据库的表结构,知识图谱面向对象的特性使其拥有很强灵活性,能够方便创建或删除实例,与地籍数据需要实时更新需求相契合。时空知识图谱[14]指能够高效表达时间知识与空间知识的知识图谱,因为地籍数据的时空特征明显,使用时空知识图谱能更高效地利用地籍数据中的时空信息。本文以地籍数据和遥感影像作为数据来源,以时空知识图谱作为地籍数据质检与更新的参照系统,通过构建时空知识图谱来辅
助地籍数据库进行增量地籍数据的质检与入库更新,具体业务逻辑流程如图1所示。
对于技术流程的设计,需要首先明确地籍数据错误的类型,并针对不同的错误类型设计不同的质检方法流程,如表1所示。
表1 地籍数据错误类型与质检方法
图2所示。批量的地籍数据将逐一进行质检和更新,每个地籍数据实例分别通过属性质检、拓扑质检和真实性检验。
1.2 属性质检
待判定地籍数据会首先进行属性质检,属性质检用于检查地籍数据中的属性错误。在属性质检中,如果质检不通过则输出质检不合格结论与原因,并开始处理下一个地籍数据实例; 如果属性质检通过,则将在时空知识图谱中筛选出与当前待判定地籍数据同时相、同区域的地籍数据实例,将这些实例与待判定地籍数据进行拓扑比对,即拓扑质检。
1.3 拓扑质检
拓扑质检用于检查地籍数据的拓扑错误。在拓扑质检中,如果从时空知识图谱中筛选出的实例与当前待判定地籍数据存在空间关系的交集,说明待判定地籍数据存在几何形态描述的错误,或者说明筛选出的时空知识图谱实例存在几何形态描述的错误。在这种情况下,会将筛选出的时空知识图谱实例进行标记,并输出当前地籍数据质检不合格的结论与原因。若从时空知识图谱中筛选出的实例与当前待判定地籍数据不存在空间关系的交集,则表示拓扑质检通过,进一步进行地籍数据的真实性检验。
1.4 真实性检验
属性质检和拓扑质检只是保证了地籍数据没有属性错误和拓扑错误,并不能保证地籍数据地物实例的真实性,即地籍数据中标注的地物不一定是真实存在的。本文引入遥感影像作为地物真实情况的参照依据,通过提取遥感影像中的地物信息作为参照地物实例,基于知识图谱将地籍数据实例与参照地物实例进行比对以判断地籍数据的真实性。
首先检查地籍数据的虚报。如果对于同一片区域,待判定地籍数据中标注了某个地物实例但该实例的参照地物实例不存在,说明待判定地籍数据存在虚报的情况。反之如果参照地物实例存在,会进一步检查地籍数据坐标边界错误。
在地籍数据坐标边界检查中,在同一片区域内先将待判定地籍数据和参照地物实例对比,如果二者拓扑呈包含关系,即参照地物实例的坐标包含在待判定地籍数据宗地坐标范围内,说明待判定地籍数据真实性检验合格,待判定地籍数据不存在问题。反之若二者拓扑不呈包含关系,地籍数据与实际情况不一致,判定坐标边界错误。
2 地籍数据时空知识图谱构建
2.1 地籍数据时空知识图谱架构
地籍数据时空知识图谱以地籍数据作为数据基础,利用时空知识图谱中的关键知识对地籍数据质检与更新提供技术支持,实现地籍数据的自动高效质检与更新。地籍数据时空知识图谱以GraphDB图数据库[15]为载体,通过OWL本体语言[16]进行语义表示,并使用GeoSPARQL查询语法[17]进行语义搜索。本文基于此设计了用于地籍数据质检和更新的时空知识图谱架构,其核心包含了概念层、数据层以及辅助地籍数据质检与更新的推理规则,如图3所示。其中,概念层包括了时间概念、空间概念、地籍数据质检与更新规则概念; 数据层包括了遥感影像、存量地籍数据与地理编码数据。在地籍数据时空知识图谱中,概念层与数据层会建立相应映射关系,并基于时空知识图谱中的推理规则进行相应地籍数据管理操作。
2.2 概念层构建
地籍数据时空知识图谱的概念层描述了地籍数据管理过程中需要的相关概念,包括了时间概念、空间概念、地籍数据质检与更新规则概念。其中,地籍数据质检与更新规则概念包含了地籍数据管理流程中必要的事件与动作的定义,时间概念与空间概念为时空知识图谱中时空知识的表示方法,它是一种时空表示框架,时间与空间概念均采用本体[16]进行实现。
2.2.1 时间概念
本文使用SWRLTO时间本体[18]对地籍数据的时间信息进行语义表示,以支持在地籍数据管理中涉及时间的相关推理与运算。SWRLTO的逻辑结构如图4所示。时空知识图谱中的一个地籍数据实例对应SWRLTO中的一个时间对象,由于地籍数据的时间范围通常是一个时间段,因此在时空知识图谱的概念层中将根据SWRLTO的逻辑构成“某一个地籍数据实例的有效时间段是某一个时间段”这类时间知识表示。
2.2.2 空间概念
本文使用GeoSPARQL空间本体[17]对地籍数据空间信息进行语义表示,以支持在地籍数据管理中涉及空间的相关推理与运算。GeoSPARQL本体的逻辑结构如图 5所示。在空间概念中,时空知识图谱中的一个地籍数据实例对应GeoSPARQL本体中的一个空间对象,使得地籍数据实例的空间信息能够和概念层集合描述相关联,形成有利于空间推理运算的空间知识表示。
2.2.3 地籍数据质检与更新规则概念
地籍数据质检与更新规则概念是对地籍数据时空知识图谱自动化执行推理程序的规则描述,是时空知识图谱推理的基础。规则概念逻辑结构如图6所示。一条规则由事件对象与动作对象组成。一个事件对象是一条推理规则的触发条件,一个动作对象是推理规则满足触发条件后执行的相应动作。事件对象概念根据事件的独立性划分为独立事件和事件组合,动作对象根据动作的独立性划分为独立动作和动作组合。其中,与事件(动作)组合指的是事件(动作)组合中的事件(动作)同时发生,或事件(动作)组合指的是事件(动作)组合中的事件(动作)发生任意一个,并事件(动作)组合指的是事件(动作)组合中特定的事件(动作)发生且其他事件(动作)发生任意一个。
2.3 数据层构建
2.3.1 面向地籍数据的知识抽取
本文使用的地籍数据在进入时空知识图谱之前以shp的文件格式进行存储,文件存储了若干个宗地信息,存储结构如图 7所示。每个宗地信息在文件中被称为一个实例(feature),一个实例中包含了宗地的几何形态(geometry)与属性(properties)。其中,几何形态描述了宗地的位置与性状,构成宗地空间信息; 属性描述了宗地性质,包括时间信息与其他属性信息,如宗地权属、地址、编号、时间等信息。
面向地籍数据的知识抽取就是将地籍数据中的时间信息、空间信息与属性信息与时空知识图谱中概念层的概念进行映射的过程。时间本体会根据地籍数据中的有效时段信息将时间信息映射到概念层的时间概念中,空间本体会根据地籍数据中的几何形态描述将空间信息映射到概念层中的空间概念中。此外,空间信息还会根据坐标与地理编码相关联。属性信息会作为属性值与地籍数据实例映射构成一个三元组表示。地籍数据知识抽取过程如图 8所示。
2.3.2 面向遥感影像的知识抽取
面向遥感影像的知识抽取是提取遥感影像中地物参照实例的过程,本文通过深度学习语义分割方法[19]提取高分二号遥感影像中的矢量化地物及其时空信息,再将时空信息分别与概念层的时间概念和空间概念进行映射,最后将地物空间信息与地理编码相关联形成用于地籍数据真实性检验的参照地物实例。知识抽取过程如图9所示。
2.3.3 地理编码数据获取与多尺度索引实现
为了提高地籍数据质检与更新过程中时空知识图谱空间信息检索效率,本文使用多尺度地理编码索引机制。瓦片金字塔是一种多分辨率层次模型,从瓦片金字塔的底层到顶层,分辨率越来越低,但表示的地理范围不变。时空知识图谱中的地籍数据实例与概念层中的GeoSPARQL空间本体相映射,首先对实例特征进行充分表达,以WKT数据结构记录精确坐标集合要素,表达为<主语: 地籍数据实例中心点 谓语: Geo: asWKY宾语: 地理坐标序列>,如图 10所示。
同时,在概念层的空间概念中存在<主语: 地籍数据实例 谓语: hasTileCode 宾语: 瓦片编码>结构,其中瓦片编码为字符串数据类型,一个地籍数据实例有一系列不同尺度的瓦片编码,也即在瓦片金字塔的各分辨率层次中都可以找到此地籍数据实例所处的瓦片,以此支撑时空地籍数据实例多尺度空间查询。
2.4 推理规则与方法设计
在推理规则定义环节,遵循前述推理判据概念层定义,每条推理规则关联的事件对象定义为待检查地籍数据与存量地籍数据的时空交集关系; 动作对象定义为待检查地籍数据与存量地籍数据存在时空交集时的检查动作集合、地籍数据合格与否判定准则; 最终按照概念层语义规范将推理规则表示并存储为图数据库中三元组集合。
在地籍数据检查环节,如图 11所示,将地籍数据实例封装为GeoJSON格式对象输入通用推理程序,该程序基于SPARQL查询自动获得地籍数据类型对象关联的推理规则; 依据推理规则事件对象定义的空间叠置条件自动检索拓扑质检所需的、与待判定地籍数据实例同区域同时相(即时空范围相同)的存量地籍数据,基于动作对象定义的检查动作集合执行相应动作函数,完成地籍数据属性完备性及格式正确性检查、边界拓扑关系检查,自动生成检查结论并按指定格式存储质检合格数据。
3 实验验证
实验以GraphDB作为时空知识图谱的存储载体,使用protégé工具[20]构建时空知识图谱的概念层与相关推理规则,选用Visual Studio 2019 作为开发平台进行数据层入时空知识图谱的自动化实现、质检与更新过程中相关动作函数流程的自动化实现,开发语言为C#,操作系统为Windows 10。
首先,以湖南省长沙市5 km2地籍数据质检场景为例,将时空知识图谱方法与ArcGIS方法进行对比,分析本方法的效率,如表2所示。进一步验证出现不同类型错误时质检方法的可行性。本文选取了湖南省长沙市的7块建筑区域作为地籍数据的坐标来源,根据地籍数据属性标准[21]模拟了若干宗地属性,验证基于时空知识图谱质检与更新方法的正确性和自动化程度。为便于描述,分别命名为宗地A—宗地G。7块宗地的属性与拓扑情况如表3所示。
表2 时空知识图谱高效性分析
表3 实验宗地属性与拓扑情况说明
其中,宗地B与宗地C存在属性情况的错误,宗地B缺少房屋所有人(FWSYR)属性,宗地C的房屋名称(FWMC)属性的属性值错误。宗地D与宗地E存在空间上的拓扑交集,两者的空间关系如图 12所示。宗地F中存在虚报建筑,即地籍数据中的建筑在真实遥感影像中并不存在,宗地G中存在坐标边界的错误。
图 13所示。然后,依次将宗地F和宗地G作为输入进行真实性检验时,对于宗地F,在和遥感影像参照实例进行比对后,发现同区域内宗地F没有任何参照实例,因此判定宗地F为虚报地籍数据,质检不通过。而宗地G发现了同区域内有6块参照实例,因此进一步判断宗地G与6块参照实例是否都为包含关系,发现宗地G与其中一块非包含,因此判定宗地G地籍边界标注错误,质检不通过,运行结果如图14所示。
4 结语
本文针对当下地籍数据管理存在的问题,通过设计自动化的地籍数据质检与更新框架,减少了地籍数据管理中的人力成本与时间成本,并凭借时空知识图谱的强知识表达能力以及基于图结构的高运行效率,改善了使用关系型数据库带来的时空信息表达能力弱和更新效率低的问题。通过实验验证了方法的可行性与高效性,期望能给地籍数据管理提供一种新思路。
本文所设计的时空知识图谱仅针对地籍数据质检与更新这一任务,因此在未来的工作中,研究会继续探索以遥感数据和其他土地资源数据为基础的时空知识图谱的共通性,以在土地资源领域的多种任务场景中充分发挥知识图谱的优势。(原文有删减)
【作者简介陈栾杰(1997-),男,博士研究生,主要研究方向为时空知识图谱。Email: chenluanjie20@mails.ucas.ac.cn。
【通讯作者】彭玲(1965-),女,博士生导师,研究员,主要研究方向为遥感智能信息与决策支持研究。Email: pengling@aircas.ac.cn。
【】湖南自然资源厅科技计划项目“基于空间智能分析的自然资源数据知识图谱构建”(2021-04)
【】陈栾杰, 李玮超, 彭玲, 陈嘉辉, 高翔. 基于时空知识图谱的地籍数据质检与更新方法研究[J]. 自然资源遥感, 2023, 35(1): 243-250.
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!
上一篇:国际首次!我国开展这一探测实验