当前位置:Geojam Token中文网 > DPX中文网 >
发布日期:2025-01-04 11:42 点击次数:74
海量数据爆发下如何挖掘数据价值成为每个企业的必修课,图数据库因在处理复杂关系方面有独特的优势,可以挖掘关系背后隐藏的数据价值,越来越受到关注。 本文为《图数据库选型指南》系列选题文章之一,对话一线厂商和用户,揭开图数据库这一新型数据库的神秘面纱。探求图数据库技术发展的重点和难点,整理行业落地应用的实践,供业内参考。 创邻科技创始人&CEO张晨 本期我们邀请到了创邻科技创始人&CEO张晨,创邻科技2016年于杭州成立,是中国本土成立最早的商业化图数据库厂商,张晨亦是图数据库布道大军中非常活跃的一员,他认为在越来越广泛关联的世界,图数据库的理想状态是做一个中间连接器。目前图数据库还处于非常早期的发展阶段,很多论断现在都言之尚早,底层技术需要更多时间去培育。 在数据栈中找位置,做一个中间连接器 在创邻科技刚成立时,大家普遍不知道什么是图数据库,甚至疑惑图数据库是不是存储图片的数据库,这样的误解令踌躇满志的张晨有点伤心失落。 毕竟2016年回国创业的时候,他和团队对图这一革命性技术抱有很高的期待。现实的冷水让他深切意识到技术发展要经历一个过程和周期,尤其是底层技术需要更多的时间去培育。 “和我一开始想的cool start立刻会冲上去不一样,市场对它(图数据库)有一个逐步认知的过程,即使到现在这个认知依然有待提升。”张晨说。 2017年,人机大战使得上一波AI浪潮风起云涌,国内一批研究语义网络的教授构成一股强大的力量,推动知识图谱与问答机器人结合降低成本,这让很多人了解了知识图谱,但隐藏在知识图谱之下的图数据库还不太为外人所知。 而市场上的敏感者已经闻风而动,此时,国有大行等有一定IT技术储备的企业机构开始创新探索图数据库的应用,从应用开源到采购国产化替代,用户对数据库的认知不断提升。 2021年,TigerGraph、Neo4j相继获得高额融资,尤其是Neo4j获得3.25亿美元创纪录融资让图数据库几乎一朝天下闻,结合DB-Engines的趋势数据,人们有点恍然,图数据库已经成为近十年来流行度趋势上升最快的数据库类别。 图数据库以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,用点和边来表达数据之间的关系。图数据库是NoSQL数据库中的一种,是现代数据技术栈的一员,与关系数据库、文档数据库等同属于数据库这一类别。 张晨指出,数据库作为现代数据技术栈的一层,有SQL数据库、NoSQL数据库,他们有不同的功能,图数据库可以从关系型数据库、其他NoSQL数据库那里抓取数据,“图数据库发展的理想状态是做一个中间连接器,把不同的库连接起来,实现一些以前单片数据或者单个数据库没法实现的数据关联,挖掘关联关系,得出新的洞见。” 世界是广泛关联的,从复杂关系里挖掘价值,是图数据库特有的优势。如今,除了知识图谱,图数据库已经在很多方面应用,如银行的反欺诈、风控、营销、反洗钱、制造业领域的供应链优化,能源领域的电网调度等。 不同用户对图数据库的需求差异 整体来看,金融业尤其是银行对图数据库的应用较为广泛深入,比如反欺诈、反洗钱、企业信贷等场景,这些场景都需要复杂关联关系查询。其中反欺诈往往是团伙欺诈,传统的单点信息很难发现,通过图数据库构建团伙的关联关系,把每个人在关系网络中的位置作为重要考量因素,可以实时发现欺诈行为,而且可解释可追溯。 而反欺诈场景对实时性要求较高,需要很高的数据库性能,这种深度关联关系的复杂查询,关系型数据库已经出现了性能瓶颈,只有图数据库才能满足需求。而一些对实时性有较高要求的复杂多表关联查询场景,也会用到图数据库。“整个社会变得更高效、更快速、更实时,这是一个不可逆转的趋势。” 据张晨观察,处理复杂关联关系是各行业对图数据库的共性需求,而最大的差异体现在企业自身IT先进程度和准备程度。银行之所以应用得广泛深入,是因为银行的IT能力强,内驱力和认知都非常高。相应地,银行有较高IT人才储备和IT能力,需求较为明确,在选用图数据库时更关注性能,会试用自己的数据集看看能不能满足需求,而政府可能会关注厂商的背景、稳定性和创新性。 所有做大B生意的厂商都希望实现行业复用,但是基本都没有成功,大B有很高的定制化需求。图数据库目前来看做的是大B生意,在图数据库领域,也会遇到企业大量的定制化需求。 比如,在Galaxybase提供的APOC库中包含了数百个通用的函数和聚合函数,可用于数据集成、图算法或数据转换等领域。但随着图数据库的应用领域不断扩大,Galaxybase图数据库提供的接口和语言已经逐渐不能满足所有的业务场景的复杂查询需求。尤其是在大数据条件下,分布式系统节点间数据传输的网络开销对查询及计算性能带来很大影响,标准查询接口及声明式语言有限的执行优化策略无法让用户百分之百地利用Galaxybase分布式并行计算框架的能力。为了能让用户根据业务定制复杂查询逻辑,并且能够充分利用底层的计算框架来进行性能调优,Galaxybase提供了参数化算法程序接口(Parameterized Algorithm Routine API)的数据库高级编程方式。用户学会后根据自己的行业去实现复杂查询与算法的定制。 没有任何技术可以解决所有问题,图数据库是数据库细分类别NoSQL的一种,在处理复杂关系方面有很多落地,更多的场景还需要不断探索。 一切都是时间问题 大家普遍认为图数据库的发展还处在一个非常早期的阶段,比如缺乏标准,尤其是查询语言的ISO国际标准至今悬而未定,这阻碍了图数据库的发展,比如生态不足,这需要厂商、伙伴、用户共同去努力,且非一日之功。 近两年图数据库的发展也引来一些争议,比如图数据库能不能成为独立赛道?图数据库为什么叫好不叫座? 张晨认为在图数据库发展的早期阶段有争议很正常,技术发展成熟有自己的周期,这一切都是时间问题。 “慢慢来吧,技术发展需要耐心,关系型数据库进入主流也走过了20年的时间,当我们越来越多的数字经济行为需要被关联起来去做决策的时候,图数据库就会成为一个独立赛道。”关于叫好不叫座的争议,他说可以先分析为什么叫好,在底层商业逻辑上,图数据库代表着一种未来数据存储与处理的模式。数据的广泛关联本质是人类活动的相互关联,这是不可避免的趋势。图数据库是顺应这一趋势产生的新技术,目的在于解构、模拟、分析人类世界这个复杂系统,所以叫好。“至于叫座,就要看哪些地方非用你不可,要么成为一个稳定的技术栈中必不可少的一层,要么在一个足够规模的市场中有一些Killer App,非得用你。在技术应用周期的这个阶段(市场)确实还在探索,但后续一定会慢慢往前走。一旦答案明确了,技术就已经进入大众市场成为主流了。” 图数据库能否成为主流可以留待时间验证。眼前,图数据库从技术产品方面相比早期已经有了长足的发展,未来也有一些较为确定的发展方向。 张晨认为,图数据库经历了早期的1.0原生单机时代,2.0非原生分布式时代,现在到了3.0原生分布式时代,Galaxybase是原生分布式图数据库的代表产品,现在越来越多的图数据库厂商开始自研原生图存储。 HTAP是未来图数据库一个重要的发展趋势。目前一些图数据库只能存不能算,偏AP场景的复杂查询需要从图数据库中导出数据到外部大数据系统中查询计算。数据的导入导出就有了延时。更麻烦的是,这些面向不同业务场景的分析过程产生了大量的中间数据,对同一份原始数据创造出了多个不同的加工数据版本,这是一个很要命的事,不但增加了数据管理的复杂度,还可能造成不同业务的数据差异及决策差异。HTAP的图数据库不仅在数据处理性能上是TP数据库加AP计算引擎混合架构无法比拟的,也会避免不必要的数据冗余、降低数据管理的复杂度。此外,随着越来越多场景对实时数据处理的要求提高,流批一体也会成为图数据库的一个重点发展方向。 “在图算法方面,目前一些前沿的论文基本都是基于小规模数据,尚且没有做到真正地产业化落地,离通用应用还比较远,更不用提解决在超大规模数据上的计算效率和复杂度问题。”面向未来,张晨觉得先把存储、计算系统的基本功夯实好,用户会有自己的选择,剩下的交给时间就好。Powered by Geojam Token中文网 @2013-2022 RSS地图 HTML地图
Copyright Powered by365站群 © 2013-2024