在互联网诞生初期,数据库主要的类型是关系型数据库,这是一种采用了关系模型来组织数据的数据库。这是在1970年由IBM研究员埃德加·弗兰克·科德(E.F.Codd)博士首先提出的,在之后的几十年中,关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型。简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。
随着互联网Web2.0网站的兴起,传统的关系数据库在应对Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而NoSQL的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL泛指非关系型的数据库,它的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
以谷歌为例,谷歌公司大数据三篇著名论文(GFS,Bigtable,MapReduce)奠定了谷歌大数据的基础,而谷歌的Pagerank算法实现了当时几乎最先进的数据搜索算法。PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。谷歌把从A页面到B页面的链接解释为A页面给B页面投票,谷歌根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单地说,一个高等级的页面可以使其他低等级页面的等级得到提升。而这个技术正是本章所指的数据第二阶段,通过复杂的设计网络和算法进行重新整理和归纳,将原本看似并无关联的数据变为可以分级分类的高质量数据,让大数据和复杂网络模型成为可能。
但是构建在这之上的大数据,最大的问题就是无法解决信任问题。因为互联网使得全球之间的互动越来越紧密,与之相伴而来的就是巨大的信任鸿沟。现有的主流数据库技术架构都是私密且中心化的,在这个架构上是永远无法解决价值转移和互信的问题。所以区块链技术将成为下一代数据库架构,通过去中心化技术,将能够在大数据的基础上完成全球互信这个巨大的进步。
区块链技术作为一种特定分布式存取数据技术,通过网络中多个参与计算的节点展开共同参与数据的计算和记录,并且互相验证其信息的有效性(防伪)。从这一点来看,区块链技术也是一种特定的数据库技术。这种数据库将会实现梅兰妮·斯旺(Melanie Swan)所说的第三种数据类型,即能够获得基于全网共识为基础的数据可信性。目前,互联网刚刚进入大数据时代,还处于初期阶段。但是当进入到区块链数据库阶段,将进入到真正的强信任背书的大数据时代。这里面的所有数据都可以获得坚不可摧的质量,任何人都没有能力也没有必要去质疑。
图9.2 区块链数据库的优势
从前面的发展我们可以注意到,数据的发展和马斯洛需求层次理论有些接近,在实现了生存和使用的需求后,自然会朝着更高的需求进行发展。当然,安全仅仅是数据发展中的一个阶段,而最终会朝着人工智能这个数据自我实现的需求发展。尽管我们还不能确定当数据能够实现人工智能,甚至是数据自我智能时,数据库会是怎样的形态,也许未来的人工智能数据库会变成像电影《复仇者联盟》中的贾维斯和奥创这样的形态吧。