在传统科学看来,数据需要彻底“净化”和“集成”,计算目的是需要找出“精确答案”,而其背后的哲学是“不接受数据的复杂性”。
然而,大数据中更加强调的是数据的动态性、异构性和跨域等复杂性,开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标开始转向将组织处于混沌边缘状态。
在小数据时代,对于数据的存储与检索一直依赖于分类法和索引法的机制,这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列与准确存储,与追求数据的精确性目标是完全一致的。
在数据稀缺与问题清晰的年代,这种基于预设的结构化数据库能够有效地回答人们的问题,并且这种数据库在不同的时间能够提供一致的结果。
面对大数据,数据的海量、混杂等特征会使预设的数据库系统崩溃。其实,数据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征,想要获得大数据的价值,承认混乱而不是避免混乱才是一种可行的路径。
为此,伴随着大数据的涌现,出现了非关系型数据库,它不需要预先设定记录结构,而且允许处理各种各样形形色色参差不齐的数据。
因为包容了结构的多样性,这些无须预设的非关系型数据库设计能够处理和存储更多的数据,成为大数据时代的重要应对手段。
在大数据时代,海量数据的涌现一定会增加数据的混乱性且会造成结果的不准确性,如果仍然依循准确性,那么将无法应对这个新的时代。
大数据通常都用概率说话,与数据的混杂性可能带来的结果错误性相比,数据量的扩张带给我们的新洞察、新趋势和新价值更有意义。
因此,与致力于避免错误相比,对错误的包容将会带给我们更多信息。其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度,未来我们应当习惯这种思维。