• 精选
  • 会员

二、提供智力之钩

2020年7月10日  来源:知识的边界 作者:(美)温伯格 提供人:kangtao76......

丰富性也存在两个主要的风险:首先,我们找不到要找的东西;其次,我们会找到很多迎合我们最低需求的有吸引力的东西。一个简单的做法就可以解决这两种忧虑,虽然还不是那么完美。

解决信息超载的方法是创造更多的信息:元数据。当你在文件夹上贴上标签,你就是在利用元数据,这样就能找到文件夹里的文件。为你发表在网络新空间的信息提供元数据,就可以让人更加容易地找到它。我们还可以更多地利用这一点,正如一行说明帮助我们理解一幅图片那样。

对于一个开放的、超级丰富的体系中天生存在的第二个问题,元数据也有用:网络上大部分东西都是垃圾。所以,我们需要找到方法去评估它们,过滤它们,不过这会非常难,因为甲之垃圾,可能会是乙之金块。

有些这样的元数据的增多需要人们付出更加明显的努力:我们积酿数据的集合,给它们打分、留言、写评论。但是很多有价值的元数据还可以通过检查人们无意中留下的痕迹来推导出来。亚马逊网站已经成为了这方面的专家:它分析人们点击了什么商品,每个人买了什么,大家买了什么,然后就能够告诉用户们他们可能会对哪些商品感兴趣。亚马逊用来分析的数据不是人们故意留下来的。也正因为如此,这种数据反映了人们的真实想法。

过去几年来一项工作一直在进行着,即系统地将元数据添加到网络中,这样网络中的数据就可以被提取和使用。比如,一家地方图书馆的网站,谷歌图书,还有亚马逊网站,可能都有关于《物种起源》一书的在线介绍:书目信息,评级,书评,字频分析等等。但是因为每个网站都有不同的介绍方式,所以想要把这些信息都收集到一起就不太容易。如果每个网站都能遵循语义网(Semantic Web)——万维网的发明者蒂姆·伯纳斯—李爵士(Sir Tim Berners-Lee)[206]在千禧年左右发起的——的约定,那么电脑程序就可以很容易地知道这些网站说的是同一本书。实际上,语义网还能让来自无数网站中的更加复杂的信息得以共享。只要就如何编码元数据达成一致,网络就可以表达比我们放进去的知识还要多的知识。这就是智能网络的定义。

不过创造元数据也很难,尤其是很多语义网的追随者开始先要给世界不同领域编写庞大的、复杂的逻辑表示。写这些“知识本体”——他们自己这么称呼——会很困难。如果你只想写一套比方说关于针织的模型,那倒不会很复杂:你先要表示出所有的物体(针、线、花样、针织工、针织品等等),然后表述它们之间的关系(针织品要有针织工,针织工要用到针,针还有不同的型号,等等)。但是撰写金融市场的本体,你必须对定义的术语——“贸易”、“债券”、“管制”、“报告”等——每一个元素、细节、关系都达成一致,其他领域,比如法律、经济、政治等,也是如此。

因此,语义网的一些支持者(包括伯纳斯—李8在内)都认为,不必等到人类对包罗万象的本体全都达成一致,先采用虽不尽完美的标准化数据——即“关联数据”——来使这些数据能够被访问,可以给人类更快地带来巨大的好处。所以,如果你有大量关于比方说化学元素的信息,你就可以用一种称为“三元组”(triples)的形式将它们放到网上,所谓“三元组”是因为这样的语句包含了两种对象再加上一种关系:比如,汞是一种元素。汞的原子量是200.59。汞的沸点是356.73℃。每磅汞的价格是694.62美元。9所有的这些数据都公开之后,研究者、开发人员、商人等,通过申请就可以得到网上的所有信息,他们就可以发现汞的新特性、新用途和新市场。当科学、商业、医药、文化、政府、经济学、社会学等领域都这样做,将大量的数据汇集之后,我们就有了一个前所未有的资源,可以基于我们对世界的已知去创造新的思想。这种资源就是一个数据公地,而我们只是刚刚开始了解到它巨大的变革作用。

关联数据能够成功的一个要素是,它对元数据并不挑剔。所以,在一本书的元数据中,该书作者是应该被叫做“作者”、“作家”还是“创建者”呢?关联数据的推动者们不会去解决这个问题,相反他们会告诉你,不要在你的“三元组”中用任何一个术语,而是用某个指向著名网站的链接来帮助你定义这种关系。所以,你可以不用“作者”这个词,而是放上一个链接,链接到“都柏林核心”(Dublin Core)[207]标准10——一个对于发布文档十分有用的名词——里对著作者关系的定义。现在,任何人想要理解你的“三元组”的申请,都知道它是都柏林核心网站上定义的那种关系。这种方法可能比较杂乱也不尽完美,但是百分百要比因为不知道如何正确表达元数据,所以索性不公开数据要好得多。

关联数据的崛起概述了本书贯穿始终的知识转型。虽然语义网最初强调建立能够“表征世界”的知识本体,但后来的结果是,如果我们直接发布大量不尽完美但相互关联的数据,以标准化的形式让数据公开,广泛被人们获取,那么网络就成为了一个改进极大的知识基础设施。

关联数据本身只是一种更广阔的实践的一个例子,这一实践就是:创造元数据这样可以再利用的信息。关联数据所以有用,是因为它超越自身,指向了关于信息的信息。所以一个关于mercury的 “三元组”,可以指的是一种化学元素,一颗星球,或者是一个罗马神明。[208]数据的原子因为共同分享元数据而相互钩在了一起。

的确,即使一小点元数据也有很大的发挥空间。对于作品的权威性,身处丰富网络之中的我们,需要比以往资质机构所能够提供的还要多的元数据。这也成为了网络诞生以来最具创新性的一个领域。比如,eBay一个卖家的14 000笔交易中,有99.9%的交易都得到了“满意”的好评,这就比知道这个卖家在牛津教书要有用得多。知道自己社交网络中的人喜欢一家当地餐馆,比知道一个挑剔的美食家不喜欢这家餐馆要有用得多。我们需要继续开发这样的系统,而且丝毫不用怀疑,我们一定也会这么做。

一个元数据丰富的网络,它里面可用的、有用的知识也会更丰富。

知识 / 结构

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000