万维网科学的历史、发展和挑战

笔者最早接触互联网,是1995年参加中国科学院百所联网科学数据库建设之时。那是,频繁地在Netscape或IE中输入WWW的时候,就很奇怪,这三个W组成的字母究竟是什么呢?通过学习,慢慢理解了,WWW是World Wide Web的缩写(有时候仅仅用Web,也是WWW的含义),是互联网所提供的服务其中之一,一个由许多互相链接的超文本组成的系统。其核心,由统一资源标识符(URI)、超文本传送协议(HTTP)和超文本标记语言(HTML)三个标准构成。提姆·伯纳斯·李(Tim Berners-Lee)被称为 WWW之父,他在1989年,看到了将超文本系统与互联网结合在一起的机会,并在1990年9月至12月创建了这样的系统,并于1991年的8月23日正式向公众开放。1994年6月,北美的中国新闻电脑网络(CND)在为其电子刊物《华夏文摘》推出网站服务时,中国科学院已故院士、科学网李小文先生通过电子邮件提出翻译为“万维天罗地网”,简称“万维网”,正好与汉语拼音的简称完全相符,大家一致认为这个译法“信、达、雅”面面俱到,一锤定音。于是,“万维网”成为World Wide Web的标准翻译被广泛采纳[1]。

 
万维网的诞生,从根本上改变了我们生活的方方面面,对世界产生了深刻而又复杂的影响。对于一些企业家来说,她创造了巨大的财富,它重塑产业格局导致业务延伸;对社会来说,她带来言论和信息自由,即便充斥着粗俗对话和网络攻击;对科学研究来说,她已经改变了科学家沟通、合作和教育的方式。人们越来越认识到,必须有一个明确的研究议程来了解当前不断变化的潜在网络,更需要创建一个新的领域来探索万维网潜在的科学、工程原理和社会影响。2005年9月,在伦敦举办的英国计算机协会的研讨会上,万维网研究的科学家们讨论了构成万维网科学内核的科学和工程问题。与会人员考察了万维网的新趋势,并就如何利用新媒体的机会、数据资源以及知识库“网络化”的具体类型进行了激烈辩论。该研讨会涵盖了广泛的技术和法律主题。例如,从已经进行了许多研究的万维网构架和拓扑结构到网络连接的法律问题等等。这项工作使得一些人认为万维网的发展遵循一个进化路径,建议在一个生态条件下观察万维网。
 
分析万维网需要更好的数据模型是显而易见的。给定一个主题,如何找到权威的网页?对于这样一个简单的问题,传统的信息检索技术对于规模越来越大的网络是不够。人类在网络上交流的话题是可以通过链接矩阵进行分析的,信息检索和基于结构的搜索中的数学问题,定会随着万维网的发展变成一个热门的研究领域。然而,为模拟万维网所开发的数学框架,在方法有很大的不同。虽然系统分析中面向过程的方法、人工智能和语义研究的符号建模方法、以及在网络分析中所使用的数学方法都是相关的,但目前还没有一个数学的模型可以统领一切。十多年前的万维网正在经历一次从文本文档到数据资源的扩展。在人类可读文档的网络中,自然语言处理技术可以从这些文本中提取一些语义。这些方法是基于“隐藏”的语义,但计算机通过使用启发式技术来概括人类之间通信的意图。在关系数据和逻辑判断的“语义网”中,如果将计算机逻辑包含在这些元素中,就可以做得更多。研究人员可使用新的、基于逻辑的语言来回答问题,进行假设检查和数据建模。
 
次年(2006年),提姆·伯纳斯·李等在Science上发表了一篇文章“创建万维网科学”[2],提出应形成专门的跨学科研究团体,推动万维网科学的各种学术计划和研讨会。这里讨论万维网的时候,特意加上了“科学”二字。物理学和生物学是人们能理解的科学,它们分析自然世界,试图通过寻找微观规律来外推到宏观领域,这是建立在观测行为基础上的研究。相比之下,计算机科学,虽然也进行局部分析,但主要还是综合的。如果要产生新的计算机行为,就涉及到构建新语言和算法。万维网科学正是这两个特征的结合。万维网是通过正式指定的语言和协议创建的工程空间。然而,由于人类是网页的创造者,与之有紧密的联系,其相互作用形成了万维网上宏观尺度的全新模式。人类的互动受社会习俗和法律的约束。因此,万维网科学本质上必须是跨学科的,其目标一方面是要了解万维网的发展,另一方面又要创造新的方法让更强大和更有利的模式出现。

责编:科普知识网

分享到:

>相关科普知识