非结构化WEB数据库与图书馆多媒体信息资源的组织利用(一)

【内容提要】针对传统关系数据库在处理非结构化多媒体WEB信息中所存在的问题,结合图书馆多媒体数据库的特点及特定技术要求,介绍了非结构化WEB数据库的技术特点及其在组织与利用馆藏多媒体信息资源中的作用。
【摘要题】信息资源建设
.
【关键词】非结构化WEB数据库/多媒体/信息资源/组织利用/关系数据库
【正文】
      1 非结构化WEB数据库简介
  非结构化WEB数据库,是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的基于INTERNET、INTRANET的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)并在互联网上发布。非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。
      2 图书馆多媒体信息资源的特点及组织利用中的技术要求
  2.1 图书馆多媒体信息的数据量非常大,象馆藏影视资料和各种多媒体教育资料,其动态图象信号,每秒可达数兆字节,一段几分钟的MP3音乐也有几兆字节,即使经过压缩、也十分巨大。如何对多媒体海量数据进行有效地组织、存储并构成WEB数据库提供给用户网上使用,技术要求很高。
  2.2 馆藏多媒体信息的数据类型很多,包括各种图文数据、声音数据、影视数据、超媒体数据、多种格式的随书光盘等等,其数据长度不固定,结构上的差异大,使得处理这些数据十分困难,要求数据库既能够处理可变长度字段又能够处理可重复的子字段。
  2.3 多媒体信息处理在时间上要求很高,多媒体信息中的声音和动态图像对时间特别敏感,在使用这些信息时,必须保证其时间上的要求,否则将会使这些信息失真甚至变得毫无意义。
  2.4 开发利用馆藏多媒体信息资源经常要多种信息集成描述,比如某种多媒体,既有图像,又有声音,还有文字说明,这样就会改变传统的数据库操作形式和数据库接口,尤其对图文并茂的数据库的建立和查询,需要统一语义描述。
  基于多媒体信息资源的上述特点,要想使馆藏丰富的多媒体信息资源得到充分利用,满足信息用户不断增长的信息需求,对多媒体信息处理提出了不同于普通信息处理技术的新要求:
  (1) 多媒体数据库元数据存储技术要求
  我们知道音频、图象、视频等多媒体信息数据是非结构化的,它们不能用简单的数字解析式表示,多媒体数据库必须取得基于这些媒体对象内容及信息特征的解释,才能完成存储及应用,这些解释就称为元数据,通过对元数据的归类、整理、实现标准化的存储是多媒体信息资源组织利用的关键。多媒体数据库元数据存储技术要求包括:文本元数据的存取,语音元数据的存取,图象元数据的存取,视频元数据的存取等方面的技术要求。
  (2) 多媒体数据库结构字段设计与数据记录处理方面的要求
  a.允许可变长字段、可重复字段、子字段和MARC字段。
  b.数据库记录的数目与记录长度,字段数目与字段长度,字段可重复次数不应受到限制。
  c.允许建立可以快速存取的倒排文件和多媒体、多语言记录表。
  d.数据库可自动接受和产生MARC和ISO2709记录格式的文件,并且满足对MEDADATA数据模式的支持功能。
  (3) 基于WEB的多媒体信息检索与信息发布的技术要求
  随着用户对于信息需求的大量增加,以及对于多媒体信息的实效性要求,基于WEB的数据库信息存储的检索越来越倾向于多媒体全文信息检索的查询语言,并且对于检索结果的需求也侧重于多媒体全文信息的获取。与此同时,WEB数据库的信息发布形式开始更多地过渡到通过网络浏览器以多媒体电子文档的方式(B/S)传输给网上用户。也要求利用多媒体WEB传输技术,向用户提供主动的特定多媒体信息的推送服务。
      3 非结构化WEB数据库的特点及其在组织与利用多媒体信息资源中的作用
  3.1 丰富的数据类型与灵活的数据结构,满足多种类型馆藏多媒体数据结构组织
  根据非结构化多媒体数据信息的特殊性,非结构化WEB数据库在进行存储和管理多媒体信息时,整个数据库的管理机制摈弃了传统结构化关系数据库对于信息采取定长和结构化定义和管理的局限,它从多媒体数据模型入手,采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化或任意格式的字段,从而突破了关系数据库非常严格的表结构,解决了关系数据库模型过于简单,不便于表达复杂嵌套的问题。非结构化WEB数据库在数据类型上不仅支持字符型、数值型数据,而且由于具有很强的外部文件支持功能,使其可以支持如超长文本、图像、声音、动画等多种多媒体扩展数据类型。与传统关系数据库相同之处是非结构化WEB数据库的数据结构也是建立在二维表的基础之上的,但它与关系数据库不同的是:(1)非结构化WEB数据库二维表的属性长度是不可变的,在列的维度上可以随意扩展,这就能较好地满足多媒体数据处理时,需要灵活的可变长字段的要求。(2)非结构化WEB数据库由于支持重复字段、子字段,使其可以在数据库记录中实现二维嵌套,解决了非结构化多媒体数据结构复杂、可能存在重复字段和多个嵌套子字段的问题。(3)非结构化WEB数据库一个字段可以存放关系数据库的一张表,它可以在一张表中压缩关系数据库中一对多的关系,因此利用非结构化WEB数据库能很好地实现多种多媒体数据库的集中组织与管理。