在更广泛的XML词汇表中重用元数据
Dublin Core Metadata Initiative(Dublin核心元数据计划,DCMI)是用于处理关于文档信息的标准词汇表。总的来说,DCMI词汇表定义描述文档用途、上下文和出处(而非文本自身)的术语层次系统。David说明了如何将DCMI提供的一组元数据指令重用于(通过名称空间)范围更广的XML词汇表,比如RSS的变体。DCMI吸收了多种的不同的标准,包括ISO标准和NISO标准。
我首先要警告的是:Dublin核心元数据计划 实际上对XML没有做什么。实际上,DCMI最广泛的应用可能是在名称空间增强的XML文档中,但是一般来说(或者专门就这一组元素而言),元数据完全没有要求底层的数据采用XML编码。相反,DCMI是一种通用的框架,描述关于各种类型文档的有用信息集。使用DCMI描述的某个文档可以使用XML编码,也可以使用其他多数电子或者物理格式,其主题可以是人类创造的任何成果。 DCMI是一种谈论文档的词汇表,其术语的含义和用法有定义良好(相对而言)的语法。DCMI中的术语被划分成最小化的基本元素集和对这些基本元素细化的可选集。 DCMI的主要好处是标准化了元数据术语的拼写方式和这些术语的值的格式。比方说,可以用“作者”、“艺术家”、“创作者”、“制造者”或者“创建者”这些近义词来标识一部著作,DCMI标准化了该角色的名称,“创建者(creator)”,以便能够用一致的方法来比较作者可能相同的文档。自然,可能成为创建者的人或者组织的名称可以是各种各样的,比较不同的创建者时,DCMI应用程序可能希望在DCMI推荐标准的规定之外进一步标准化姓名的格式(比如“名,姓”)。 除了标准化元数据术语之外,DCMI还提供了根据枚举或者模式规范选择值的建议。比方说,“date”一词显然是可供选择的元数据术语,但是日期有不同的格式。DCMI建议采用W3C Date and Time Formats说明所规定的ISO 8601子集表示日期值。在其他一些方面,如“coverage”(定义为“资源内容的区域或范围”),DCMI建议采用Thesaurus of Geographic Names中的枚举名称(庞大但是有限)。 描述文本 作为具体使用DCMI元数据的一个例子,可以看一看文档“DCMI Metadata Terms”,大概是按照DCMI的原理精心设计的一个实例。顺便说一下,DCMI词汇表术语是大小写不敏感的,因为常常被用于大小写不敏感的上下文,如HTML(即XHTML的前身)。 “DCMI Metadata Terms”文档以几种不同的方式编码元数据,至少包括HTML版本。这种冗余性很有意义,因为它说明了DCMT应用中可能遇到的三种最重要的编码风格: ·无格式文本 ·HTML中的元标签 ·RDF中的元数据 无格式文本 第一种风格可以称为文档元数据的 无格式文本编码。在线版本中,下面的信息放在一个HTML表格中,并以不同的背景颜色表示,但是如果打印成一本书或者印成封面(或者像下面这样格式化)就没有明显的效果了。具体而言,使用DCMT的非电子版材料必须使用类似下面这样的格式: DCMI元数据术语 创建者:DCMI应用公告板 标识符:http://dublincore.org/documents/2004/06/14/dcmi-terms/ 发表日期:2004-06-14 最新版本:http://dublincore.org/documents/dcmi-terms/ 替换:http://dublincore.org/documents/2003/11/19/dcmi-terms/ 翻译:http://dublincore.org/resources/translations/ 文档状态:这是一份DCMI推荐标准。 说明:该文档是Dublin核心元数据计划所维护的元数据术语的更新规范,包括元素、元素细化、编码方案和词汇表术语(DCMI Type Vocabulary)。 有效期:2004-06-14 每个斜体字段名称都是关于所依附的文档的元数据,虽然这里没有列出整个文档,但是要注意 标识符(Identifier)字段是一个URI,如果可用的话就可以定位相关的文档。 无格式文本头部中给出的几个元数据字段,Creator、 Identifier和Description属于DCMI的15种基本元素。其他字段Replaces、Date Issued和Date Valid是元素的细化,一般而言就是说这些元素继承自基本元素(但不是字面意义上的OOP风格的继承)。但其他的字段似乎并不属于DCMI,而是为这种应用自己添加的成分,其他应用如果不能识别这些字段通常可以忽略。 (编辑:ASP站长网) |