租户个性化定制和元数据驱动技术，元数据驱动

文章由LinuxBoy分享于2019-03-27 04:03:56热评（91）

租户个性化定制和元数据驱动技术，元数据驱动

随着一些SaaS软件逐渐被越来越多的租户使用，租户的个性化定制需求逐渐成为一个SaaS软件实用性和适用性的一个困难。不同租户的需求几乎都是有差异的，每个租户要求定制化他们的应用也是很自然的。传统的SaaS软件模式，无法做到很好的应用隔离，同时由于大多采用传统的二进制代码开发维护方式，也使得个性化定制的支持随着客户定制量的增加会变成一个天文数字的工作量，也使得最终无法支持租户的个性化定制。因而现在SaaS软件面对个性化定制的对策是不支持租户个性化定制或收取昂贵的个性化定制费用，这些都成了SaaS推广使用和快速发展的壁垒。

元数据驱动技术核心思想主要是通过一个通用的解析执行引擎，解析预先定义的软件系统的元数据并执行，最终形成所需要开发的软件系统的技术。可以看出，元数据驱动技术的使用使得软件开发过程从传统的代码开发过程转为元数据的定义过程。

元数据（metadata）即描述数据的数据(data aboutdata)，软件系统的每个部分包括用户界面、业务逻辑、数据访问、工作流控制、业务权限、报表展示等我们都认为是数据（data），通过抽象分析这些数据，得到一套通用的软件系统的模型，描述一个软件系统的过程就成为元数据定义的过程。

元数据的定义开发环境可以采用B/S模式在线模式，通过采用在线配置取代传统手工代码编写的软件开发模式，能够实现软件的在线开发和实时发布，在保证系统稳定性和灵活性的基础上极大提高了应用软件的开发效率。

EEPlat PaaS平台采用了元数据驱动的核心思想，因而应用的个性化定制其实就是租户元数据的个性化定制，通过EEPlat的后台配置环境，元数据个性化的定制工作，只需要点点鼠标就完成，相比传统二进制开发的模式，可以说是一个革命性的颠覆性的创新性变革。

EEPlat PaaS平台在每个租户的元数据（租户相关模型）和每个租户的业务数据之间都有一个明确的隔离。这些明显的边界使我们可以安全得定制或修改某一个租户的应用而不会影响其它租户。

基于EEPlat PaaS平台开发自己的SaaS应用，先天性的支持租户的个性化定制，同时具备快速开发部署发布的特性，在面对个性化定制的需求，给SaaS厂商提供了更多的应付手段。

~追加100分帮我完成这些简单的填空问答题

网络检索工具

基本类型大致包括五种：搜索引擎、主题目录、

检索

数据库内容或

隐蔽

网络

、元搜索引擎和门户

1搜索引擎

搜索引擎

目前

常见

网络检索工具

具有

下特点：a.利用计算机Robot程序构建

非人工选择；b.

根据主题分类进行组织

所有

网页都由计算机

运算法则排序；c.包含所链接

网页全文

通过词语匹配找

所需网页；d.容量巨大并通常能检索出许多信息

要进行复杂检索

应选择

些允许

结

进行进

步检索

搜索引擎；e.通常未经过评价

反馈结

良莠

齐

需要用户自己选择

目前互联网上

搜索引擎数量众多

笔者仅选择其

著名

几种向读者推荐

并进行横向比较

Google具有世界上

大

网页数据库之

包括许多其

网络文件（例

PDF, Word或Excel文件

Powerpoint）

尽管Blog和Newgroups存

许多广告和混乱

Google

流行评级使值得

看

网页出现

搜索结

前部

Google并

包含所有网页

检索

网页

半

数量

Google

完全检索

交叉研究表明

任何搜索引擎数据库

网页

大约

半只存

于

数据库

因此获得第二种意见或建议通常

有价值

对于

何获得第二种意见

推荐使用Teoma,和Vivisimo(直接搜索三大搜索引擎数据库

元搜索引擎), 或Yahoo!Search

2主题目录
主题目录特点：
●人工选择建立——

计算机或Robot程序
●主题目录形式

每页都按照主题分类进行组织——根据每

主题目录

范围

主题并

标准

并处于变化之

●从

包括所链接

网页全文——

只能搜索

些

看

东西（题目

描述

主题目录等）
●较小并且专业

比搜索引擎

内容少

●通常经过仔细评价和注释（并

定总

）

3

检索

数据库内容或

隐蔽网

隐蔽

网络

指搜索引擎找

并且

少包括

主题目录

网页

见网

则指

利用

些工具

看见

隐蔽网

包括

网页

见网

两

三倍

隐蔽网

词

早

由吉尔.埃尔斯沃思博士（Dr. Jill Ellsworth）于1994年提出来

会存

隐蔽网

www网上有许多专业

检索数据库

从网页上

检索框进入

例

UCB图书馆

目录pathfinder

或其

图书馆目录；或

些网上

检索

统计数据库

检索

所使用

词语被送

专业

数据库

并

另

网页返回动态产生

结

检索

该结

自动删除

再保存

搜索引擎

能获取

些动态产生

网页

因

计算机

Robots或Spiders

能自己键入产生

些网页

检索式

Spider通过访问

们所知道

网页上

所有链接来发现网页

除非某

地方存

能被Spiders用来重新进行专业数据库检索

链接

数据库

内容对于搜索引擎来说

及

需要密码

网页对搜索引擎也

关闭

因

Spider

能打字

（还有

些其

类型

搜索引擎无法包括

网页

例

某些文件格式：flash

流媒体文件；实时数据；股票价格；天气预报等）

少包括

些网页

内容

因

由人工建立

（

打字）

对目录来说并

存

能包括

些链接

理由

点击

些链接

会

每次点击时所动态产生

数据库

进行检索

推荐利用

下两

网站来查找网络上

检索

数据库内容或

隐蔽网

：
●The Invisible Web Directory （www.invisible-web.net）：由Gary Price和 Chris Sherman建立

经所收录

隐蔽网页进行整理

主题目录

形式提供

● Direct Search （www.freepint.com/gary/direct.htm）：罗列并描述了许多学术主题

检索数据库

由学术研究馆员Gary Price创建

4元搜索引擎
元搜索引擎目前还难有

明确

定义

其工作原理

描述

：

元搜索引擎

检索框

输入关键词

元搜索引擎会

检索信息同时传递

多

搜索引擎和

们

网页数据库

进行结

查找

几秒钟

各

数据库

结

集

提供给检索者

显

原搜索引擎并

拥有自己

网页数据库

有些元搜索引擎提供有价值

限定条件

例

限制检索

能力

定制对哪些搜索引擎或目录进行检索

花

每

工具上

时间等

种限制类似

站式

采购

观念

具吸引力；

实施

结

限制了

决定

哪里

采购

能力

些元搜索引擎

快

彻底

多数漏掉了Google(

好

搜索引擎)

也经常漏掉Northern Light(对学术研究非常有帮助)

并且

能利用每

搜索引擎

高级特点

而且

何传送复杂检索方面也

预测

通常

预先

会知道

们会搜索出

样

结

有些元搜索引擎需要下载安装

多数

需要

款理想

元搜索引擎应该具备

下特点和功能：第

含盖较多

搜索资源

随意选择和调用元搜索引擎；其次

具备尽

能多

选择功能

资源类型（网站、网页、新闻、软件、FTP、MP3、图像等）选择、返回结

数量控制、结

时段选择、过滤功能选择等；第三

强大

检索请求处理功能（

支持逻辑匹配检索、短语检索、自

语言检索等）和

同搜索引擎间检索语法规则、字符

转换功能（

对

支持

NEAR

算符

搜索引擎

自动实现由

NEAR

向

AND

算符

转换等）；第四

详尽全面

检索结

信息描述（

网页名称、URL、文摘、源搜索引擎、结

与用户检索需求

帮帮我啊!~~~

　　internet技术与应用

　　基于Internet

信息资源发现技术与实现

　　王继成邹涛杨小江潘金贵张福炎

　　摘要：Internet上大量、异质、分布、动态

信息造成了

信息过载

信息充斥

情况下

何有效地

用户提供基于Internet

资源发现服务已经成

项重要而迫切

研究课题.搜索引擎部分地解决了资源发现

问题

而其效

却远

能使人满意.文

首先提出了分布协作式资源发现策略

讨论了资源发现服务

所涉及

几项关键技术

包括：多维文档立方体数据模型、Web文档检索、基于Z39.50

书目检索

及基于Agent

用户接口等

并给出了相应

解决方案.

此基础上

文

构造了

系统原型RDSCC

有效地提高Internet上资源发现

质量.
　　关键词；资源发现

多维文档立方体

Web

Z39.50

Agent
　　

图法分类号：TP391； TP393

　　THE TECHNOLOGY AND IMPLEMENTATION OF RESOURCE
　　DISCOVERY ON INTERNET

　　WANG Ji-Cheng, ZOU Tao, YANG Xiao-Jiang, PAN Jin-Gui, and ZHANG Fu-Yan
　　(State Key Laboratory for Novell Software Technology, Nanjing University, Nanjing 210093)
　　(Department of Computer Science and Technology, Nanjing University, Nanjing 210093)

　　Abstract A mass of heterogeneous, distributed

and dynamic information on Internet has resulted in

information overload

. With the flood of information, it has become an important research issue to provide users with effective service of resource discovery on Internet. Search engines attempt to solve this problem, yet their effect are far from satisfying. In this paper, a distributed cooperative strategy for resource discovery on Internet is firstly presented. Then, several key technologies involved in resource discovery are studied, including data model, Web document retrieval, bibliographic retrieval based on Z39.50, and agent-based user interface. Finally, a system prototype RDSCC is designed to improve the quality of resource discovery on Internet.
　　Key words resource discovery, multi-dimension document cube, Web, Z39.50, agent

　　1 引言

　　人们已经进入信息极大丰富

时代.

方面

信息来源广泛

包括Web文档、图书文献

数字化资料等

些异构

信息分布

Internet空间

；另

方面

信息量巨大.

Web文档

例

目前已经拥有3亿页面

而且

数字仍

每4至6

月翻

倍

速度增加〔1〕.面对信息

海洋

人们觉得力

从心

往往花费了

多时间却所获甚少.

种情况下

何有效地提供基于Internet

资源发现服务

帮助用户从大量信息资源

集合

找

与给定

查询请求相关

、恰当数目

资源子集

也

成

项重要而迫切

研究课题.
　　传统

搜索引擎

例

AltaVista

Yahoo等

试图解决Internet上

资源发现问题.

从资源覆盖度、检索精度、检索结

视化、

维护性等诸多方面来看

其效

远

能够令人满意.此外

搜索引擎仅提供对Web文档

检索

缺乏对书目文献等其

重要信息资源

支持.

本文

我们针对Internet资源发现

现状

提出了分布协作式资源发现策略

同时

讨论了资源发现服务

所涉及

几项关键技术

其

包括：多维文档立方体数据模型、Web文档检索、基于Z39.50

书目检索

及基于Agent

用户接口等.

此基础上

我们设计了

系统原型RDSCC

有效地提高Internet上资源发现

质量.

　　2 资源发现

分布协作策略

　　我们注意

搜索引擎采用

典型

集

方式

们试图遍历整

Web

对其上所有

文档生成索引

供用户检索.

种集

方式给Web文档检索带来了

些严重

弊端

主要表现

：①覆盖度有限

据估计

任何

搜索引擎索引

Web页面都

页面总数

三分之

〔2〕；②维护困难

搜索引擎索引数据库

更新频率有限

往往会产生索引失效〔3〕；③消耗太大

包括网络带宽、搜索引擎自身昂贵

硬件设施等.元搜索引擎

例

MetaCrawler

通过综合多

搜索引擎

结

定程度上扩大了覆盖度.

元搜索引擎对搜索引擎

依赖

使

无法从根本上解决上述问题.随着信息资源

种类和数量

急剧增长

集

方式使得上述弊端更

恶化.

方面

需要管理

信息资源极其巨大

任何

集

式资源发现系统都无法完全满足需求；另

方面

各

集

式资源发现系统各行其

重复建设.因此

我们认

Internet上

资源发现应该采取分布协作

策略.
　　资源发现

分布协作策略

指按照某种原则对Internet上

信息资源空间进行划分

得

若干

信息资源子空间.对于每

子空间

分别建立

资源发现系统

提供相应

资源发现服务.目前

分布计算

及多Agent系统等领域

研究已经取得了丰硕

成

用于集成

些自制、异构

资源发现系统

从而构成Internet上

协作检索群体.信息资源空间

划分原则

按照学科领域

也

按照地理区域等.例

我们

各种

同专业

科研人员建立专业领域资源发现系统.用户

根据自己

需要向相应

系统提出请求.采用分布协作

资源发现策略

各

资源发现系统所要管理

信息资源相对缩小

降低消耗

便于维护；同时

各系统之间通过相互协作

扩大了覆盖度.

见

种策略

有效地克服集

方式

足

提高资源发现服务

质量.

　　3 资源发现服务

关键技术

　　资源发现系统

开发

涉及多领域、多技术

复杂工作.其

数据模型

系统

核心

Web文档和书目数据

系统

两

重要信息来源

而用户接口

好坏直接决定了系统

使用效率.下面

我们对

几项关键技术分别加

讨论

给出相应解决方案.
　　3.1 数据模型
　　

管理信息资源而言

数据库优于平面式文件系统.因此

资源发现系统通常采用文档数据库来存储异构

信息资源.文档数据库

内部实现

般采用半结构化

逻辑模型

而其外部表现

即反映给用户

视图

则构成了资源发现系统

概念模型.例

搜索引擎返回给用户

通常

顺序固定

线性列表

其

包含了Web文档

标题、URL和摘要.

种概念模型

用户必须逐

地浏览

找

相关性.
　　3.3 基于Z39.50

书目信息检索
　　图书文献

人们获取信息

另

重要来源

因此联机书目检索

资源发现系统

重要组成部分.图书馆

联机书目检索服务传统上

通过Telnet方式提供

.近年来

许多图书馆采用Web加CGI

形式

书目检索提供图形化界面.

些服务方式

重要缺陷

于各

图书馆

书目检索界面

致

用户要检索每

图书馆

必须熟悉相应

界面.

此

ISO制定了Z39.50协议

作

检索远程图书馆书目

标准〔7〕.Z39.50

运行

TCP/IP协议之上

应用层协议.

规定了客户机查询服务器

及提取结

记录等过程

所涉及

数据结构和数据交换规则

从而解决了现存书目数据库检索接口

异构性问题.目前

该标准已经被国外许多图书馆所采纳

国内尚未有

家图书馆提供基于Z39.50

书目检索服务.我们设计了

基于Z39.50

联机书目检索模型

并

此基础上成功地开发出国内第

套基于Z39.50

书目信息检索系统〔8〕

图3所示.

　　图3 基于Z39.50

书目信息检索模型

　　

该模型

图书馆

书目存放

数据库服务器

或几

书目数据库

.Z39.50服务器

约定端口上侦听用户

连接请求（InitRequest）.

成功地建立连接

Z39.50客户发出查询请求（SearchRequest）

Z39.50服务器

接收

抽象

Z39.50标准查询转换

具体

SQL查询

提交给

台数据库服务器执行

生成查询结

集.

Z39.50服务器

查询

执行情况

及部分结

返回.Z39.50客户

多次发出提取请求（PresentRequest）来获得结

集

所有书目数据.

了使

Z39.50客户能够同时查询多

图书馆

书目

我们

客户端采用多进程（多线程）

和多

服务器并发地建立连接

并对查询结

进行

处理

包括综合各进程

查询结

、消去其

重复出现

书目等.
　　3.4 基于Agent

用户接口
　　

资源发现系统

用户接口

用户与信息资源之间起着桥梁作用.由于信息资源

大容量、动态性和复杂性

传统

人机交互方式显得无能

力.基于Agent

用户接口被认

解决人机交互问题

突破口〔9〕.目前

Agent技术

研究虽

十分流行

对于其定义和特征还没有统

结论.我们从软件抽象

角度出发

给出

下定义.
　　定义3. Agent

种抽象手段

既

用来描述复杂系统又能够描述系统与用户之间

交互.
　　定义4. 用户接口Agent

用户

与计算机系统接口时使用

种形象化抽象

简要地表示

四元组(Task, Knowledge, Constrain, Status).其

Knowledge

知识库

保存从外界学习

知识

例

用户

信息需求和爱好等；Constrain

约束条件集合

例

用户对Agent运行时间作出

限制等；Status

Agent运行状态

集合；Task

任务求解模块

知识库、约束集、状态集

基础上运用推理规则处理事件及完成任务.
　　

用户看来

用户接口Agent

半自主

应用程序.

方面

拥有知识

了解用户

需求和爱好

能够代表用户智能地完成某

任务

并具有学习和适应能力；另

方面

受用户

控制.用户

观察

活动状态

也

临时性地暂停或恢复其活动

甚至

永久性地撤销.用户接口Agent

资源发现系统

执行

任务

多种多样

.当系统

增添了用户感兴趣

信息资源时

Agent

通知用户. Agent也

根据用户

需求或偏爱对信息资源进行过滤

建立

性化

界面.

见

基于Agent

用户接口

用户与复杂、动态

信息世界进行交互提供了重要手段.

　　4 基于Internet

资源发现系统原型

　　

上述讨论

基础之上

我们开发了

资源发现系统原型RDSCC（resource discovery system for computer community）. RDSCC

面向计算机学科领域

专业资源发现系统

其目

该领域

研究人员提供Internet资源发现服务

掌握本专业

全面、

新信息.该系统结构

图4所示.

　　图4 Internet资源发现系统原型RDSCC

　　RDSCC由8

模块组成.其

文档数据库系统负责管理半结构化文档资源.

了提高易用性

我们采用Web服务器来向用户提供资源发现服务.转换器作

Web服务器和文档数据库系统

介

文档数据库

内容转换成HTML格式

也

把用户输入转换成对文档数据库系统

操作.Web文档收集与分类器下载符合用户信息需求

有关计算机方面

Web文档并进行自动分类.元数据抽取器从已分类文档

抽取文档元数据

导入器

文档和元数据存储

Web文档库

并建立索引.Z39.50网关提供基于Z39.50

书目检索服务

依据用户通过HTML表单提交

查询请求（包括查询哪些图书馆

及何种计算机书目）

同时查询多

图书馆

Z39.50服务器.
　　用户利用浏览器

进行各种多维文档分析操作

从多

角度来阅读和检索文档库

内容.系统还利用Agnet技术

用户提供了配置（profile）机制

用户

订阅文档

定制浏览界面.

　　5 结束语

　　

信息充斥

情况下

基于Internet

资源发现服务

具有极大潜力

研究方向

用户

从分布

同资源发现系统

获取所需

信息资源.本文提出了分布协作式资源发现策略

对资源发现系统开发

所涉及

数据模型、Web文档检索、书目检索

及用户接口等关键技术作了研究

并简要介绍了

网络信息服务系统原型RDSCC.

该领域仍有许多问题值得深入探讨

包括：

DCOM/CORBA计算环境上实现多

资源发现服务器之间

分布协作；利用HTML、XML等规范从Web文档

抽取元数据等等

些都

我们下

步要进行

工作.

　　*本课题得

江苏省

九五

科技重点攻关项目（项目编号BE96017）和江苏省教委图书馆自动化项目资助.
　　作者简介：王继成

男

1973年6月生

博士研究生

主要研究方向

计算机网络、信息处理.
　　邹涛

男

1970年11月生

博士研究生

主要研究方向

计算机网络、信息处理.
　　杨小江

男

1965年6月生

博士研究生

主要研究方向

超媒体、信息处理.
　　潘金贵

男

1952年1月生

教授

主要研究方向

间件、Agent技术.
　　张福炎

男

1939年11月生

教授

博士生导师

主要研究方向

多媒体、CAD与图形学、信息处理.
　　作者单位：南京大学软件新技术国家重点实验室计算机科学与技术系南京 210093

　　参考文献
　　1 Gudivada V N et al. Information retrieval on the world wide web. IEEE Internet Computing, 1997, 1(5): 58～68
　　2 Lawrence S, Giles C L. Searching the world wide web. Science, 1998, 280(5360): 98～100
　　3 Lawrence S, Giles C L. Context and page analysis for improved web search. IEEE Internet Computing, 1998, 2(4): 38～46
　　4 王珊等. 数据仓库技术与联机分析处理. 北京:科学出版社, 1998
　　(Wang Shan et al. The Technology of Data Warehouse and OLAP(in Chinese). Beijing: Science Press, 1998)
　　5 Salton G et al. A vector space model for automatic indexing. Communications of ACM, 18(5): 613～620
　　6 邹涛, 王继成, 张福炎等. 基于Web

资料搜集系统

设计与实现. 情报学报, 18(3): 195～201
　　(Zou Tao, Wang Jicheng, Zhang Fuyan et al. The design and implementation of an information gathering system. Journal of the China Society for Scientific and Technical Information(in Chinese), 18(3): 195～201
　　7 ANSI. Information Retrieval(Z39.50): Application Service Definition and Protocol Specification. ANSI/NISO Z39.50-1995. Bethesda, MD: NISO Press, 1995
　　8 杨晓江, 张福炎等. 利用Z39.50提供联机书目检索服务. 软件学报, 10(8): 824～828
　　(Yang Xiaojiang et al. Bibliographic retrieval based on Z39.50. Journal of Software(in Chinese), 10(8): 824～828)
　　9 Baecker R et al. Readings in Human-Computer Interaction: Towards the Year 2000. Morgan Kaufmann Publishers, 1995

推荐文章：

租户个性化定制和元数据驱动技术，元数据驱动