企业搜索引擎(Enterprise Search Engine,简称ESE)可以理解为“企业级”搜索引擎,其应用领域包括企业、政府、教育、科研、媒体、医疗、军队、安全部门等。企业搜索是专业搜索引擎,一方面能获取互联网的有效信息,同时又能对组织内部信息资源进行整合。
面向信息资源管理的需要,提供以非结构化数据系统为核心的信息资源管理平台,包括全文数据库系统、数据加工系统、数据库检索网关。
一、全文数据库系统
全文数据库系统的核心功能是实现对非结构化信息的全文检索和统一存储。所谓全文检索是指在海量非结构化信息中快速、准确获得用户所需的信息。
卓想技术全文数据库系统追求高查准率的同时提供100%查全的手段,输出结果可按字段值或相关度排序,以及多字段的联合排序,且支持检索结果的分类。同时,该产品实现了Native-XML数据库功能,具备强大的半结构化信息的处理和检索能力,面向互联网应用,满足电子政务、电子商务等最新需求。
- 该系统具有强大的功能,包括:
- 1、完善的非结构化数据管理
系统支持包括TEXT、HTML、RTF、OFFICE(Word/Excel/Powerpoint)、PDF等多种格式文件的存储、索引和检索;系统支持XML数据管理、实现XML的全息索引;系统支持中文、英文、法文、德文、俄文、阿拉伯文等十多种语种的存储、索引和检索;高效的数据和索引压缩,实现了超低空间膨胀。
- 2、高效、智能的全文检索
多种全文检索手段,检索速度和准确性共达最优;全方位检索条件组合,帮助用户实现精确查询;集成先进的中文自然语言处理技术,辅助检索;XML全息索引和检索;检索结果支持多种排序、命中词反显和检索结果分类统计,方便适用;多线程设计,并发访问性能高;动态索引实时更新,海量数据即时响应。
- 3、强大的企业级应用
支持集群功能,提供增强的计算能力和可扩展性;自动分库和跨库检索功能,满足企业级海量数据应用。
二、数据加工系统
数据加工系统将本地各种类型的数据加工、标引、加载到系统数据库中,优化后续的检索、发布和服务。对已进入系统数据库中的数据进行元数据加工等深层次联机加工,增强了数据加工处理能力,释放全文检索服务期的内在潜能,降低了产品实施维护成本。
同时,卓想技术提供的数据加工系统结合用户实际需求,提供集成化的文档处理数据加工功能和众多智能的、便捷的操作模式,提高了资源的加工速度,适应现代快节奏的工作模式,使用户更加得心应手。
- 1、集成平台
支持多种文件的加工,包括WORD、EXCEL、POWERPOINT、RTF、PDF、HTML、XML、TXT、音、视频等不同类型的文件进行文本抽取,并装载到相应数据库中;系统支持目录、类型等多种加载方式,而且可以一次加载多种类型,极大的方便了用户前端操作。
- 2、智能处理
系统支持元数据标准,通过标注元数据信息;完善的分类功能和分类维护、创建功能更使得分类非常灵活。
- 3、高效易用
系统配置灵活,可轻松扩展系统规模,满足用户随需应变的需要;自动分库功能对用户完全透明,标引方便;另外提供了数据上传的功能,本地文件可以放在FTP服务器上进行管理,并与相应数据库中该文件对应的记录进行关联,数据发布后可以自动生成链接。
三、数据库检索网关
数据库检索网关实现了与关系数据库的无缝集成、全文检索和事务处理的有机统一。
传统关系数据库主要面向事务处理和数值统计类型的应用,不适合非结构化数据内容的管理。传统关系数据库中管理非结构化内容,一般是将其存储在“大对象”格式字段中,但实现数据存储缺乏对存储在其中的内容进行检索和分析的功能,或者没有全文检索能力,或者有全文检索能力而实际检索效率随数据增长而急速下降,尤其对复杂的中文内容检索问题更加突出。
卓想技术提供的数据库检索网关是为实现主流关系型数据库全文检索,而推出的数据库查询加速产品,该产品全面实现了关系型数据库与全文数据库之间的数据共享以及两者之间的双向数据迁移。
通过关系数据库检索实现了全文数据库和关系数据库的无缝集成,使用户在同一个系统中既享有关系数据库优秀的事务处理和结构化数据管理功能,也拥有强大非结构化内容管理和检索功能。
系统支持Oracle、IBM DB2、SQL Server、Sybase、Informix等主流数据库,并支持每种数据库系统的多个不同主流版本。而内置的文档格式分析和过滤组件能够自动对数据库中大队向字段中存贮的格式化文档(如Word、PowerPoint、Excel、PDF等文件)进行全文检索。
另外,该系统自动化程度非常高,用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作无人监控。其优点还有数据同步一致,以保证查询结果完全准确,可视化的管理与配置工具使系统简单易用,轻松实现信息管理。