这种搜索引擎的检索服务为用户提供丰富的功能,除了支持标准搜索引擎所提供的全文检索之外, 还支持多种特征检索,比如按发布日期检索、按关键词检索、按标题检索、按URL名称检索等,支持拼音检索、相关短语检索、扩展检索、相似性检索等智能功能。并且,对于检索结果还支持多种排序操作和自动聚类功能。
卓想技术提供的搜索引擎由三部分构成:信息采集、信息加工、信息存储和检索。网络信息或者企业内部非结构化信息的采集工作由网络采集机器人担任,并由全文数据库服务器提供海量信息的分布存储和即时索引,并提供全文检索和多种特征检索功能,和多种输出结果处理功能。
◆ 强大异构资源整合搜索,全面的信息搜索应用
该搜索引擎不但能搜索网页内容,而且能搜索各种RDBMS、文件系统,以及散布在企业各个角落的邮件、图片等非结构化数据,从而提供更加全面的信息搜索应用。
◆ 支持并发搜索和分布式集群采集技术,效率高
搜索引擎机器人采用多线程并发搜索技术,可以根据实际情况动态调节线程数目,实现多线程并发搜索。同时,可以设置多个机器人协同工作,共同完成信息采集任务,实现信息的分布式采集,从而提高采集效率,缩短采集时间。
◆ 支持多种采集策略和高效的更新策略,保证信息的准确性和实效性
支持包括广度优先,深度优先在内的多种采集策略;提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源,保证信息的实效性。
◆ 多种配置功能,满足用户个性化需求
允许用户进行多种配置,具体包括:采集时间配置(任务开始时间,监控周期等)、信息采集的资源类型配置(HTML文件,图片文件,各种格式化文档或者各种多媒体文件)、信息采集的网址范围配置(在限定的站点,限定的域,或无限制扩展搜索)、信息采集的数量配置(每个站点采集的资源数目,层次数)等,从而满足不同用户的不同需求。
◆ 自动内码转换和垃圾信息过滤
系统BIG5内码网页和Unicode内码网页自动转换为GBK后,进行统一管理和存储。系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
◆ 智能化自动分类
采用基于内容的自动分类技术,可对采集的网页进行基于内容的自动分类,不需人工干预。自动分类的准确率基本可以满足信息粗加工或大多数应用的实用要求。同时系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求。
◆ 基于内容相似度计算的自动排重
卓想技术采用的排重技术,不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。同时用户可以根据具体需求调整相似阀值,实现个性化排重目标。被排除的重复网页不会被清除,可以作为主体网页的相似或者推荐网页进行显示,提供给信息用户参考。
◆ 强大的非结构化数据管理功能
系统支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS、MARC等多种格式文件的存储、索引和检索。支持多媒体数据的存储管理,支持多语种、多编码管理。实现了高效的数据和索引压缩,超低空间膨胀。
◆ 支持海量信息处理的分布式体系架构
分布式体系结构,可以建立多个全文数据库服务器的集群结构,并在应用层实现透明访问,这些全文数据库服务器的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
◆ 集成先进的中文自然语言处理技术,提高查全率和查准率
词典辅助:系统内置分词词典、主题词表等,且这些词典可维护;根据统计建立了大量歧义排除规则,有效提高了分词准确性;
扩展检索:可以根据主题词典进行扩展和相关检索,包括主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角自动扩展检索等;
智能检索:通过智能信息处理技术,可以支持拼音/同音检索、相关短语检索和相似性检索等功能。