产品中心
您所在位置:首页产品中心 智能信息处理
智能信息处理
    近年来,随着Internet大规模普及和企业信息化程度提高,有越来越多的信息积累,而需要信息的人还没有特别方便的工具从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识。
    卓想技术开发的智能信息处理系统通过信息智能过滤和分析的文本挖掘技术,实现自动分类、摘要、排重、聚类、敏感词过滤分析等功能,从而解决上述问题。该产品的主要功能是为中文文本挖掘应用提供强有力的开发接口,它集成了文本分类、文本相似性检索、文本摘要、文本信息过滤、拼音检索、相关短语检索、常识校对、文本聚类、文本分词等文本处理系统。
  •     1、文本分类
    文本分类是指计算机根据文献内容进行类别划分的功能,卓想技术的文本分类系统支持两种分类方法:基于统计原理的自动分类和基于语义规则的规则分类。用户可以根据具体需求选择一种或者两种结合的方式进行自动分类支持。
    该文本分类系统支持多种分类标准和分类体系,支持多级分类和类别复分,支持中英文分类和中英文混合分类,并且可根据用户需求扩展到其他语种。该功能可以广泛应用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等处。
  •     2、相似性检索
    相似性检索是指对于给定样本文献,在文献数据集合中查找出与之内容相似的文献的技术。利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。
    另外,相似性检索还支持用户根据个性化需求设定相似度阈值和检索结果集大小,从而达到预期的相似性检索、内容排重目标。该系统支持中英文文本的相似性检索,并可以根据用户的需求扩展到其他语种,可广泛应用于稿件查重、版权保护等诸多领域。
  •     3、自动聚类
    这是一种基于相似性算法的自动聚类技术。根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词。系统聚类速度快、精度高,支持中英文聚类,并可根据用户需求扩展到其他语种。该技术可应用于可视化文献分析等诸多领域。
  •     4、自动摘要
    该技术采用统计技术设计,自动提取文本的主题,生成文章摘要,为用户快速预览文章内容提供快捷的方式,同时用户可根据需求调整自动摘要的长度,可应用于新闻采编、搜索引擎等诸多领域。该技术还支持中英文文本的自动摘要,并可根据用户需求扩展到其他语种。
  •     5、自动分词
    自动分词技术将规则与统计相结合,内嵌分词歧义规则库,有效解决大部分的切分歧义,准确识别人名、地名、组织机构名等信息,并提供词性标注功能,可应用于文献检索、搜索引擎等诸多领域。
  •     6、拼音检索
    拼音检索是基于统计的汉字注音技术和多音排歧技术。通过超大的拼音词典支持,支持同音检索、全拼检索和简拼检索,支持拼音输入校正。可以用于信息检索、搜索引擎等系统,向用户提供同音查询建议,帮助用户更好地进行检索。
  •     7、相关短语检索
    基于人工整理和数据挖掘方法结合的相关短语技术。根据语义信息、短语结构、短语词典等计算短语之间的相关关系,获取相关短语。可以用于信息检索、搜索引擎等系统,向用户提供短语查询建议,帮助用户更好地进行检索。
  •     8、自动过滤
    以统计和机器学习作为基准,该文本信息过滤系统的主要功能是有效地识别和过滤各种有害文本信息,帮助用户摆脱有害信息的侵扰。可应用于互联网络信息过滤、垃圾邮件过滤、政治敏感词过滤等内容安全领域。
  •     9、常识校对
    这是基于语义的校对技术,可以校对党和政府的领导人名字、党和政府领导人的称谓、党和政府领导人的排序以及政治术语不当引用,可应用于稿件校对审查等方面。