• 互联网上的信息急剧膨胀,在这DOWNET的信息中,各类信息混杂在一...
  • 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等...
  • 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立...
      

什么是中文分词:
    互联网上的信息急剧膨胀,在这DOWNET的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致信息结果不可用,例如:“制造业和服务业是两个不同的行业”和“我们生产和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到,在信息量少的情况下,似乎还能够忍受,如果是DOWNET信息,这样的结果就会出现与“制造业和服务业“不符的信息,令人厌恶。
    通过引入分词技术,就可以使机器对DOWNET信息的整理更准确更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。

用途:
    主要针对搜索的内容进行分析,简单的说,就是让机器“能看会想,能听会讲”。 要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。
    中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。搜索引擎最重要的并不是找到所有结果,因为上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。从实际情况来看,分词已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要运用分词,所以中文分词对我们来说意义重大,可以说直接影响到使用中文的每一个人的方方面面。

应用前景:
作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词功能中间件有着广泛的应用前景。主要应用领域如下:
    1 信息检索:如全文检索、主题检索
    2 汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换
    3 语音处理:如语音合成、语音识别
    4 内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘
    5 自然语言理解:如机器翻译、自然语言接口

中文分词中间件特色功能:
    1 识别率接近95%。
    2 多元歧义自动识别。对于前后歧义有较好的识别效果。
      如: 长春市长春节致词 -- 长春/市长/春节/致词/
      长春市长春药店 -- 长春市/长春/药店

    3 常用及敏感词过滤功能。
      通过一个简单的属性设置就可以完成针对常用词、标点和敏感词汇的过滤。系统内置了常用无意字词和标点的过滤。当然针对
    文章等分词时可以屏蔽过滤功能。
    4 控制符过滤功能。
      可以设置属性值,在分词结果中保留回车换行等控制字符,从而保留原来的显示结构。
    5 内置30万多条基本词库。
      系统内置包含10万多条优选词汇的基本词库,并提供编程接口任意扩充。
    6 全角字符识别能力。
      如:IBM和HP都是世界级的PC制造商。-- IBM/和/HP/都/是/世界级/的/PC/制造商/。

Downet产品的优势及产品demo演示:
    1 人员优势:
       该技术是在由互联易通副总裁兼技术总监陈永斌先生带领下的20多名技术精英团队历经3年多的实践开发形成的,陈永斌先
   生毕业于清华大学软件工程专业毕业,曾在搜狐公司担任搜索引擎开发的负责人,积累了大量搜索引擎开发及分词和全文检索方面
   的技术,此前还在联想软件中心、ulead北京研发中心等知名公司担任相关技术的研发负责人。该产品已应用在北京市公安局交通管
   理局奥运网站、搜职网、中国采购与招标网、德润生集团等多个大型网站。
    2 算法优势:
       在对中文分词简单实现的过程中考虑到对于新词如人名、地名、专业术语进行区分,采用的方法是除去词库中已经存在的词
   那么剩余下的单个汉字排除常用的单字后组合为新词,例如“北京福娃是奥运会吉祥物”作为有一个新词的短语,在现有的算法下
   会分为“北京 福 娃 是 奥运会 吉祥物”六个词,待用的算法将分词后的词集合进行对比,会发现“福 娃”是极少作为单字出现
   故组合成新词“福娃”,而“是”作为汉语中常用单字词将区分开,最终这句话就分为“北京 福娃 是 奥运会 吉祥物”,无疑改
   进后的算法仍有不足
,但对于新词的识别准确率会提高很多。

     3 点击进入          点击进入  

联系电话:(8610)88437103    E-mail: