数据挖掘所需中文分词系统词表

用了近三个月的时间,将内部CMS进行数据挖掘所需的一个关键词表基本完善了。电脑对中文数据进行挖掘的前提就是可以实现对目标进行分词处理,无论是庖丁解牛分词系统还是海量分词系统,分词最准确、最简单的办法就是基于字符串匹配的机械分词法,即建立完善的词表。

值得庆幸的是,词表不是词典,比如做一个施工工程资质的词表,所需的词汇量也只有四五千而已;但毕竟是一个人做,还有很多别的事情,做了三个月也不奇怪了…

机械分词不涉及机器对词的理解,所以也没有歧义识别的问题,但将所有基础词找全也并非易事。主要体会有两点:

1、中文词句的博大精深对词表的影响:

明明有国家规范,但不同的公司有不同的说法。如施工资质“房屋建筑工程施工总承包一级”,分词后是“房屋、建筑、工程、施工、总承包、一级”,将这6个词汇排列组合后有多少种说法?这还不算,因为这些词之间可能还夹杂着很多干扰词,如果都列出来,可能是个天文数字了;还好,中文还是有点规范的,并不是所有的情况都会有人用;对于特殊表达的基础词,我也并非都要整理出来,否则这近百个标注词的词表,我估计可以做一年了;

2、我们需要人工智能:

机器并不能理解人的想法,所以我们需要使用机器的语言告诉电脑我们想做什么,所以有了电脑。但即便在电脑如此发达的今天,我仍然认为电脑是十分愚蠢的。在机械分词中,要求词表完全准确,这样才能保证基础词输出为标准词,哪怕多个标点,多个空格,电脑就无法识别了。你可以反驳我,可以添加规则啊?没错,问题是我们需要对全文分词处理,而非一句话,标点符合对于某些句子而言也是规则。不可能为了满足一个词表的要求,就不考虑其他规则,因为往往这是冲突的。如果机器变得智能了,问题就解决了。我有哥们在从事这方面的研究,希望不远的未来,人工智能能知道我想要什么并作出正确的事情,而非仅仅停留在科幻电影里;

中文分词跟我们的生活也是密切相关的,无论是去图书馆查书,还是使用搜索引擎;我也相信,不管是网易、新浪这些门户,还是阿里巴巴、慧聪这些电子商务网站,他们的编辑都会跟CMS中的分词系统打交道。而“百度更懂中文”的口号,其实就是基于百度的中文分词比google好罢了,究竟真的好,还是个噱头,我就不得而知了。

分享到:
  1. 准备投入这块,可只是入门菜鸟,还想请教博主应该从哪着手?谢谢:)