数据挖掘所需中文分词系统词表

用了近三个月的时间,将内部CMS进行数据挖掘所需的一个关键词表基本完善了。电脑对中文数据进行挖掘的前提就是可以实现对目标进行分词处理,无论是庖丁解牛分词系统还是海量分词系统,分词最准确、最简单的办法就是基于字符串匹配的机械分词法,即建立完善的词表。

值得庆幸的是,词表不是词典,比如做一个施工工程资质的词表,所需的词汇量也只有四五千而已;但毕竟是一个人做,还有很多别的事情,做了三个月也不奇怪了…

机械分词不涉及机器对词的理解,所以也没有歧义识别的问题,但将所有基础词找全也并非易事。主要体会有两点:

1、中文词句的博大精深对词表的影响:

明明有国家规范,但不同的公司有不同的说法。如施工资质“房屋建筑工程施工总承包一级”,分词后是“房屋、建筑、工程、施工、总承包、一级”,将这6个词汇排列组合后有多少种说法?这还不算,因为这些词之间可能还夹杂着很多干扰词,如果都列出来,可能是个天文数字了;还好,中文还是有点规范的,并不是所有的情况都会有人用;对于特殊表达的基础词,我也并非都要整理出来,否则这近百个标注词的词表,我估计可以做一年了;

2、我们需要人工智能:

机器并不能理解人的想法,所以我们需要使用机器的语言告诉电脑我们想做什么,所以有了电脑。但即便在电脑如此发达的今天,我仍然认为电脑是十分愚蠢的。在机械分词中,要求词表完全准确,这样才能保证基础词输出为标准词,哪怕多个标点,多个空格,电脑就无法识别了。你可以反驳我,可以添加规则啊?没错,问题是我们需要对全文分词处理,而非一句话,标点符合对于某些句子而言也是规则。不可能为了满足一个词表的要求,就不考虑其他规则,因为往往这是冲突的。如果机器变得智能了,问题就解决了。我有哥们在从事这方面的研究,希望不远的未来,人工智能能知道我想要什么并作出正确的事情,而非仅仅停留在科幻电影里;

中文分词跟我们的生活也是密切相关的,无论是去图书馆查书,还是使用搜索引擎;我也相信,不管是网易、新浪这些门户,还是阿里巴巴、慧聪这些电子商务网站,他们的编辑都会跟CMS中的分词系统打交道。而“百度更懂中文”的口号,其实就是基于百度的中文分词比google好罢了,究竟真的好,还是个噱头,我就不得而知了。

互联网初级用户带来的思考

年初的时候,UCDChina上掀起了一股“装不装用户”的话题热,当时本想凑个热闹,可总觉得拾人牙慧没什么意思,只是看了个热闹。从keso的别装了,你不是用户,到白鸦的装,是必须的,都是一个设计者对待自己产品的态度,而其中最为矛盾的问题就是,设计者在设计产品时,往往都无法站在用户的角度考虑问题。其中最重要的原因,一方面是设计者不了解用户需求,另外就是设计者与用户对产品理解上的巨大差距。刚刚我很无奈又很耐心的装了一回设计师,而我老爸就是我的用户,我在向他介绍如何使用QQ这种工具,而他则无比的焦虑和烦躁。因此,我才在“装不装用户”这个话题结束一个月之后,才觉得,自己真该为此写点什么,为互联网的初级用户写点什么。

老爸是一个网民(CNNIC发布的09年中国互联网行业报告将“半年内使用过互联网的6周岁及以上中国公民”定义为网民),很初级的网民,但我相信他这样的用户,在中国占绝大多数。刚刚他只是在使用百度查找手机方面的信息,看到一款喜欢的,想知道这款手机商家的联系方式,但是却找不到,于是打电话问我如何查找。我叫他上Q,想叫他将地址发给我,我好帮忙看一下,事情的经过大概就是这样。注意,问题来了:

1、截图

我需要那个网页的截图,通过QQ截图工具可以很好的达到这个目的。我告诉了老爸截图的使用方式(之前他从未使用过截图),而老爸的问题在于:不知道什么是截图(解释了10分钟);以为点击截图后,能将QQ的聊天记录隐私截图下来被我看到(所以先清空了聊天记录,虽然那是我跟他的聊天记录);以为截图只能在QQ聊天框以内工作(所以给我截的前10副图都是聊天记录中的空白);不能理解“按住鼠标不放选择截图区域”;不能理解为什么要“双击截图区域”……我用了一个半小时的时间在电话里解释,最后他终于成功的对所需屏幕区域的“截图”;

2、复制粘贴

我需要那个网页地址,通过在地址栏复制,在QQ聊天框粘贴后发送,即可实现。我一步步告诉他,双击地址栏,右键后选择复制,回到聊天框,右键后选择粘贴,点击发送(我是不是很有耐心?)。而老爸的问题在于:不知道什么是地址栏(最后我截图告诉他,还好之前明白了截图是什么);复制后,没有任何变化和提示,他以为没有复制成功,于是复制N次(这个问题……);回到QQ聊天框后,他又去点击网页,准备复制地址,可是QQ聊天框又消失了,于是他在两个程序间不停切换(不能理解复制的内容在系统内存中保存);成功粘贴后,觉得一大堆乱七八糟的字母错了,于是删掉了后面的内容,只发给我了网站主页地址……后来,我又用了半个小时解释,他终于成功将那个网页的地址发送给我了;

当我以为终于成功的时候,打开那个网页,发现那是百度的一个搜索页,页面中是他要搜索的产品结果。他说那个网页找不到了,说自己头疼,早点睡吧!

而后,我马上写下了这篇东西。我在想,为什么我们平时认为如此简单的操作,在大多数网民中(我相信我老爸代表了绝大多数网民)竟是如此困难。刚刚我老爸的烦躁和焦虑,我身同感受,还好他是我老爸,如果那是我的客户,相信早就拂袖而去了。

我相信很多人看完后,都会觉得是我爸代表的大多数网民仍旧处于低及应用阶段,这不是产品的错,但问题的关键在于,他们是网民,他们是客户,难道客户也有错吗?对于我爸而言,他获取信息的渠道太多,为什么要通过上网,使用这些让人觉得自己是白痴的操作程序,去自作自受并且浪费时间呢?还不如去打个电话问问朋友(客户有很多选择,我们的产品并非唯一)。

我们是高级网民,我们是互联网专家,我们总以为自己设计的就是正确的,自己应用的就是最正确的。我们装成用户去设计、去思考;如果用户不买账,我们要培养用户,教会用户。而我们从未想过,为什么没有专门为初级网民设计的电脑和互联网呢?这只是个工具而已,我们还有很多更重要的事情做。比如赚钱,比如享受,比如思考……

或许,我爸需要的电脑是这样的:她是人工智能的,可以直接跟你对话;她没有复杂的键盘,没有碍事的鼠标;你告诉她你需要什么,她会自己搜索后告诉你最佳答案和备选答案;她会分析你输入的信息,理解你不专业的表述,甚至根据你的表情、眼神、脑电波分析你真正的需求;她不会烦躁,不会嘲笑;她会告诉你喝酒前该注意什么,告诉你身边的人你喝多了需要帮助;她会告诉你去某地应该怎么走;会告诉你情人节到了,是不是给爱人送一束鲜花,或许,她已经帮你选好了……

或许科技最发达的时候,人类能将大多数精力直接用在需要的地方,而非搜索、寻找、比价这些需求的中间流程上,这时候的用户体验是最好的;而设计师的任务,就是不断的设计出更加强大和人性化的“她”罢了……

初级用户总是占大多数的。Iphone之所以是一个里程碑,因为我妈这种几乎不会玩手机的人都可以很开心的使用;我期待,IT行业的里程碑。