记得有个笑话,讲老师要小明用“如果”造句,结果小明说“苹果不如果冻好吃!” 这为什么是一个笑话呢?我们从逻辑上分析一下。
首先,造句的逻辑要求是:“编造一句话,这句话中包含指定的词”,从这个要求来看“苹果不如果冻好吃”,当中包含了“如果”,那么这个造句就是合格的,但是为什么大家觉得可笑呢?那是因为从语义的角度理解,“苹果不如果冻好吃”,当中是“不如”和“果冻”两个词拼凑出了“如果”,而全文的含义中并没有包含“如果”。
这里就不得不引入一个叫做”分词“的概念了,分词,就是根据语义,把句子中的词汇提取出来。一个句子,按照语意的逻辑分段,从大到小应该是句读、词、字,句读是用标点符号划分的,词是字组成的语义单元,字就是单个汉字。古文中,甚至连标点都没有,唐代韩愈的《师说》中就有“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也。”,“以字成词”是中文特有的,因此这也给中文分词带来了难度。而拼音文字就没有这个问题,比如“helloworld”我们根据单词就能提取出“hello”和“world”两个词。
中文分词比较困难,目前还不能完美实现机器自动分词,但是并不表示无法实现,只要基于中文词库,词频,还有一些专业数据,比如某个词的专业度,常用度等,有很多专业的术语,我不记得了,这里也不展开。
下面做一个有趣的实验,打开微软的word,输入文本“苹果不如果冻好吃”,然后你用鼠标尝试在各个汉字上双击,唉?是不是会自动选中词语?你会发现,你在“如”上双击,会选中“不如”,在“果”上双击,会选中“果冻”,不论你在哪里双击,都不会选中“如果”!这样看来,看似简简单单的一个word,居然已经引入了中文分词的概念,是不是让你对word有了重新的认识?
在“如”上双击
在“果”上双击
然而就是这样一个word中已经有了十多年的功能,在百度里却没有。2015年,7月18日的太仓毕业生招聘会将在太仓明德高级中学举办,我一位太仓人才网的朋友让我帮他为此编辑一个百度推广,从而更好的宣传这次活动,于是我在百度推广后台编辑并提交。结果提交时提示我的内容触犯什么保护条例,资讯客服后,得知“德高”二字被品牌注册保护了。这真是让人哭笑不得,“太仓明德高级中学”,根据汉字分词,应该是:“太仓,明德,高级中学”,语义上是没有包含“德高”二字的。使用简单的字符串比对来过滤是最简单粗暴的做法!
我还是很怀念谷歌的。而一个公司,一个产品,靠各种关系,依托“官方”来打压竞争者坐上头把交椅的,没有居安思危的意识,怎么可能希望他可以进步呢?
阳光浪子
2015年6月9日