太仓人才网首页 | 快捷方式 | 加入收藏 | 手机版 | 微信公众号 | 小程序 欢迎来到阳光太仓人才网!  [登录] [免费注册]  2025年01月15日 星期三  今日访问量 次  当前在线
太仓人才网
  滚动信息:
今天 01月15日 00:00起 更新职位: 1315 投递简历:395 |   实时动态 ... 更多动态
当前位置:全站资讯-> 专题栏目 -> 专题报道

从小明造句看奇妙的中文分词

发布者:太仓人才网   发布时间:2015-06-09   阅读数量:    

    记得有个笑话,讲老师要小明用“如果”造句,结果小明说“苹果不如果冻好吃!” 这为什么是一个笑话呢?我们从逻辑上分析一下。

    首先,造句的逻辑要求是:“编造一句话,这句话中包含指定的词”,从这个要求来看“苹果不如果冻好吃”,当中包含了“如果”,那么这个造句就是合格的,但是为什么大家觉得可笑呢?那是因为从语义的角度理解,“苹果不如果冻好吃”,当中是“不如”和“果冻”两个词拼凑出了“如果”,而全文的含义中并没有包含“如果”。

    这里就不得不引入一个叫做”分词“的概念了,分词,就是根据语义,把句子中的词汇提取出来。一个句子,按照语意的逻辑分段,从大到小应该是句读、词、字,句读是用标点符号划分的,词是字组成的语义单元,字就是单个汉字。古文中,甚至连标点都没有,唐代韩愈的《师说》中就有“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也。”,“以字成词”是中文特有的,因此这也给中文分词带来了难度。而拼音文字就没有这个问题,比如“helloworld”我们根据单词就能提取出“hello”和“world”两个词。

    中文分词比较困难,目前还不能完美实现机器自动分词,但是并不表示无法实现,只要基于中文词库,词频,还有一些专业数据,比如某个词的专业度,常用度等,有很多专业的术语,我不记得了,这里也不展开。

    下面做一个有趣的实验,打开微软的word,输入文本“苹果不如果冻好吃”,然后你用鼠标尝试在各个汉字上双击,唉?是不是会自动选中词语?你会发现,你在“如”上双击,会选中“不如”,在“果”上双击,会选中“果冻”,不论你在哪里双击,都不会选中“如果”!这样看来,看似简简单单的一个word,居然已经引入了中文分词的概念,是不是让你对word有了重新的认识?


从小明造句看奇妙的中文分词
在“如”上双击

从小明造句看奇妙的中文分词
在“果”上双击

    然而就是这样一个word中已经有了十多年的功能,在百度里却没有。2015年,7月18日的太仓毕业生招聘会将在太仓明德高级中学举办,我一位太仓人才网的朋友让我帮他为此编辑一个百度推广,从而更好的宣传这次活动,于是我在百度推广后台编辑并提交。结果提交时提示我的内容触犯什么保护条例,资讯客服后,得知“德高”二字被品牌注册保护了。这真是让人哭笑不得,“太仓明德高级中学”,根据汉字分词,应该是:“太仓,明德,高级中学”,语义上是没有包含“德高”二字的。使用简单的字符串比对来过滤是最简单粗暴的做法!

    我还是很怀念谷歌的。而一个公司,一个产品,靠各种关系,依托“官方”来打压竞争者坐上头把交椅的,没有居安思危的意识,怎么可能希望他可以进步呢?
 

阳光浪子
2015年6月9日

网站公告
网页招聘

太仓人才网公众号

太仓人才网手机版

阳光太仓人才网小程序

太仓人才网客服
固定电话:0512-33003311
移动电话:18913780685
传真号码:0512-53356917
邮箱地址:jlee@tcrcsc.com
在线服务:QQ 1987127758 ; QQ 451677071
太仓人才网(www.tcrcsc.com) 太仓人才网WAP(wap.tcrcsc.com) 苏州市人力资源服务业知名品牌 关于我们 网页制作/数据库:阳光技术小组
版权所有:太仓市瑞福尔人力资源服务有限公司;ICP许可证:苏B2-20190061;苏ICP备10224897号-1;软著登字第0395877号;人力资源中介许可320585000030号
正在载入...
消息内容