谈五笔《输入法词库别发烧》(二)

144
作者 FivePen
2016-09-15 02:52 字数 7981 阅读 1935评论 0



转送门:谈五笔《输入法词库别发烧》(一)



该文为转载;作者:晓览(关注晓览微信公众号:小折五笔教程)

用汉字+词组的数量除以编码空间总数来得到重码率,这个算法我也是醉了。照老王的意思,任何一种可以打出6763字的输入法的重码率都是1.66%?显然是笑话,你要是加80万的词,重码率岂不200%?

  其实,只要你会打“喜、来、乐”三个字,什么组合都不用怕。犯不着你把“喜来乐、喜乐来、乐来喜、乐喜来、来喜乐、来乐喜”都造成“词”,几个月也用不到一次白占地方,这个道理不是很简单吗?

  涉及科学的问题,决不能背离科学的基本原理,最好少一些个商业“炒作”。现在,到了防止污染、净化一下“空气”的时候了。

六、“词库发烧”和“语音输入”是同一种“病因”

  当前社会上的肤浅、浮夸、浮燥之风,在学术界也是很有市场的。在“词库”的问题上之所以“高烧”不退,一概是不做学问、不求真、不务实的表现。归根到底,“词库发烧”不是学术问题,而是学风问题,甚至是一个社会问题。

  “词库发烧”的“病因”主要有三个:其一,顾此失彼、非常容易被“忽悠”,是当代中国人常犯的错误,是“词库发烧”的首要原因。我们有成语说“过犹不及”,但常常会忘记万事过了头,就会变成坏事。

  汉字输入“以字为本”这个简单的道理,我们的学术界、教育界、商业界、“××五笔”开发商、门户网站,常常弄不明白,任凭有人用“大词库”来唬外行、“忽悠”老百姓。

  浮啊!用公式可算出结果的学术问题,也飘着!也浮着!总也落不到实处。不讲效率,不讲质量,宁肯少、慢、差、费,宁肯把五笔字型的“盲打”优势变成“翻屏选字”的劣势,也不愿下点功夫把单字打准、打好。

  更可怕的是,一些人从来“不在乎”会错多少个字!“人非圣贤,岂能不错?”反正是闲着没事嘛,先打上去,回头慢慢校对,让别人修改就是了。“计划经济”嘛,时间不值钱,打快、打慢该怎么样?错多、错少有啥关系?

  那么,就请你到一家报刊杂志社、编辑部体验一下。按字数发工资,错字罚钱,电视播出的字幕错一个字罚你800元!如此一来,大概你就知道“单字打准”很值钱了。就能体会到“词库发烧”会让你挣钱少甚至要赔钱了!真是“钱能通神”啊,也许只有“钱”才能让你冷静、降温,最终让你明白一个道理:字有限、词无边。

  五笔字型发明25年来,国内外的“打字高手”,无一例外,都是注重先把单字打好的。包括本人举办过的三届“全国汉字输入大赛”参赛的上千名选手,凡是得奖的人,凡是在解放军机关、报社、杂志社、机要局、海关工作的选手,没一个是靠“大词库”吃饭的。他们最清楚:靠“打单字”可以处理古今中外各行各业的一切文本,靠“词库发烧”只能会慢,挑得眼花,错得惊人。本人亲自办了20来年培训班,教过几万人打字,也调查过上百人,凡是“打字高手”,他们仅仅有一个1~2万条的常用词库,都深知“不怕慢,就怕站”,他们的“看家本事”是“打单字”。

  其二,就输入而言,许多人对“字—词”关系的认识“本末倒置”,不知道“以字为本”。

  第三个“病因”是有点懒。许多人只顾打词“痛快”,却不怕选词慢!始终不愿意下一点功夫熟练掌握3000来个常用汉字的基本编码输入(包括简码),“打4下”出来一条长长的词,甚至出来一句话,出来一首诗,很过瘾!误以为词库越大越好用!

  为了提供一点历史线索供大家反思,不妨“海底钩沉”,把本人10年前正当“语音输入”在中国大陆“熊熊燃烧”之际,写过22篇小文章“键盘过时随想录”(这组文章曾登在《中关村科技报》上,因为给当时“语音输入”产品的销售以“当头棒喝”,中关村的“×王”等大牌公司,曾声言要找作者“打官司”!)。现将这组原文重新登在王码网(www.wangma.com.cn)和“光明网”我的博客上,供大家品味。建议朋友们在读一读、笑一笑之余,想一想:我们中国人为什么容易被“忽悠”呢?

  看过“键盘过时随想录”就不难判断,“词库发烧”和“语音输入”,这二者有着相同的“文化基因”。

  王码的词库标准吗?任何标准也都是人定的,大家可以看一下原版王码86的词库,连“但是”这样最常用的词都没有!只因为它和“倡”重码,而错词却一堆,举例如下:

  一塌胡涂/右顷/克已奉公/丰富多采/上方宝剑/酒巴/愚味/拉圾箱 等。

  所以使用王码词库的用户就要强记住“虽然”是词,“但是”不是词,这样还不如都不记而都打单呢。所以常用词无论重不重码,都要收,即使它排在第二位,就像“聪明”“联盟”一样,不能因为和“聪明”重码而不收“联盟”。

七、正本清源“字为本”,医治“词库发烧”

  为了我国汉字信息处理技术在科学的轨道上健康有序地发展,为了弘扬祖国传统文化并使之融入现代科技,在国势增强、世界“汉语热”的大好形势下,汉字输入技术中的“字—词”关系,应该正本清源了,应当有一个科学的结论了——“汉字输入以字为本”(注:这一观点与“语言教学”无关!)。

  那么,如何医治这种“词库发烧”呢?不要失望,方法还是有的。

  首先,一定要摆正“字—词”在汉字输入过程中的关系:以字为本,能打字就不愁打词。当然,为了提高速度,也必得二者相辅相成、双轨并行。

  其次,正如本人24年前在“字有限、词无边”中所写的:要按照词频,优选1~2万条通用词,如经济、文化、手机、汽车、电视机、黄河、天安门等,建一个各行各业都用得着的“通用库”,其中一级词1万条,二级词1万条;再根据不同专业(比如50个专业),为每个专业再建一个“专业库”(当然这可得下些功夫啊!),其中一级词1万条,二级词1万条(王码的软件已建了13个这样的专业库)。这样总共可以有4万条词搭配组合,便能满足“所有行业”的需求,在提示行按频度显示的情况下,重码率平均只不过是3~4%。这是对付“单字+词汇”最科学而实用的设计,词汇再多了副作用就会凸显出来。当然,输入软件一定还要像王码软件那样,交给用户一个“武器”:既可以自己增加,又可以自己删除,允许用户建立“个性化小词库”。这样,便可望根治久病难医的“词库发烧”。


【编后】当各种输入法冠以“智能”的噱头,迎面扑来,搜狗拼音、搜狗五笔、谷歌拼音等更是实时更新词库,长期生存在网络中的你,是否想过有一天我们已经远离了汉字的原宗?曾经我们熟知的横、竖、撇、捺、折正在逐渐荒漠化,非主流的网络文化正在将我们的汉字记忆冲洗。“词库发烧”谁之错?五笔字型、数字王码发明人,中国发明协会副会长王永民教授的这篇文章给出了准确的诊断。

  最后还是要向五笔字型的发明者王永民先生致敬,因为我们都是站在了你的肩膀上,毕竟在那个电脑不普及甚至电脑连汉字都打不出的时代抄写数万张卡片而设计出五笔字型实属不易。


五笔问题收录
登录 后发表评论
0条评论
还没有人评论过~