马黑PHP整站系统

两分输入法码表捺笔编码问题

位置: 首页 > 杂记[ 发布时间: 2026.1.24  作者: 马黑  阅读: 13 ]

综观两分输入法码表,其对第二字元为捺笔的字,在编码中对捺笔画字元以三种形式进行编码:其一,视为【丶】(dian),这与多数需要处理笔画的输入法做法一致,方案可取;其二是,看成【水】(shui),取其形状与【水】字末笔画相似联想而得,属“形托”做法,其做法在输入法领域也不鲜见;其三,保持笔画原本名称,【捺】(na),“音托”做法,亦为可以接受的处理方式。然而,三者混用则令人莫名其妙,试比较如下例字:


liaodian

piedian

koushui

yishui
𢎡
gongna
𠮺
kouna

分析上述随机抽取的例字,很难找到将末笔画捺笔字元编码为点、水、捺的依据或规律,两分手册(第一版)亦未对此提供细节说明,这会造成编码难度的提升,更给文字录入操作带来诸多困惑。实际上,抽样检测发现,字海网在对以捺笔收笔、不能拆出成字的字进行两分字元拆解时,都确定捺笔画为【丶】字元,二字元拆解思路一以贯之。但码表编码环节却将此类字的一部分定义捺笔字元的编码为【丶】,另一部分为【水】和【捺】,不知是何用意、依据何来。笔者曾向DS、Kimi等AI求解,它们认为原因应该是内部编码优化需求所致,具体而言是为了分化重码。如果确实是为了减少部分编码的重码率,那么不妨检索码表,将以捺笔画作为第二字元进行编码的单字全部找出,然后进行分析比较。以下汇总的例字数据均来源于字海官网中州韵版两分法码表5.0,检索结果应该没有重大遗漏:

1️⃣捺笔画编码为「丶」的例字:

乂 义 乑 八 刄 发 孓 尺 衣 豖 长 𠆢 𥫻 𩁾 𫝕 𰀠 𰛅 𱍸 𱝪 𲇆

2️⃣捺笔画编码为「水」的例字

序号单字原始编码原始编码数字元一+点编码数
1changshui38
2changshui38
3daoshui75
4hengshui812
5hengshui812
6hengshui812
7koushui1016
8pieshui515
9pieshui515
10xiaoshui20
11xueshui88
12yishui1417
13yishui1417
14yishui1417

【注】「水」字的第二字元编码亦为shui,整体编码为yishui,疑为取「水」的左右合成部件,类似的例字还有其变体「氺」yishui,后者以收尾,不编码为dian就是将其左右合成部件视为「水」,因此可以佐证笔者对前者编码规则推测的合理性。

3️⃣捺笔画编码为「捺」的例字

序号单字原始编码原始编码数字元一+点编码数
1𦍖bana42
2𠔇bana42
3𤵑bingna85
4𦬤caona1816
5𤓰changna48
6𨑃changna48
7𠂢changna48
8𡘎dana57
9dingna10
10𢎡gongna24
11𩨶guna20
12𧰧hengna212
13𠅕jiaona30
14𢁤jinna128
15𠹩junna10
16𠮼kouna2516
17𠯁kouna2516
18𠮺kouna2516
19𩡬mana35
20𣏛muna1912
21𣕹muna1912
22piena215
23𧘇piena215
24𠇊renna1613
25𨱗renna1613
26𡺒shanna117
27𧰨shanna117
28𣲐shuina2012
29𣲓shuina2012
30𣽍shuina2012
31𥾙sina1118
32𦂵sina1118
33𤲄tianna14
34𩂢yuna1713
36𠧹zhanna10
36𥫪zhuna89
37𧿓zuna85

前面提到,字海网拆分字元时均将捺笔画当作【丶】,而从上述罗列的例字看,真正将捺笔当作【丶】的占比并不高,保留原本【捺】的编码数量最多、编码为【水】的次之。官网拆分字元的方法与码表编码实际情况存在较大分歧,编码规则与编码操作思路并不完全一致。

比较两个表格提供的各例字原始编码总条数和现有该编码第一字元不变第二字元为【丶】编码的现有条目总数,可以发现若将这些例字捺笔画原始编码的第二个字元替换为【丶】,其所产生的重码率并不特别严重,在近十万单字的码表中属于正常现象,而且还存在相反的情形即一些例字反而可以倒过来分化原始编码的重码率。由此可以认为,分化重码并非客观和急切需要,之所以出现捺笔画作为三种形态进行编码的现象,应是在编码过程中多次进行规则调整和修正,最后定型的内部规则未能全面落实到码表制作中,或说由于种种原因尚未来得及修改。再者,在对这些例字进行建检索、分析过程中,笔者发现4.0码表和5.0码表在处理捺笔画字元上存在一定差异,有修改、调整现象的迹象,可见在编码过程中存在左右为难的取舍情形。不论如何,还是建议全面统一捺笔画字元编码,以提升输入法的科学性、严谨性与易用性。

总而言之,统一捺笔画字元的编码对输入法在应用层面而言是刚性需求,如果没有其他专业且合理的重要考量,笔者认为不应细分捺笔为三种编码方案,在【丶】和【捺】中人选一个,前者为最佳。

以上拙见或不合时宜,若此,请一笑置之。

前一篇: 两分输入法码表抽样分析报告
下一篇: 没有了

发表评论:

       

评论列表 [1条]

#1 | 飞飞 于 2026-1-24 18:16 发布: 这个研究得相当细致而且进持了归总,是个大工程。

Copyright © 2023 All Right Reserved 马黑PHP文章管理整站系统v1.8
联系我们: gxblk@163.com