日本有个官方的PDF格式的常用汉字表。这是日语汉字读音和字型的基准。不在表里面的汉字就可以写成假名了。
但是 PDF 格式的文件搜索起来太麻烦,比如要搜个什么字的读音,会搜到一大堆不相关的文字。好在它有个网页版,虽然网页版搜索也不方便,但是可以把它复制到 EXCEL 里面啊。复制之后我发现格式十分整齐,第一列是汉字,第二列是读音(假名),第三列是词语例子,第四列是特殊读音。由于第一列是合并单元格,直接筛选也不方便,所以我用了一些技巧调整了一下,就可以按照汉字筛选了。
统计
做了一下简单统计:
- 汉字总数:2137
- 读音总数(音读+训读):4388
- 只有训读、没有音读的汉字:78个。
扱宛嵐茨芋唄畝浦岡虞俺卸蚊貝垣柿掛潟且株釜鎌刈串熊繰桁乞駒込頃埼崎咲皿鹿芝尻据杉裾瀬滝但棚誰塚漬坪爪鶴峠栃届丼梨謎鍋匂虹箱箸畑肌膝肘姫餅頰堀枕又岬娘弥闇脇枠
- 只有音读、没有训读的汉字:820个。
- 多于1种音读的汉字:273个。音读最多的汉字是「納」(5种音读)
- 多于1种训读的汉字(去掉送假名):225个。训读最多的3个汉字是「下」(6种训读)、「生」(6种训读)、「上」(5种训读)。其它都少于5种。
- 只有1种读音(包括音读或训读)的汉字:813个。意味着多音字占62%。
- 训读(去掉送假名)最多可达5个音节,有四个字:
- 志 こころざし
- 承 うけたまわ
- 詔 みことのり
- 政 まつりごと
- 训读(去掉送假名)至多为单音节、双音节、三音节、四音节、五音节汉字数分别是:274、774、224、41、4。四音节训读的41个字是:
快塊懐各冠陥恭暁鶏潔幻源湖公紅候魂唆私紫侍趣寿辱唇遡礎滞著頂弟丼杯覆憤奉翻妹雷陵弄
这些字写假名
从这个表里我发现,很多熟悉的字其实要写假名。有些是字本身就不在这表里。有些是字在表里但它们的读音不在这个表里面:
- そば(不写「側」)
- あした(不写「明日」)
- じいさん(不写「爺さん」)
- ばあさん(不写「婆さん」)
- ……(后续补充)
这些与我在其他作品中见到的写法基本一致。
代码
最后奉上一段我用来分离送假名的 Python 代码(因为2010版的表格里没有标送假名的符号),该函数会输出去掉送假名之后的部分。
def exclude_kata_tail(kata, word):
pos = 1
for i in range(1, len(kata)+1):
if kata[-i:] not in word:
pos = i
break
return kata[0:(len(kata)-pos+1)]
# Test
print(exclude_kata_tail('わすれる', '忘れる'))
print(exclude_kata_tail('はたらく', '働く'))
print(exclude_kata_tail('ちから', '力'))
print(exclude_kata_tail('すみやか', '速やかだ'))
print(exclude_kata_tail('いまわしい', '忌まわしい'))