在中日差异的汉字词这篇文章里面我零星地列了一些词。后来想到。现在 macOS 也早就内置中日词典了,能否把里面的数据提取出来呢?试了一下真的成功了。一共 581 个单词。
从文言文的“古今异义”想到的
以前在学文言文时最常考的一个内容就是“古今异义”,可分为三类:
- 词义扩大,即今义大于古义;例如:本在冀州之南,河阳之北。(《愚公移山》)“河”在古文中专指黄河;现泛指一般河流,比过去词义扩大了。
- 词义缩小,即今义小于古义;例如:率妻子邑人来此绝境。(《桃花源记》)“妻子”,指老婆和孩子;今仅指老婆。
- 词义转移,即一个词由表示某事物变为表示另外的事物;例如:军书十二卷,卷卷有爷名(《木兰诗》)。爷:(古义:指“父亲”。今义:指“爷爷”。)
由于日语的大部分汉字词都是来自古代汉语,因此从日->中的角度来看也有这三种变化。
macOS 里面的词典文件
首先查看 /System/Library/AssetsV2/com_apple_MobileAsset_DictionaryServices_dictionaryOSX/
这个目录,里面以一连串数字开头、以 .asset 结尾的目录,就是词典文件。一个.asset 目录对应一个文件。你的词典app里面开启了几种词典,这里就有几个目录。比如我这里有三个词典,因此有三个.asset 目录。
$ ls /System/Library/AssetsV2/com_apple_MobileAsset_DictionaryServices_dictionaryOSX/
total 1168
drwxr-xr-x@ 5 _nsurlsessiond _nsurlsessiond 160B 10 26 10:18 45c423bc90f143ac71ae6fb9873c1982e3d6c834.asset
drwxr-xr-x@ 5 _nsurlsessiond _nsurlsessiond 160B 10 26 10:18 c05b46056e068da7eccc64d5b8202c3f028bde0a.asset
-rw-r--r-- 1 root wheel 580K 10 31 11:35 com_apple_MobileAsset_DictionaryServices_dictionaryOSX.xml
drwxr-xr-x@ 5 _nsurlsessiond _nsurlsessiond 160B 10 26 10:18 f018946d4509993794ca8f420aeab7887714d1fe.asset
再看目录下面的 AssetData ,里面写着词典的名字,找到 Simplified Chinese – Japanese.dictionary。
$ ll /System/Library/AssetsV2/com_apple_MobileAsset_DictionaryServices_dictionaryOSX/c05b46056e068da7eccc64d5b8202c3f028bde0a.asset/AssetData/
total 0
drwxr-xr-x 3 _nsurlsessiond _nsurlsessiond 96B 10 26 10:18 Simplified Chinese - Japanese.dictionary
我的另外两个词典是:Simplified Chinese – English.dictionary 和 Sanseido Super Daijirin.dictionary
继续看词典下面的 Contents/Resources/
,有个写着 Body.data
的文件,这就是词典的数据文件。
$ ll /System/Library/AssetsV2/com_apple_MobileAsset_DictionaryServices_dictionaryOSX/c05b46056e068da7eccc64d5b8202c3f028bde0a.asset/AssetData/Simplified\ Chinese\ -\ Japanese.dictionary/Contents/Resources/
total 73016
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 14M 9 21 10:28 Body.data
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 49K 9 21 10:28 DefaultStyle.css
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 66K 9 21 10:28 EntryID.data
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 83K 9 21 10:28 EntryID.index
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 9.6M 9 21 10:28 KeyText.data
-rw-r--r-- 1 _nsurlsessiond _nsurlsessiond 12M 9 21 10:28 KeyText.index
中日词典的 Body.data
文件的大小是 14MB,是二进制文件,不能直接打开。
解析词典文件
这时需要使用 apple-dictionary 这个工具来解析词典 Body.data
文件:
./dedict ./Body.data | ./strip | ./checkxml.py > dictionary.xml
此时在当前目录下面生成一个 dictionary.xml 文件,中日词典的大小为132MB。
接下来就可以用自己喜欢的语言解析这个 xml 文件了。
XML 的格式
以日语初学者为例,一个比较经典中日差异词应该是 勉強,意思是“学习”而不是“强迫”,查询 macOS 的词典,界面是如右图这样的,在词条最下方有个方框,上面写着在中国语里面相同汉字词拥有可能的不同意思。
该词条在 XML 文件里面则是如下所示,其中关键标签是class="box ty_日中比較"
, 有的标签则是 class="box x_xd1 ty_日中比較"
。用任意一种编程语言把含有该 class 的词条筛选出来即可。
写本文时,一共有 581 个词。
<d:entry
xmlns:d="http://www.apple.com/DTDs/DictionaryService-1.0.rng" id="j_CRJC027273" d:title="勉強" class="entry">
<span class="hwg x_xh0">
<span d:prn="1" d:dhw="1" role="text" class="hw">べんきょう
<d:prn></d:prn>
</span>
<span class="hvg">
<span class="gp">【</span>
<span class="hv t_kanji">勉強</span>
<span class="gp">】 </span>
</span>
</span>
<span class="gramb x_xd0">
<span class="semb x_xd1">
<span d:def="1" class="trg x_xd2">
<span class="trans">学习 </span>
<span class="trans ty_pinyin">xuéxí </span>
<d:def></d:def>
</span>
<span class="trg x_xd2">
<span class="trans">用功 </span>
<span class="trans ty_pinyin">yònggōng </span>
</span>
<span class="trg x_xd2">
<span class="ind">
<span class="gp tg_ind">[</span>値段を
<span class="gp tg_ind">] </span>
</span>
<span class="trans">减价 </span>
<span class="trans ty_pinyin">jiǎnjià </span>
</span>
<span class="trg x_xd2">
<span class="trans">便宜 </span>
<span class="trans ty_pinyin">piányi </span>
</span>
<span class="trg x_xd2">
<span class="oup_label x_rr">English</span>
<span class="trans"> study </span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">学校の
<span class="rf">べんきょう </span>
</span>
</span>
<span class="trg x_xd3">
<span class="trans">功课 </span>
<span class="trans ty_pinyin">gōngkè </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">彼は学校の
<span class="rf">べんきょう</span>はよくできた
</span>
</span>
<span class="trg x_xd3">
<span class="trans">他在学校的学习很棒 </span>
<span class="trans ty_pinyin">tā zài xuéxiào de xuéxí hěn bàng </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">
<span class="rf">べんきょう</span>家
</span>
</span>
<span class="trg x_xd3">
<span class="trans">努力用功的人 </span>
<span class="trans ty_pinyin">nǔlì yònggōng de rén </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">彼女は芝居の
<span class="rf">べんきょう</span>をしている
</span>
</span>
<span class="trg x_xd3">
<span class="trans">她在学习演戏 </span>
<span class="trans ty_pinyin">tā zài xuéxí yǎnxì </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">試験前に猛
<span class="rf">べんきょう</span>する
</span>
</span>
<span class="trg x_xd3">
<span class="trans">考试前拼命学习 </span>
<span class="trans ty_pinyin">kǎoshì qián pīnmìng xuéxí </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">
<span class="rf">べんきょう</span>を怠る
</span>
</span>
<span class="trg x_xd3">
<span class="trans">放松学习 </span>
<span class="trans ty_pinyin">fàngsōng xuéxí </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">あの店では他よりも値段を
<span class="rf">べんきょう</span>する
</span>
</span>
<span class="trg x_xd3">
<span class="trans">那家店比别的店打折打得多 </span>
<span class="trans ty_pinyin">nà jiā diàn bǐ biéde diàn dǎzhé dǎ de duō </span>
</span>
</span>
<span class="exg x_xd2 hasSn">
<span class="x_xdh x_xdh">
<span class="sn">▸ </span>
<span class="ex">今回の失敗でいい
<span class="rf">べんきょう</span>になった
</span>
</span>
<span class="trg x_xd3">
<span class="trans">通过这次失败, 得到了很大的教训 </span>
<span class="trans ty_pinyin">tōngguò zhècì shībài, dédàole hěn dà de jiàoxùn </span>
</span>
</span>
</span>
</span>
<span class="cb x_xo0">
<span id="j_CRJC027273-HG001" class="csec x_xo1">
<span class="cwg x_xoh">
<span class="cw">
<span class="rf">べんきょう</span>部屋
</span>
<span class="gp">・</span>
<span class="cvg">
<span class="cv">べんきょうへや</span>
<span class="gp">・</span>
<span class="cv">勉強部屋 </span>
</span>
</span>
<span class="gramb x_xo2">
<span class="semb">
<span class="trg x_xo3">
<span class="trans">学习的房间 </span>
<span class="trans ty_pinyin">xuéxí de fángjiān </span>
</span>
</span>
</span>
</span>
</span>
<span class="box ty_日中比較">
<span class="x_xdh x_xdt">
<span class="x_xopt">中国語の‘勉强</span>
<span class="pr">
<span d:pr="US solitary" class="ph ty_pinyin">miǎnqiǎng</span>
</span>’は「強制する」という動詞, 「むりやり…」という副詞である.
</span>
</span>
</d:entry>
词义扩大:中文意思比日语意思多
该类条目的特点是在底下的方框里面注释时经常有「意味もある(还有这种意思)」的字样,例如日语「千金」仅指很多钱的意思(千两黄金),中文除此之外还有令嫒、大小姐的意思(「多額のお金」という意味の他, 他人の娘をていねいに言う「令嬢, お嬢様」の意味もある.)。下面举几个例子:
日语单词 | 日译中 | 中文单词 | 中译日 |
---|---|---|---|
表現 | 表达 | 表现 | 「表現する」という意味の他に「態度」「行動」という意味もある. (备注:中文有“态度”、“行动”的意思,日文无) |
処理 | 处理、对付、办理 | 处理 | 「物事をさばいて始末をつける」という意味の他に「安く売り払う」という意味もある (备注:中文有“便宜卖”的意思,日文无). |
登録 | 登记 | 登录 | 「帳簿に載せる」という意味の他に「ログインする」という意味もある (备注:中文有“网站登录”的意思,日文无). |
活動 | 行动 | 活动 | 「積極的に行動する」という意味の他, 「健康のため体を動かす」という意味もある (备注:中文有“活动身体”的意思,日文无). |
面 | 假面、脸 | 面 | 「麺」や「粉」の意味もある. (备注:中文有“面粉”的意思,日文无). |
命 | 生命 | 命 | 「運命」という意味もある (备注:中文有“命运”的意思,日文无). |
掃除 | 打扫 | 扫除 | 「汚れをなくしきれいにする」という意味の他に「取り除く」という意味もある. (备注:中文有“去除(比如障碍)”的意思,日文无) |
词义缩小:中文意思比日语意思少
最经典的例子是「先輩」和「後輩」(目前版本的词典中「後輩」没有加方框标注,这里为了统一加进来)。日语里面不仅表示长辈(或晚辈),也表示学校里面的高年级学长姐(或低年级学弟妹)、或上级同事(下级同事),中文里只能表示长辈(晚辈)。这类条目较少,其他的只有以下几个:
日语单词 | 日译中 | 中文单词 | 中译日 |
---|---|---|---|
病院 | 所有医院 | 病院 | 中国語で一般的に「病院」を指す言葉は‘医院yīyuàn’. 中国語の‘病院bìngyuàn’は‘精神病院jīngshén bìngyuàn’や‘结核病院jiéhé bìngyuàn’のような「専門病院」を指し, 普通, ‘病院’と単独では使えない (备注:中文的“病院”仅用于指“精神病院”、“结核病院”之类). |
道具 | 工具 | 道具 | 中国語の‘道具dàojù’は「舞台用の道具」を指す (备注:中文“道具”仅指舞台用的道具). |
大学 | 所有大学 | 大学 | 中国語で‘大学dàxué’といえば「総合大学」を指す. ‘学院xuéyuàn’は「単科大学」あるいは大学内の「学部」を意味する. 一般的に「大学」といいたいときは‘大学’が使われる (备注:中文“大学”仅指综合性大学). |
幹部 | 领导 | 干部 | 中国語の‘干部gànbù’は「党や政府で公職にある人」, とくに「役職者」を言う (备注:中文“干部”仅指党政公务员). |
謹慎 | (1)小心 (2)禁闭 | 谨慎 | 中国語の‘谨慎jǐnshèn’は「慎重である」ことを言い, 「処分」の意味はない (备注:中文“谨慎”没有处分的意思). |
卵 | (1)蛋 (2)卵 | 卵 | ‘卵luǎn’に「食用の鶏卵」の意味はない. 地方によっては人間の「睾丸, ペニス」を指す (备注:中文“卵”没有鸡蛋的意思). |
脱落 | (1)掉队 (2)脱漏、落下 | 脱落 | 中国語の‘脱落tuōluò’は「くっついているものが落ちる」ことをいう. 集団からの脱落については使えない (备注:中文“脱落”没有掉队的意思). |
協約 | 协议 | 协约 | 中国語の’协约xiéyuē’は通常国家間の条約をいう (备注:中文“协约”仅指国家之间的协议). |
写真 | 照片 | 写真 | 中国語の‘写真xiězhēn’は名詞として「肖像画」, 動詞として「肖像画を描く」ことをいう (备注:中文“写真”仅指人物的肖像). |
靴 | 鞋 | 靴 | 中国語の‘靴xuē’は「長靴」や「ブーツ」を指す (备注:中文“靴”仅指“长靴鞋”). |
野菜 | 各种蔬菜 | 野菜 | 中国語の‘野菜yěcài’は「野生の食用植物」「山菜」のこと (备注:中文“野菜”仅指“野生的蔬菜”). |
词义转移:日语和中文意思完全不同
这种是数量最多的,中日差异的汉字词这篇文章里面基本就是这些词,再举几个例子:
日语单词 | 日译中 | 中文单词 | 中译日 |
---|---|---|---|
覇気 | 雄心 | 霸气 | 「傍若無人な態度」を指す. |
本 | 书 | 本 | 本を数える「1冊, 2冊」の単位を表し, 本そのものは‘书(書)shū’で表す. |
餅 | 糍粑 | 饼 | 小麦粉をのばして焼くか蒸した食物のことである. |
部 | 部门 | 部 | 中央の行政機関であれば日本の「省」に相当する. |
不覚 | 过失 | 不觉 | 「思わず」という意味. |
裁縫 | 缝纫 | 裁缝 | ‘cáifeng’と読むと「仕立て屋」のこと. |
裁判 | 审判 | 裁判 | スポーツの「審判」のこと. |
差別 | 歧视 | 差别 | 主に「ちがい」を表す語で, 見下す意味では‘歧视qíshì’などがよく使われる. |
全部列表
“词义转移”354个,“词义扩大”214个,“词义缩小”13个。
毕竟日语的好多词都来源于中文,虽然不会读,但是看看字还是能知道大概的意思。
是的,但是这五百多个词语例外
大开眼界了,苹果字典还能这样用。
感觉这些词很多是近 100 年白话文运动时参考西方国家语言发展成的各种意思。都是些古文中少有或没有的概念。
五百多个词,有些应该是来自古代
面本來就沒有「麵」的意思,都是簡化字搞的鬼。
正解 ❗
苏北那里 yi 发音的字,就是父亲的意思,老yi 就是最小的叔叔,个人感觉可能是“爷”,就是父亲,但我就没有细究到底是什么字了。
所以还是通用的字比较好,省的有歧义。当然这个中日差异只能单独处理了。
哦哦,有意思 ????
我最近打算学一下日文,就为了看番没有困难 ????
可以的,学起来还挺有意思的,不过番剧里面有些用词和日常生活差异很大,需要注意
爺,某地方言發音爲ya,即爲父親之意義。
在 https://dto.pipecraft.net/s/yv9sms/macos 裡評論的內容,在這裡再發一次。
我覺得這個單詞目錄很有價值,對學習日語的初學者應該很有幫助。感謝分享。
如果把這個目錄放在 GitHub 上面,讓更多人一起參與補充、修改,我想會對很多人有幫助。
簡單搜了一下,找到一個專案 ( https://github.com/birdtianyu/Japanese_words ),只收集 10 個單詞就放棄了。
滬江日語網站裡也有一些: [日語漢字與中文漢字意義大不同]
打算将这个差异的文档放到 GitHub 上并且在 Vercel 或者 CloudFlare 部署一个可查询的工具,不知道博主是否能够同意。谢谢啦。
可以的,注明来源我这篇文章即可
OK,先谢谢啦。