Skip to content
Tokuhiro Matsuno edited this page Jan 12, 2023 · 1 revision

Wikipedia を集計すると、卿が今日よりも強く出てくる。 なぜかというと、Wikipedia の中にはアーサー卿などに関する言及が多いので、それに引きずられていると考えられる。

% grep '/きょう ' work/jawiki.wfreq  | perl -nE ' say "$2 $1" if /(.*) (.*)/' |sort -n
2 僥謳/きょう
2 居于/きょう
2 跫/きょう
7 兇/きょう
10 許禹/きょう
14 響/きょう
27 嬌/きょう
42 疆/きょう
45 況/きょう
55 矯/きょう
66 狂/きょう
67 饗/きょう
78 俠/きょう
107 僑/きょう
220 キョウ/きょう
303 凶/きょう
402 羌/きょう
483 興/きょう
851 姜/きょう
1075 供/きょう
1296 狭/きょう
1759 協/きょう
2115 峡/きょう
3756 香/きょう
6104 鏡/きょう
6648 強/きょう
8007 今日/きょう
8324 きょう/きょう
9098 郷/きょう
9124 教/きょう
9557 京/きょう
9623 橋/きょう
16055 卿/きょう

こういう傾向があったために、青空文庫をコーパスとして導入し、それによって一般的な単語の傾向に近くなるようにしている。