loとleの使われ方の遷移+α
この記事はロジバン Advent Calendar 2017の23日目の記事です。
一年前くらいに、構文論の授業のレポートを書くために、loとleの使われ方の遷移の調査しました。
その時の調査結果を改めてまとめます。
使ったコーパスはロジバンIRCのログ
http://corpus.lojban.org/にロジバンのコーパスが色々載ってるんですが、その中でも圧倒的な量を誇るロジバンIRCのログを採用しました。
ロジバンIRCは今でもそれなりに活発で、最近の傾向も知ることができそうです。
前処理をしてログの書式を揃える
どういうわけか、ログの書式が時期によって異なるので、扱いやすいように書式を揃える前処理を行いました。
このとき、発言した年と発言内容だけを抜き出し、発言者の情報は取り除きました。
構文解析する
前処理をしたデータを構文解析しました。
構文解析には、ilmentufa experimentalを使いました。
loとleの出現数を調べる
解析して得られた構文解析木にたいして、loとleの出現数を調べました。
構文解析木は、木の中に使ったルールの情報が残っているので、文がどのように構文解析されたかを知るのには有用です。 ただ、文の構造だけにしか興味がないのであれば、正直冗長で使いづらかったです。 ロジバンを構文解析して、さらに抽象構文木を作ってくれるパーサがほしい
結果
縦軸を「loの出現数/leの出現数」の対数、横軸を年としてグラフを作りました。
2005年に逆転してから、leよりもloのほうが多く使われているみたいです。
おまけ: oiの出現数
loとleだけだと面白くないので、「.oiの出現数/UIの出現数」も調べてみました。
どこかの年が突出してたら面白いなぁと思いましたが、特にそんなことはなかったです。
あ、ちなみに、.oinaiは抜いてあります。
使ったコード
前処理とか構文解析とか出現数の解析で使ったコードはここにまとめてあります。