loとleの使われ方の遷移+α

この記事はロジバン Advent Calendar 2017の23日目の記事です。

adventar.org

一年前くらいに、構文論の授業のレポートを書くために、loとleの使われ方の遷移の調査しました。

その時の調査結果を改めてまとめます。

使ったコーパスはロジバンIRCのログ

http://corpus.lojban.org/にロジバンのコーパスが色々載ってるんですが、その中でも圧倒的な量を誇るロジバンIRCのログを採用しました。

ロジバンIRCは今でもそれなりに活発で、最近の傾向も知ることができそうです。

前処理をしてログの書式を揃える

どういうわけか、ログの書式が時期によって異なるので、扱いやすいように書式を揃える前処理を行いました。

このとき、発言した年と発言内容だけを抜き出し、発言者の情報は取り除きました。

構文解析する

前処理をしたデータを構文解析しました。

構文解析には、ilmentufa experimentalを使いました。

github.com

loとleの出現数を調べる

解析して得られた構文解析木にたいして、loとleの出現数を調べました。

構文解析木は、木の中に使ったルールの情報が残っているので、文がどのように構文解析されたかを知るのには有用です。 ただ、文の構造だけにしか興味がないのであれば、正直冗長で使いづらかったです。 ロジバンを構文解析して、さらに抽象構文木を作ってくれるパーサがほしい

結果

縦軸を「loの出現数/leの出現数」の対数、横軸を年としてグラフを作りました。

2005年に逆転してから、leよりもloのほうが多く使われているみたいです。

おまけ: oiの出現数

loとleだけだと面白くないので、「.oiの出現数/UIの出現数」も調べてみました。

どこかの年が突出してたら面白いなぁと思いましたが、特にそんなことはなかったです。

あ、ちなみに、.oinaiは抜いてあります。

使ったコード

前処理とか構文解析とか出現数の解析で使ったコードはここにまとめてあります。

github.com