読者です 読者をやめる 読者になる 読者になる

きらめきの行方

彼らはどこへ向かうのだろう

レポートのはずなのに蘇る自己採点の記憶:「KH Coder」によるテキストマイニングを試してみた

レポートのために歌詞の品詞分解を全手動で完了させたわたしですが、先日「テキストマイニング」という方法を知ったので、実験と確認を兼ねてきょうはフリーソフトの「KH Coder」を試してみました。

 

感想:結構簡単だった

 

瞬殺でした。ものの数秒ですべてが品詞分解されていました。

どうなのかなあと思っていた造語も事前に指定しておけばきちんと数えてくれるし(最初「ストライド」が名詞として認識されなくて動詞の「スる」と名詞の「トライ」に分かれてたのには笑いましたが)、すごく優秀なソフトでした。作った方すごい。

品詞分解とカウントと並べ替えにかかったわたしの28.7時間はいったい……と思いましたが、普遍的な単語のカウントは案外ミスっていなかったので、いまは割とポジティブな気持ちです。よかった。ほんとうによかった。

 

 

そういえば、KH Coderで抽出した語句のリストはExcel形式で出力できるんですけど、それを見てセンター試験翌日の自己採点のことを思い出しました。

センター試験の翌日というと、みんなで学校で自己採点をする日なんですけど、そうは言ってもだいたいのひとが試験2日目の夜に終わらせちゃってるんですよね。わたしの当時の某クラスメイトもそのひとりだったんですが、このひとのやった自己採点が当時のわたしには特異な方法だったなあと。その方法が、

 

某予備校が出している解答速報のExcelデータをダウンロード

→自分の解答を入力したら正誤判定するように関数を組む

Excel上で自己採点

 

というものだったんですが、そのExcelデータを見せながらきらきらとした目で話していた様子が、きょうの抽出語句のリストによって思い出されました。懐かしい。

単純にわたしが普段Excelに触れなさ過ぎてきょうのことをきっかけに思い出したってだけなんですけどね。ちなみにこのひと、半年後ぐらいにハガキで届く実際の得点と自己採点の結果が1点の誤差も無かったらしいです。機械ってすごい。

 

 

思い出話はこのくらいにしておいて……どうしても品詞の分類に関しては自分とソフトとで食い違いが起きてしまっているので、そこの擦り合わせさえどうにかできれば精度が向上しそうな予感がします。何かちょっと終わりが見えてきた感じがしてとても嬉しいです。品詞分解さえ完成してしまえば論を組み立てられる……わけではないんですが、これが大きな一歩であることには間違いなさそうです。やったぜ。

はあ、きょう明日でデータをきちんと整理できたらいいなあ。がんばろうっと。