※タイトルは堅いですが内容はいつも通りのテンションでお送りしております。
はてなブックマークを何となく眺めていたときのこと。アドベントカレンダーの要領で同じテーマについてみんなで1日ずつ書く、というサイト↓
を見つけたので眺めていたところ、「うたプリ」のカテゴリに見覚えのある方がいらっしゃいました。
うたプリに関してはまだまだ初心者であるわたしですが、この方(ちなみにプリンセスゴリラさんという方です)のブログはたまに拝見することがあり、文章の書き方が親しみやすくて良いなあと思いながら読んでいました。
そんなプリンセスゴリラさんが12/1のアドベントカレンダーに設定していた記事↓
の名前に、何となく(わたしとやっていることと同じかもしれない)と思い、久しぶりにこの方のブログにアクセスする運びとなりました。
そしてわたしの感想がこちら。
「歌詞の頻出語句を調べる」のは一緒なんですが、いちから品詞分解したわたしと違い、機械的に行っていたのです。
なるほどその手があったか…………
いつも拝見させていただいている「プリキュアの数字ブログ」様が書かれている記事を参考にすれば、できそう! ということでうたプリバージョンに挑戦してみました。
なるほど、先駆者がいらっしゃるのか!
prehyou2015.hatenablog.com
ほんとだった。プリキュアを初代から見ていたわたしとしては、読んでてめちゃくちゃ楽しかったです。途中でラブライブが引き合いに出されたのにはびっくりしたけど、この比較も興味深いものでした。個人的には何度でも読みなおしたい。
さて、テキストマイニングの方法は、プリンセスゴリラさんによると以下の通りだそうです。
【テキストマイニングの方法】
1.各楽曲の歌詞を書き出してテキストファイルに保存
2.アイドルごとに、書き出した歌詞をひとつのテキストファイルに錬結(コマンドプロンプトがなかったら死んでいた)
3.KH Coder(http://khc.sourceforge.net/)を使って、頻出語を抽出
4.CSVファイルを整形
うわあ……すごい……わからない単語ばかりだ……このまま115曲を分析して結果を出されていますが、わたしの約5倍の曲数だと思うと遠い目をしたくなります。
でも、わたしが先行研究としている論文(平成22年度 卒業論文 「コブクロの歌詞の表現特性」)を書いた方は手動で200〜300曲を品詞分解したことを思うと、もはや拝みたいレベルです拝ませてください。
*
【12/5 追記】
つい先ほど件の先行研究を読み返したところ、
今回データを収集するにあたって手動では限界があるため、文章分析プログラムを使っていったのだが、機械が処理する都合上どうしてもノイズが発生してしまい、100%正確なデータを取り扱うということはできていない。ある程度手動でできるところは手動で行いデータの精度をあげていくことが必要であると感じる。
と書かれていました。えっ待ってプログラムだったんですか……いや、そりゃあ曲数を思えばそうなんですけど、それが良いとは思うんですけど。でもまあ、わたしの曲数はこの方の1/11だし、手動でデータの精度を上げるのが必要って書いてらっしゃるし、強く生きます。わたしは強く生きる(大事なことなので以下略)。
*
機械の方が一般的もしくは普遍的な言葉のカウントは正確だと思うんですけど、造語とか特殊な言葉とかのカウントミスはどうしようもないだろうなあと思うと、わたしが品詞分解とカウントにかけた10時間超の作業時間は無駄じゃなかったと思いたいです。思いたいです(震え声)
でもまあ、とりあえずわたしはテキストマイニングとお友達になって、品詞分解のチェックとして使おうと考えているところです。いやでもわたしとお友達になってくれるのだろうか…………