きらめきの行方

彼らはどこへ向かうのだろう

レポートのはずなのに蘇る自己採点の記憶:「KH Coder」によるテキストマイニングを試してみた

レポートのために歌詞の品詞分解を全手動で完了させたわたしですが、先日「テキストマイニング」という方法を知ったので、実験と確認を兼ねてきょうはフリーソフトの「KH Coder」を試してみました。

 

感想:結構簡単だった

瞬殺でした。ものの数秒ですべてが品詞分解されていました。

どうなのかなあと思っていた造語も事前に指定しておけばきちんと数えてくれるし(最初「ストライド」が名詞として認識されなくて動詞の「スる」と名詞の「トライ」に分かれてたのには笑いましたが)、すごく優秀なソフトでした。作った方すごい。

品詞分解とカウントと並べ替えにかかったわたしの28.7時間はいったい……と思いましたが、普遍的な単語のカウントは案外ミスっていなかったので、いまは割とポジティブな気持ちです。よかった。ほんとうによかった。

 

蘇る自己採点の記憶

そういえば、KH Coderで抽出した語句のリストはExcel形式で出力できるんですけど、それを見てセンター試験翌日の自己採点のことを思い出しました。

センター試験の翌日というと、みんなで学校で自己採点をする日なんですけど、そうは言ってもだいたいのひとが試験2日目の夜に終わらせちゃってるんですよね。わたしの当時の某クラスメイトもそのひとりだったんですが、このひとのやった自己採点が当時のわたしには特異な方法だったなあと。その方法が、

 

  • 某予備校が出している解答速報のExcelデータをダウンロード
  • 自分の解答を入力したら正誤判定するように関数を組む
  • Excel上で自己採点

 

というものだったんですが、そのExcelデータを見せながらきらきらとした目で話していた様子が、きょうの抽出語句のリストによって思い出されました。懐かしい。

 

単純にわたしが普段Excelに触れなさ過ぎてきょうのことをきっかけに思い出したってだけなんですけどね。ちなみにこのひと、半年後ぐらいにハガキで届く実際の得点と自己採点の結果が1点の誤差も無かったらしいです。機械ってすごい。

 

終わりに

思い出話はこのくらいにしておいて……どうしても品詞の分類に関しては自分とソフトとで食い違いが起きてしまっているので、そこの擦り合わせさえどうにかできれば精度が向上しそうな予感がします。何かちょっと終わりが見えてきた感じがしてとても嬉しいです。品詞分解さえ完成してしまえば論を組み立てられる……わけではないんですが、これが大きな一歩であることには間違いなさそうです。やったぜ。

はあ、きょう明日でデータをきちんと整理できたらいいなあ。がんばろうっと。

手作業も時には必要

こんばんは。今回はレポートの話に入る前に、少しだけ別の話をします(というかただの近況報告なんですが)

 

きょうは雨の中、嵐さんのコンサートグッズを買うために出かけていました。

 

いやあ、さすがに雨の17時台とあって物販にひとがいない! すごい! 目当てのものはきちんと買えました。今年のショッピングバッグが可愛かったから欲しかったんですよ〜〜買えてよかった。大阪でのライブはきょうでラストだそうですが、嵐さんたちは楽しんだのかな、楽しんでくれてたら嬉しいです(どこから目線なんだ)

続きを読む

青い春の象徴

お題「初めて買ったCD」

 

遡ること6年前の夏。当時中学生だったわたしにはおこづかい制度は無く(高校生から月5000円のおこづかいをもらっていました)、お年玉も基本的には親にすべて預ける形でした。

そんなわたしが、その夏に人生初めてのCDを買ったのです。自分のお年玉を使ったのもこれが初めてでした。

 

と言っても、どういう手段で買ったかはよく覚えていないのですが、Amazonの会員登録をしたのは高校生の頃だし、県庁所在地にある繁華街に自分だけで行っていたのも、通学にJRの定期を使っていた高校生の頃だし……と考えると、おそらく親に連れて行ってもらって地元の新星堂で買ったのだと推察して差し支えないような気がします。

こんなことを書いているうちに店舗内の配置まで思い出してきました。懐かしい。右側にアニメ系、真ん中にDVD、左側にJPOPの新譜。片田舎のショッピングセンターの中にあったためか、ネット通販各社で予約が全滅していても、この新星堂だけは大抵味方だったし、アニメ系のPOPもかなり凝ってたので好きでした。たぶん前のiPhoneに画像残ってると思うけど……って新星堂の話じゃないんだってば。CDの話してよ。

 

そういうわけで、わたしが初めて買ったCDである、嵐さんが2010年に発表した僕の見ている風景の話をします。

(余談ですが、わたしの「嵐さん」のイントネーションは「あら↑し↑さ↑ん↑」です。愛称としてのさん付けとかいうアレです)

 

当時は初回盤・通常盤どちらも2枚組で、且つソロ曲が通常盤にも入っているということで話題になっていた印象があります。それまではソロ曲は初回盤にしか収録じゃなかったしなあ……とあたかも古参のファンのように言っていますが、わたしが嵐さんのファンになったのはこの前年の「マイガール」前後なので、ファン歴としてはそこそこといったところでしょうか。ですが過去のアルバムはすべてレンタルで借りて聞いていたため、そういう知識だけはあるのです。

 

さてさて、この『僕の見ている風景』、まずジャケットの色味が好きなんです。可愛い。柄と色味がバラバラのようでまとまっている様子は、このアルバムと彼らを表現している感じがします。そもそも収録されているシングル曲の幅広さ(「Everything」「マイガール」「Troublemaker」「Monster」)を思えば、ある種必然とも言えるような気がしますね。

 

わたしは嵐さんのアルバムの中ではこのアルバムがベスト3に入るくらい好きで、これを買う半年前にiPod nanoを父に買ってもらったこともあり、ほんとうに繰り返し繰り返し聴いていました。このアルバムを聴くと楽しいことも辛いことも含めていろんなことが思い出されて、間違いなく『僕の見ている風景』が「わたしの見ていた風景(もっと言えば、一般的に青春と呼ばれる時期の心象風景)」も作っていたんだろうなあ、といまでは思います。

Summer Splash!」を聞けば夏休みの午前部活から帰るときの青い空と真っ白な入道雲と風にそよぐ稲を思い出すし、「movin' on」を聞けば受験勉強の日々を思い出すし、「むかえに行くよ」を聞けばいろんなことに悩んで眠れなかった夜を思い出します。

 

そういえば、部活の大会も高校受験も大学受験も彼らと一緒に乗り越えたよなあ、と思うと、わたしが最初に聴いた『Time』(2007年発表)や他のアルバムも含めて、彼らには感謝してもし足りないなあという思いでいっぱいです。

 

と言いつつもわたしは他のことにお金を使っているため(今年だけでアニメのDVD何本買ったんだろう)、まだ今年のアルバムを買えてないんですけど、そのうちきちんと購入して、また彼らが新しく表現するきらめきと向き合いたいなあと思っています。

機械と人間の方法論

※タイトルは堅いですが内容はいつも通りのテンションでお送りしております。

 

はてなブックマークを何となく眺めていたときのこと。アドベントカレンダーの要領で同じテーマについてみんなで1日ずつ書く、というサイト↓

を見つけたので眺めていたところ、「うたプリ」のカテゴリに見覚えのある方がいらっしゃいました。

 

うたプリに関してはまだまだ初心者であるわたしですが、この方(ちなみにプリンセスゴリラさんという方です)のブログはたまに拝見することがあり、文章の書き方が親しみやすくて良いなあと思いながら読んでいました。

 

そんなプリンセスゴリラさんが12/1のアドベントカレンダーに設定していた記事↓

の名前に、何となく(わたしとやっていることと同じかもしれない)と思い、久しぶりにこの方のブログにアクセスする運びとなりました。

 

そしてわたしの感想がこちら。

 

「歌詞の頻出語句を調べる」のは一緒なんですが、いちから品詞分解したわたしと違い、機械的に行っていたのです。

なるほどその手があったか…………

 

いつも拝見させていただいている「プリキュアの数字ブログ」様が書かれている記事を参考にすれば、できそう! ということでうたプリバージョンに挑戦してみました。

 

なるほど、先駆者がいらっしゃるのか!

 

prehyou2015.hatenablog.com

 

ほんとだった。プリキュアを初代から見ていたわたしとしては、読んでてめちゃくちゃ楽しかったです。途中でラブライブが引き合いに出されたのにはびっくりしたけど、この比較も興味深いものでした。個人的には何度でも読みなおしたい。

 

さて、テキストマイニングの方法は、プリンセスゴリラさんによると以下の通りだそうです。

 

 【テキストマイニングの方法】

1.各楽曲の歌詞を書き出してテキストファイルに保存

2.アイドルごとに、書き出した歌詞をひとつのテキストファイルに錬結(コマンドプロンプトがなかったら死んでいた)

3.KH Coder(http://khc.sourceforge.net/)を使って、頻出語を抽出

4.CSVファイルを整形

 

うわあ……すごい……わからない単語ばかりだ……このまま115曲を分析して結果を出されていますが、わたしの約5倍の曲数だと思うと遠い目をしたくなります。

でも、わたしが先行研究としている論文(平成22年度 卒業論文 「コブクロの歌詞の表現特性」)を書いた方は手動で200〜300曲を品詞分解したことを思うと、もはや拝みたいレベルです拝ませてください。  

 

【12/5 追記】

つい先ほど件の先行研究を読み返したところ、

今回データを収集するにあたって手動では限界があるため、文章分析プログラムを使っていったのだが、機械が処理する都合上どうしてもノイズが発生してしまい、100%正確なデータを取り扱うということはできていない。ある程度手動でできるところは手動で行いデータの精度をあげていくことが必要であると感じる。

と書かれていました。えっ待ってプログラムだったんですか……いや、そりゃあ曲数を思えばそうなんですけど、それが良いとは思うんですけど。でもまあ、わたしの曲数はこの方の1/11だし、手動でデータの精度を上げるのが必要って書いてらっしゃるし、強く生きます。わたしは強く生きる(大事なことなので以下略)。

 

機械の方が一般的もしくは普遍的な言葉のカウントは正確だと思うんですけど、造語とか特殊な言葉とかのカウントミスはどうしようもないだろうなあと思うと、わたしが品詞分解とカウントにかけた10時間超の作業時間は無駄じゃなかったと思いたいです。思いたいです(震え声)

 

でもまあ、とりあえずわたしはテキストマイニングとお友達になって、品詞分解のチェックとして使おうと考えているところです。いやでもわたしとお友達になってくれるのだろうか…………

 

戦いは まだまだ続く 12月

12月であることを認識したくない零音です、どうもこんばんは。

夜中の作業もそこそこに、朝10時ごろから14時半までを言葉のきらめきとの戦いに費やしておりました(以下がそのときのわたしの様子です)

 

 

この時間帯に取っている授業は休講だったとはいえ、レポートはめちゃくちゃギリギリでした(まあ、元々の取り掛かりが遅いのは昔からなんですけどね)

 

というわけで、スタミュレポートの第1稿ができました!

できたのはいいんですけど…………

 

 

途中稿に対する先生の添削が返ってきたのです。さてどうしたものか。

実を言うと、途中稿と第1稿では品詞分解以降の論の進め方をがらりと変えてしまっているため、先生の添削が意味を成さない可能性があるような気がして頭を抱えているところです。

とはいえ、わたしが書いたあらすじに対して丁寧に文章添削をして、さらにはわたしのレポートを見て未知の概念を持ち出してくる先生……何者なんだろう(うちのコースの教授です)

 

 

そんなこんなでわたしは2週間後が締め切りの第2稿の提出に向けて、再び言葉のきらめきと戦うことになったのでした。脳内がきらめいている……輝く星が見える……(遠い目)

 

レポートの内容がもう少し整い次第、構成し直してこちらにアップしようと思います(というか、まだこのブログの設定がいろいろと途中なのでそれを先にどうにかしたいというのが正直なところです)

とりあえずのところは気長にがんばろうという気持ちでやっていくつもりですので、見守っていただければ幸いです。