2023年11月16日木曜日

YouTubeコメントのテキストマイニング

 2019年度卒業生のゼミ論文である「YouTuber 東海オンエアについての考察 ~投稿動画のコメントから東海オンエアの人気を分析〜」の内容を紹介しました。
この研究では、再生回数が多い動画と少ない動画のコメントを分析することで、再生回数が多い動画の特徴を調べました。その結果、視聴者から特に注目されている動画内ポイントとして、メンバーの謎の動き、ふと出た言葉、巧みな言葉選びといったことが指摘されています。
この研究では、学生が目視で3000以上のコメントを1つ1つ確認して分類したため、大変な作業だったと思います。本人が好きなYouTuberだからできた研究と言えます。

今回のゼミでは、YouTubeからコメントを取得して、テキストマイニングする方法を説明しました。テキストデータをコンピュータで定量的に解析し、有用な情報を取り出す技術のことをテキストマイニングと言います。様々なソフトウェアがありますが、今回はKH Coderを用いました。形態素解析して、単語の使用頻度を調べたり、共起ネットワーク図を描いたりすることがプログラミングなしで簡単に行えます。投稿内容の傾向を大まかにつかむことができます。大量のコメントでも、簡単に分析ができます。しかし、詳細な分析をするには人間がコメントを読むしかないでしょう。

2023年5月18日木曜日

KH Coderを用いた歌詞分析演習

以下の論文の紹介をして、同じ手順で演習を行いました。

大出 彩,松本 文子,金子 貴昭「流行歌から見る歌詞の年代別変化」, 人文科学とコンピュータシンポジウム「じんもんこん2013」論文集, pp.103-110, 2013年

この論文では、日本レコード大賞および優秀作品賞受賞曲の計344曲を対象に、年代ごとに表れる歌詞の変化を調査しています。その結果、例えば、1990年代後半から2000年代にかけてネガティブな内容からポジティブな内容へ変化が見られることが示されています。

KH Coderを使って、レコード大賞曲を対象に同様の調査をしました。まずは、論文と同様のコーディングファイルを用いて、コードと年代のクロス集計し、カイ二乗検定結果を確認してもらいました。カイ二乗検定については、先週のゼミで説明と演習を行っています。予定では、コーディングファイルの書き方の説明をして、各自で工夫して新しいコードを追加して分析してもらうつもりでしたが、時間が足りませんでした。

今回の演習で、KH Coderによる分析の仕方に慣れたと思います。