2024年11月14日木曜日

X(旧Twitter)コミュニティノートの分析

 X(旧Twitter)には、コミュニティノートという、誤解を招く可能性のある投稿に対し一般ユーザが情報を追記できる機能があります。日本では、2023年7月から利用できるようになっています。2024年1月の能登半島地震の際には、真偽不明や誤りの投稿が多くされて、それらにはコミュニティノートが付きました。このコミュニティノートは全てWeb上でテキストファイルとして公開されており、ダウンロードすることができます。

今回は、能登半島地震の前後5日間のコミュニティノートの件数とどのような内容が多いかテキストマイニングをしました。能登半島地震前は国内のコミュニティノート件数は1日200件程度でしたが、地震後は1日600件になったことが分かりました。ワードクラウドや共起ネットワークを作成して調べることで、地震関連のコミュニティノートが多いことも分かりました。

 

2024年11月7日木曜日

X(旧Twitter)ポストのテキストマイニング

X(旧Twitter)ポストの分析演習を行いました。
SNS上の投稿をはじめとするテキストデータをコンピュータで定量的に解析し、有用な情報を取り出す技術のことをテキストマイニングと言います。様々なソフトウェアがありますが、今回はExploratoryを用いました。形態素解析して、単語の使用頻度を調べたり、共起ネットワーク図を描いたりすることが簡単に行えます。投稿内容の傾向を大まかにつかむことができます。
今回は、Hugging Faceにある日本語BERT感情モデルを使って、ポストの内容がポジティブ・ネガティブ・ニュートラルのどれに該当するか分類する方法も紹介しました。
説明後、Xで自分の興味ある言葉を含んでいるポストを取得してもらい、テキストマイニングしてもらいました。下の図は分析してもらったものの1つです。アメリカ大統領に関するポストの共起ネットワーク図です。ネガティブなポストには、日本メディアによる偏向報道に関するものがあったとのことです。