分析に役立つ「共起ネットワーク」を知っていますか。分析にあたって良く出てくる言葉を線で結んだ図です。今回は、共起ネットワーク分析についてメリット・デメリットから作成手順、おすすめツールまでご紹介します。
大量のアンケート回答やSNSのコメントを前に、「結局、何が一番大事な意見なのか分からない」と感じたことはありませんか? 文章は数字データと違って答えが一目では見えにくく、読む人の感覚によって解釈もばらつきがちです。
そんなときに役立つのが共起ネットワーク分析です。文章に出てくる言葉同士の関係を地図のように可視化し、「どんなテーマが中心なのか」「どの意見がつながりを持っているのか」を一目で把握できます。
この記事では、共起ネットワーク分析の基本からメリット・デメリット、実際の活用方法までを、初心者にも分かりやすく解説します。読み終えるころには、テキストデータをただの文章の集まりではなく、新しい気づきを生む資源として活用できるイメージがつかめるはずです。参考にしてみてください。
共起ネットワークとは、文章の中でよく一緒に出てくる言葉を線でつないだ図のことです。たとえば「ラーメン」と「スープ」「美味しい」が何度も一緒に出るなら、それらは友達同士のようにつながります。
共起ネットワークとは友人関係を地図にしたようなものです。少人数の仲良しグループなら関係を把握しやすいですが、たくさんいてお互いにあまり交流がなければ、全体のつながりは分かりにくくなります。そんなとき、相関図を作ると整理しやすくなるでしょう。
こんな風に「つながりが深い重要キーワード」を見つければ、顧客の本音や課題を短時間で把握しやすくなります。単語同士の関係を見える化することで、資料や戦略にも説得力を加えられるので、共起ネットワークはビジネスで活用されています。
ここでは、共起ネットワークを使って分析するメリットとデメリットを考えてみます。
共起ネットワークを使うとたくさんの文章をまとめて見ることができるので、大事なテーマやよく出てくる言葉がすぐ見つかります。関係の強い言葉同士が線でつながるので、文章の中の「隠れた関係」が見えやすくなるのです。
関係性がわかればどこを深掘りすればいいかが分かり、ムダな調べものが減ります。専門知識がなくても直感的に理解しやすいのも、初心者にとって嬉しいポイントです。
意味を読み取るには少し練習や知識がいるのが、使いにくいと感じる理由の一つです。図の作り方や設定を間違えると関係が弱い言葉までつながってしまい、かえって見辛くなります。関係が深そうに見えても、実際には偶然一緒に出ただけの言葉の場合があるのも、難しいところです。
図を見ていて分かりにくいと感じたら、原文を確認したりセンチメンタル分析を併用するといった方法で複合的に分析しましょう。
共起ネットワークは、次の5ステップで作成します。
1. テキストデータの収集
2. クリーニング・整形
3. 共起行列の作成
4. ネットワークの構築
5. 可視化と解釈
まずは分析に使う文章を集めます。対象となるのはSNSの投稿・アンケートの自由記述・Web記事・書籍・顧客レビューなどです。ここで重要なのは、信頼性が高く、目的に合ったデータを集めることです。
たとえば顧客の声を分析するなら、実際のレビューやアンケート回答が最適です。ノイズの多いデータばかりでは分析結果が不正確になるため、最初の段階で「質の良い文章」を選ぶことで分析精度が高くなります。
集めた文章には、不要な情報が多く含まれています。まず、HTMLタグ・記号・URLなど意味を持たない部分を削除します。次に「パソコン」と「PC」のように表記が違う言葉を揃えて、統一感を持たせます。さらに、文章を単語ごとに分ける作業(トークン化)を行い、必要に応じて「の」「そして」など意味の薄い言葉を取り除きます。
こうした前処理を丁寧に行うことで、分析時に正しく言葉同士のつながりを捉えられるようになります。
前処理を終えた文章から、特定の範囲内で一緒に現れる単語のペアを数えるのが次のステップです。
ここで作られるのが「共起行列」と呼ばれる表です。まずは文章に含まれる単語を一覧化し、それぞれがどのくらい一緒に出てくるのかを記録します。表のマス目(セル)の数値が大きければ大きいほど、その単語同士がよく一緒に使われているという意味になります。
共起行列をもとに、特に関係が強い単語同士をつなげて図を作ります。たとえば「5回以上一緒に出たら線をつなぐ」というように基準を設定し、それ未満のペアは省きます。図を描くときは、単語そのものを丸い点(ノード)にし、一緒に出る関係を線で結びます。
駅(単語)と路線(関係)でつくられる路線図のようなものと考えると、イメージしやすくなるでしょう。
最後に、専用のツールを使ってネットワークを可視化します。専用ツールはGephi・KH Coder・PythonのNetworkX・nlplotなどがあります。単語の出現頻度が多いものは大きく表示され、同じグループに属する単語は色分けされます。また、線の太さは一緒に出てくる強さです。
出来上がった共起ネットワークを見ながら、どの単語が中心にあるのか、どのグループが強くつながっているのかを解釈することで、文章の背後にある傾向を把握できます。
共起ネットワークを作るには、無料で使える「KH Coder」というパソコン用ソフトが便利です。日本語の文章にも強く、画面を見ながらマウスで操作できるため、パソコンに詳しくない方でも始めやすいでしょう。
特に、データを集めたあとの作業(不要な部分を消す・言葉を整える・言葉同士の関係を数える・言葉の関係を図にするなど)を、マウス操作で直感的に進められるのが良いところです。難しいプログラムを組む必要はなく、クリック操作だけで「言葉の関係図」を形にできます。どこを詳しく調べればいいかがひと目で分かり、分析のハードルがぐっと下がります。
今回は、共起ネットワーク分析について解説しました。文章の中で「よく一緒に出てくる言葉の関係」を見える化することで、隠れたテーマや重要なポイントを直感的につかめることがお分かりいただけたと思います。アンケートの自由回答やSNSのコメントなど、膨大な文章データを前に「どこから手をつければいいのか」と迷う場面でも、共起ネットワークは大きな助けになります。
ただし、分析を正しく進めるためには、データの前処理や図の解釈に一定の知識が必要です。知識がない方は、KH Coderのオフィシャルプラグインを取り入れるのがおすすめです。プログラミング不要で操作できるので、初めての方でも共起ネットワーク分析を行いやすくなります。詳細を知りたい方は、次のページをご覧ください。