こにしき(言葉・日本社会・教育)

関西学院大学(2016.04~)の寺沢拓敬のブログです(専門:言語社会学)。

朝ドラ105作品のあらすじをテキストマイニング

私の専門分野(戦後英語教育史)的に最新作の『カムカムエブリバディ』にはたいへん興味がありまして、そのもののはずみで、全105作品の傾向を知りたいなと思ってテキストマイニングに手を出してしまいました。むだに時間がかかったので今は後悔しています。

利用したあらすじは以下のサイト。

朝ドラ100 | NHK放送史 | NHKアーカイブス

第1回から第105回の「NHKによる公式のあらすじ」を利用しました。各作品のあらすじは、およそ150字~400字程度。多くもなく、少なくもない程度です。

出現頻度の高い語(ワードクラウド

10作品以上に出現した単語を並べると以下の通り。無意味語(と思われるもの)は削除しています。

ちなみに、単純な出現回数ではなくて、出現作品数で数えています(つまり、理論上の最小値0 ~ 最大値105)。以下、「出現頻度」と言った場合はすべて「出現作品数」の意味です。

f:id:TerasawaT:20211205141222p:plain
10作品以上に出現したキーワード

共起しやすい近い語、しにくい遠い語

上記の「頻度10以上の語」を対象に、共起関係をMDS(多次元尺度構成法)で表現しました。

f:id:TerasawaT:20211205141531p:plain
近い語・遠い語(MDS)

「母』「父」が共起しているところ(左中央)をはじめとして、「まあそりゃそうだろ」といった当然の結果がちらほらみられます。

中央下に「生きる」「支える」「妻」が並んでいるという、一見するとなかなか不穏な結果も。

時代との関係

時代別(60s・70s・80s・90s・2000s・2010年以降の6カテゴリ)と高頻度語をクロス集計して、対応分析にかけたのが以下の結果。

f:id:TerasawaT:20211205142148p:plain
対応分析(世代×頻出語)

正直よくわかりませんが、60年代と80年代はけっこうユニークで、それ以外の年代はわりと似たりよったりという感じでしょうか。

社会構造の時代的な変化というよりも、制作サイドの好みが反映されただけという気もしますが、究極的にはよくわかりません。