【MeCab】文章を単語に分割する

 

この記事では、文章を単語に分割する方法について紹介します。

 

文章を単語に分割するのは形態素解析とも呼ばれていまして、文章を分析する上で欠かせない技術でもあります。

 

Pythonのライブラリである「MeCab」を使うと簡単に形態素解析ができます。

 

単語に分割するだけでなく、単語の品詞(動詞、名詞、接続詞)まで判別してくれる優れものです。

 

スポンサーリンク

 

準備

 

Ubuntu18.04にMeCabを入れて、Pythonでコーディングしていきます。

 

形態素解析を行うMeCabをUbuntuにインストールします。その後に、neologdという単語の辞書をインストールします。

 

この辞書があると、最近のトレンドの単語、例えば、2018年の流行語大賞である「災害級の暑さ」を1つの固有名詞として解釈してくれます。

 

 

Pythonでmecabを使うためのmecab-python3をインストールします。

 

名詞と動詞を取り出す

 

使う準備が出来たところで、文章中の名詞と動詞を取り出してみましょう。

 

 

分割した単語の品詞が分かるので、名詞か動詞かで判別します。

 

実行すると以下のような結果になります。

 

 

「恋」と「ダンス」、「災害級」と「暑さ」が分割されなかったのを見ると定期的に辞書が更新されているのが分かりますね。

 

固有名詞を取り出す

 

固有名詞の説明は以下の通り。

 

同一の部類に属する個々の事物を他と区別するために、それぞれに与えられる特有の名称。 たとえば人名、地名、国名、団体名、商品名の類で、文法的には名詞の一類として扱われる。

 

つまり、地名などの特有の名称ってことですね。これをコードで自動抽出してみます。

 

 

実行結果は以下の通り。

 

 

‘今日’、’新幹線’、’うなぎ’は、固有名詞ではありませんが、新幹線の名前や地名は固有名詞です。

 

ABOUTこの記事をかいた人

のっくん

理系院卒で大企業の研究所に就職。 趣味はプログラミング、レアジョブ英会話、筋トレ、旅行。 Twitter:@yamagablog