日本語形態素解析エンジンを利用した『トレンドキーワード分析システム』
日本語形態素解析エンジンを利用した『トレンドキーワード分析システム』を説明する。
目次
Hadoopインストール手順
1.概要
オープンソースの日本語形態素解析エンジンKuromojiと大量データ処理基盤としてHadoop(MapReduce)を利用して『トレンドキーワード分析システム』を開発する。
<概要図>
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_01.jpg)
<アウトプットイメージ>
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_02.jpg)
2.説明
オープンソースの日本語形態素解析エンジンKuromojiはJavaで実装されており、ライセンス「Apache v2 License」として提供されている。
独自単語の辞書登録も可能であるため、単語分割の精度を上げる事ができる。
◎ atilika
◎ kuromojiのソースコード
案件情報の記載がある大量テキストデータから頻出キーワードと日付をグラフ化し頻出傾向を特定する。
技術キーワードと出現タイミングを「<アウトプットイメージ>」のように出力するもの。
3.開発手順
Eclipseで空のmavenプロジェクトを作成する。
「Create a Maven project」リンク押下
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_03.jpg)
「Create a simple project(skip archetype selection)」を選択
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_04-1.jpg)
「Group Id」と「Artifact Id」を入力する
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_05.jpg)
pom.xmlファイルを編集する
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_06-1024x558.jpg)
ipadic利用
ipadicも利用可能とする
pom.xmlを編集しkuromoji関連ライブラリダウンロードしipadicも利用可能とする。
※本系サイトの説明通り「kuromoji-ipadic」辞書を利用
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_07-1024x906.jpg)
Mavenを実行
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_08-1024x910.jpg)
ビルド状況を確認
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_09-1024x667.jpg)
ライブラリが生成完了
ライブラリが生成された状態。※コアライブラリとIPADICのライブラリ
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_10-1024x666.jpg)
プログラム実行
プログラムを作成し実行。※Java単体での実行が確認できる
「C://temp/sample.txt」ファイルを読み込み行毎にトークン分解できている様子が分かる
![](https://www.a-frontier.jp/wp/wp-content/uploads/2023/05/bigdata05_11-1024x548.jpg)
<<Hadoopでの処理を実装中>>
大量テキストデータをHadoop(MapReduce)で処理する事で水平負荷分散を可能にするもの。