最近IoT絡みの話題ばかりでしたので、ちょっと違う話題も

テキストマイニングについて備忘録です。

テキストマイニング(text mining)は通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。

テキスト文書の中からデータを抜き出す仕組みです。

現在想定しているの

SNSを活用した農作業マニュアルのタグキーワード自動検出です。

【朝日新聞 SNSで集めた農業マニュアル活用の記事】

現状は、私自身が手作業で実施していますがw
大量のデータが集まり、自動でタグ付けする場合に使用します。

農業や農作業に関する言葉ですから比較的簡単です。

①頻出度の高い内容を抽出しキーワードDBに蓄積して行きます。

②文章追加時に自動的にキーワード化(タグキー)と紐づけして行くイメージです。

これにより、タグキーワード検索が可能になります。
埋もれていた情報も再出現する訳です。

例をあげてみます。

テキスト文書

そろそろシロイチモンジヨトウの動きが活発化する時期ですね!
我が家の葱も所々に食害が見られます。
通常の消毒は温度が上がらない早朝に行っていますが!…
ヨトウ虫をメインに考えた場合は夕方に行います。
何故かと言うと、ヨトウ虫は夜行性なので遅い時間ほど葉の表に出て来て活動します。
それなので直接、殺虫剤を効かせたいのであれば!
やはり夕方の時間帯がベストですね。
通常の殺虫剤+脱皮阻害剤なども同時に使うとより効果的です。

これを抽出ツール(テキストマイニング)を使用して

【キーワード抽出結果】
シロイチモンジヨトウ、ヨトウ虫、殺虫剤、脱皮阻害剤、夜行性、食害、消毒、活発化

この様な感じで、キーワードを溜めて行きます。
このキーワードを使用して、集まったテキストに再検索をかけると
関連文書が検索結果として表示される訳です。

「ヨトウ虫、消毒」とか「夜行性、食害、活発化」などのタグキーワードで検索をかけると
該当の文章が表示される訳ですね。

第一段検索としては、充分使用出来ると思いませんか?

第二段検索は、文章としてゆらぎ検索?を可能にすればもっと便利になりますね
この分野はこれから進歩して来るでしょうからゆっくり待ちます。

こんな質問で検索を可能にします。

「ヨトウムシを発生させないために事前対策方法は」

こんな質問に自動で回答が出来るようになれば、一人前ですね。

次は、こんなAI的な機能が無料で使える時代がキター―――と言う話題です。