荷物持ちでも構わない

文系大学4年生からデータサイエンティストを目指して頑張りつつ、書きたいことを書きたいときに書きたいだけ書く、ルール無用雑記ブログ。

MENU

テキストマイニング

卒論のテーマ選びに失敗した結果、テキストマイニングを独学で習得する必要が出てきてしまったので、仕方なく勉強したことを記録していく場所。 スクレイピングについてもここに書いていくかも。

KHCoderのベイズ学習でツイートの属性を機能的/情緒的に分類した

以前、RとKHCoderを使ってSHARP公式ツイッターのツイートをクラスタリングする記事を書いた。 このときは「教師なし学習」による分類だったので、自分の思い通りのクラスターを作ることができなかったが、今回は、単純ベイズ分類器(ナイーブベイズフィルター…

RとKHCoderを使ってSHARP公式のツイートをテキストマイニングする

一昨日、昨日と、テキストマイニングについての記事を書いてきたが、 今日は、データ取得→加工→形態素解析→クラスタリング という一連の流れをやってみようと思う。 使うツールはRとKHCoderとMeCab。 一昨日と昨日の記事を読んでいないという人は、先にそっ…

Excelで正規表現検索・置換ができるアドインでデータ加工を効率化

昨日の記事(KHCoderを使って文章の形態素解析とクラスタリングをやってみた)では、KHCoderというフリーソフトを使って、各新聞社の社説を形態素解析してクラスタリングするという、テキストマイニングの一連の流れをやってみた。 僕はテキストマイニングにつ…

KHCoderを使って文章の形態素解析とクラスタリングをやってみた

卒論の研究のためにテキストマイニングをマスターする必要があったので、今日はそのための勉強をしていた。 とりあえずタイトルの通り、文章を形態素解析してそれを元にクラスタリングするところまではできたので、その方法をまとめて記事にしようと思う。 …