あまり大したコードは書かないので今まで何気なく使っていましたが、最近ライブラリーのバージョン違いによって変なことになる頻度が高くなってきたのが気になっています。
そこで思い切って案件ごとに仮想環境を構築することにしました。そのたびに何でも入れ直すのが面倒だけど。
それはいいとして、この際だから今まで使っていたネガポジ感情分析器をosetiを使って見直すことにしました。osetiは、ネガポジのそれぞれの単語の数とネガポジの程度でどちらが優勢か判定してくれる優れもの。
マイナス1が完全にネガティブ、プラス1がその逆で完全にポジティブ。ゼロがニュートラルになります。
「金沢市」のキーワードでツイートを100個抽出して分析器にかけると、結果は、
0.2153
まあポジティブなツィートが多そう。
スコアのヒストグラムをみるとこんな感じで分布しています。
ニュートラルをちょっと越えたところ、0.1台に過半が集中しているのが分かります。
osetiは単語によってネガティブ・ポジティブの重みを換えてあるとはいえ、例えば「薄いノート」pcの「薄い」はポジティブだが、「薄いコーヒー」とかになるとネガティブ。このようにどこで使われるかによってネガポジが逆転する単語があるので、注意が必要です。
そのほか
「店は汚いけど味は抜群」
「味は抜群なのに店は汚い」
になると、osetiでは「汚い」がマイナスで、「抜群」がプラスになり、どちらの文も同じスコアになってしまう。でも感覚としては前者はポジティブだけども、後者はネガティブ。このように語順による意味の違いもあります。
だから今まで使ってきた「文全体を見てネガポジを判定する」分析器はまだまだ捨てられそうもありませんね。
Comments