先日作ったネガポジ判定機は、文章中のネガティブな単語の数とその重みとポジティブな単語のものを比較して、どちらが多いかで文章全体がネガティブか、それともポジティブかを判定する単純なものでした。
今回はそれを大幅修正して、大量のネガティブな文章とポジティブな文章を学習させて、ツィート自体がネガティブかポジティブかを判定できるものにしました。
そのためにはネガティブ文章とポジティブ文章のそれぞれの見本を大量に集めてくる必要があります。
そこで今回はアマゾンの商品購入のレビューの☆一つと二つをネガティブ文、四つと五つをポジティブ文とみなすことで、学習を行ってみた。学習とはいえ自分が学習するわけではない。コンピュータに「こんな文がポジティブでこんな文がネガティブなんですよ」と教え込んだわけ。
似たような商品
レビューならば、80%を少し超える精度でネガティブ・ポジティブを判定できる程度になった。ただ、商品レビューとツィートでは文章の系統が異なるような気がするので、これで学習したものをそのままツィートに適用していいかどうかは疑問が残るところです。
でもネガ・ポジの文を大量に手に入れるのは、なかなか難しいところがあって、今回はこれでやってみます。
結果は
・東京オリンピック ポジ33、ネガ67
・池江璃花子 ポジ78、ネガ22
となりました。
これは東京オリンピックのもの。一番左の列で、1がポジティブで、ゼロがネガティブ。
東京オリンピックに出場する選手は好感が持たれているが、東京オリンピックをやろうとしている人たちは嫌われているみたい。
内容を見てみても、おおむね人間の感覚と同じようにネガ・ポジ判定を行っているみたいです。
でもよく見てみると、
「東京は今だって「安心安全」では\r\nありません。\r\n「バカ政府・変異株・酷暑とマスク・屋根ナシ空調効かずの国立競技場・数十万の人の群れ」\r\n感染オリンピックは中止」とか
「池江選手を盾にすれば誰も文句は言えないだろうという人質作戦。それにしても未だこんなこと言ってるのか。>\r\n池江璃花子を五輪旗手に」というツィートがポジティブであるなど、
イマイチなところもあります。
ちなみに、私が住んでいる「加賀市」でやってみると、
ポジ79、ネガ21という結果になりました。
温泉客が少なくて後ろ向きのツィートが多いのかと思ったら、そうでもなくて拍子抜け。
Kommentare