top of page

お盆休みは「自然言語処理入門」

執筆者の写真: 靖宏 河畑靖宏 河畑

いつもの夏ならば「やましろ夏祭り」の夜店のお世話があるのと、自営業なのであえて混雑するお盆にお出かけする必要もないので、いつもお盆は自宅で過ごしています。


今年の夏はコロナ騒動で「やましろ夏祭り」は中止(山代温泉に来てくれるちびっ子たち、ごめんねm(__)m)。というわけでうちで過ごすお盆は変わらないのですが、時間に余裕ができた。


というわけで、今年のお盆休みは、うちの事務所のデータサイエンス部門でちょっと弱い感じがする「自然言語処理」を学習し直してみることにしました。


テキストは2020年に発売になったこれ。

「自然言語処理」というのは文章を分析して、そこから分類や予測を行うこと。文章を分析するのは、コンピュータというのは数字しか受け付けてくれませんので、文章を単語に分類して、どの単語の出現頻度が高いとか、周辺の単語との関係とか、これらをすべて数字で表現することで、その文章の特徴とする必要があります。だからほとんどが数字で入力されているエクセルのデータを扱うのとずいぶん違う。


まあ機械学習とひとくくりに言っても、エクセルデータのようなテーブルデータ、時系列データ、画像認識、自然言語処理とそれぞれ手順に癖があるの。高校で英語、国語、数学、世界史、物理をそれぞれ学習するみたいなものか。


さて、この本ですが第6章まではロジスティク回帰モデル、第7章以降が深層学習モデルを使っています。


自然言語処理に関する記述は、数式はほとんどなし。大変読みやすい文章でスイスイ読み進めることができます。自然言語処理の流れを理解するための良著としてお勧めできます。


ただ後半の深層学習モデルを使ったところでは、モデルをsubclassAPIで構築する関係から、深層学習は初めてという方にとっては、書かれているコードの意味が分からない、ただの写経になってしまう可能性が高い。


この本の読者は、①pythonの文法は理解できる、②機械学習の本を1冊仕上げた、③深層学習、特にtensorflowはシーケンシャルモデルは理解できる、プラス「自然言語処理」をちょっと見てみたいなぁ、という何とも微妙なところになるかと思います。


あ、それと文中のコードを実行するとき、GPUで処理ができるものでも15分くらいかかるものがあります。この本に限らないのですが、深層学習を学ぶときはある程度の金額の投資が必要かもしれませんね。



 
 
 

Comments


bottom of page