【言語処理100本ノック 2020】Pythonによる解答例まとめ

この記事では、自然言語処理の問題集として有名な言語処理100本ノックの2020年版全100問のPythonによる解答例を紹介します。間違いやより良い方法など、お気づきの点があればぜひお気軽にコメントください。

なお、解答にはGoogle Colaboratoryを利用しており、各記事内のリンクより直接参照することができます。

目的別のオススメ解答順
全100問の解答例
おわりに

目的別のオススメ解答順

言語処理100本ノックは、実務や研究で必要となる基礎力が幅広く習得できるようにとても練られて設計されているため、当然すべて解くというのが理想的なのですが、機械学習を勉強する目的によっては利用頻度の低い知識が含まれていることも事実です。

そこで、ここでは目的に応じて取り組むべき問題の例を参考として示します。

最速で機械学習コンペティションに参加したい

kaggleやSIGNATEといった機械学習コンペに参加したいと思った場合にも、言語処理100本ノックは強力な演習ツールとなります。一方で、コンペは実際に参加しないと得られないものも非常に多いため、ある程度の基礎を習得したあとは、実践にシフトすることが重要です。

そこで、オススメの取り組み順は以下のようになります。Pythonをある程度触ったことがある場合は、最初の導入本は省略してもOKです。

① Python導入本
② 第1章: 準備運動
③ 第6章: 機械学習
④ 第8章: ニューラルネット
⑤ 機械学習手法本

以下、それぞれ解説します。

Python導入本

本当に初めてPythonを触る、という方は、演習の前にPythonの導入本を一冊軽く読みながら、実際にいくつかの例を実行してみることをオススメします。100本ノックに入ったあとの理解度が大きく変わるはずです。以下の2冊はどちらも分かりやすいので、好きな方を選んでみてください。

スッキリわかるPython入門

posted with ヨメレバ

フレアリンク/国本大悟インプレス 2019年06月

posted with ヨメレバ

辻真吾技術評論社 2018年04月

楽天ブックス

Amazon

Kindle

第1章: 準備運動

自然言語処理に限らないPythonによるデータの取扱いの基礎を習得することができます。この段階で、以下の書籍等を参照しながら、numpyやpandasといった基本的なデータ解析ライブラリにも触れておけるとなお良いです。

東京大学のデータサイエンティスト育成講座

posted with ヨメレバ

塚本邦尊/山田典一マイナビ出版 2019年03月14日頃

楽天ブックス

Amazon

Kindle

第6章: 機械学習

2～5章は大胆に省略します。6章では、実際のデータを使ってモデルを学習する意味やモデルの精度とは何か、といった核心的な知識を実際に実行しながら体験することができるため、コンペを目指す方には必須の章となります。

第8章: ニューラルネット

ご存じのとおり、現在多くのアプリケーションのベースやコンペの上位アルゴリズムはディープラーニング、つまりニューラルネットをベースとしています。この章では、とてもシンプルなニューラルネットの実装、および学習ループを自身で設計することを通して、将来避けては通れない発展的な技術を学ぶ上で必須となる基礎知識を習得することができます。

機械学習手法本

ここまでで、実際のデータからモデルを学習し、その精度を確認するといった一連の流れは実現できるはずです。あとは、実際のコンペに参加して実践の中で学んでいくことが一番ですが、最後に機械学習手法の理論・実装を横断的に解説している本を読んでおくことをオススメします。コンペでは、一つの手法がうまくいかない場合に、別の手法を次々に試すことが求められますが、その引出しを作っておくイメージです。

具体的には、以下の2冊が読みやすく、実践的です。