Port 53

明日のための技術メモ

DataScience-NLP100

言語処理100本ノック 2020 第5章 前半

nlp100.github.io 第5章 係り受け解析の前半(40-44まで)解説書きます。 MeCabに続き、CaboChaとクラスとお友達になる章。 勉強会の準備などで解けていなかったけれど、やっと再開。 第5章 後半はこちら 目次 40. 係り受け解析結果の読み込み(形態素) 41. …

言語処理100本ノック 2020 第4章 後半

nlp100.github.io 第4章 正規表現の後半(35-39まで)解説書きます。 matplotlibでグラフ作るの結構楽しい。 ただ、MacBookでmatplotlibに日本語を使うと盛大に文字化けするので、 その対処に苦労した... 第4章 前半はこちら 目次 35. 単語の出現頻度 36. 頻度…

言語処理100本ノック 2020 第4章 前半

nlp100.github.io 第4章 形態素解析の前半(30-34まで)解説書きます。 ますます言語処理っぽくなってきた。MeCabとお友達になる章。 ここだけの話、「吾輩は猫である」読んだことなかった。 ファイルの最後までスクロールして、衝撃のオチだった。 第4章 後半…

言語処理100本ノック 2020 第3章 後半

nlp100.github.io 第3章 正規表現の後半(25-29まで)解説書きます。 一気に難易度上がった。正規表現一覧表と格闘してる。 第3章 前半はこちら 目次 25-28. テンプレートの抽出~MediaWikiマークアップの除去 29. 国旗画像のURLを取得する この章で使うファイ…

言語処理100本ノック 2020 第3章 前半

nlp100.github.io 第3章 正規表現の前半(20-24まで)解説書きます。 ついにJSONが出てきた。そして一気に書くの大変なので解けたら都度更新します。 第3章 後半はこちら 目次 20. JSONデータの読み込み 21. カテゴリ名を含む行を抽出 22. カテゴリ名の抽出 23…

言語処理100本ノック 2020 第2章 後半

nlp100.github.io 第2章 UNIXコマンドの後半(15-19まで)解説書きます。 いい感じにpandas慣れてきて楽しくなってきた。 第2章 前半はこちら 目次 15. 末尾のN行を出力 16. ファイルをN分割する 17. 1列目の文字列の異なり 18. 各行を3コラム目の数値の降順…

言語処理100本ノック 2020 第2章 前半

nlp100.github.io いきなり5月になって暑くなった。冷やし中華はじめたい気分。 第2章 UNIXコマンドの前半(10-14まで)解説書きます。 最初はwith openして書いてたけど、pandasに慣れたかったのでpandasを使ってみた。 第2章後半はこちら 目次 10. 行数のカ…

言語処理100本ノック 2020 第1章 後半

nlp100.github.io 第1章 準備運動の後半(05-09まで)解説を書きます。 早速05からがヤマだと思った。個人の感想です。 第1章前半はこちら 目次 05. n-gram 06. 集合 07. テンプレートによる文生成 08. 暗号文 09. Typoglycemia 05. n-gram n-gramって何だし、…

言語処理100本ノック 2020 第1章 前半

nlp100.github.io 新型コロナウィルスの流行で外出できるわけでもないので、 暇つぶしと勉強兼ねて遊んでみることにした。 競技プログラミングだと絶対使わないようなものも出てくるので、 ちょうどいいかもしれない。 今回は第1章 準備運動の前半(00-04まで…