じぶんメモ

プログラミングのメモ、日常のメモとか。

2018-01-01から1ヶ月間の記事一覧

n-gramによる文章の類似率を求める

N-gramとは、テキストで隣り合ったN文字のことを示す。 以下では2つ文章を指定された文字数で分割し、2つの文章間で分割した文字がどれだけマッチするかの頻度から、2つの文章の類似率を求める。 def ngram(str, num): res = [] slen = len(str) - num + 1 f…