$0
各行を読取り、UTF8を仮定して、文字単位n-gramのランキングを出力する。
-m ; 最大何個を取り出すかを指定( 未指定なら)
-n N : n-gramの長さ n を指定する。(未指定なら2と見なされる。)
-u : 各行で n-gram を算出し、各行で複数回出現しても 1 と数えて、集計する。
開発上のメモ:
* n-gram で最頻値をとると、m>n に対して、m文字の頻出パターンが、ランキング上 m-n+1回出現することを、うまく抑制したい。
$0
各行を読取り、UTF8を仮定して、文字単位n-gramのランキングを出力する。
-m ; 最大何個を取り出すかを指定( 未指定なら)
-n N : n-gramの長さ n を指定する。(未指定なら2と見なされる。)
-u : 各行で n-gram を算出し、各行で複数回出現しても 1 と数えて、集計する。
開発上のメモ:
* n-gram で最頻値をとると、m>n に対して、m文字の頻出パターンが、ランキング上 m-n+1回出現することを、うまく抑制したい。