4回に分けてWebページの解析について紹介しましたので、まだ調査途中ですがMSDN / TechNetフォーラムに関する情報をご紹介します。(独自調査なので100%正確というわけではない点はあらかじめご了承ください)
MeCabで形態素解析して原型を抽出して集約したMSDN / TechNet フォーラムで良く使われる単語を調べてみました。
良く使われる単語Top5
・・・つまらないですよね(^-^;
IPAの辞書ですべての品詞を対象にすると上記のような結果になりましたので、そのリストから
という条件で単語を絞り込みました。
良く使われる単語Top10改 (おおよその出現数)
今度は少し面白そうですね。実は「~する」「~できる」といった単語も多いのですが、どうやらこれは「表示する」「作成できる」といった表現が多いためではないかと思います。他にも面白いものとしては「ござる (20,000)」というのがあります。まさか・・・「Windowsアップデートをしようとしたらインストールに失敗したでござるの巻」という投稿が多いわけではなく、「ありがとうございます」が「ありがとう」「ござる」「ます」に形態素解析されているのだと思います。同様に「くださる (15,000)」は「教えてください」に関係している可能性が高いと思います。MSDN / TechNet フォーラムの参加者の方は丁寧な方が多いんですね(^-^)