MSDN / TechNet フォーラムで良く使われる単語
4回に分けてWebページの解析について紹介しましたので、まだ調査途中ですがMSDN / TechNetフォーラムに関する情報をご紹介します。(独自調査なので100%正確というわけではない点はあらかじめご了承ください)
MeCabで形態素解析して原型を抽出して集約したMSDN / TechNet フォーラムで良く使われる単語を調べてみました。
良く使われる単語Top5
- の
- 、
- する
- ます
- て
・・・つまらないですよね(^-^;
IPAの辞書ですべての品詞を対象にすると上記のような結果になりましたので、そのリストから
-
名詞、動詞、形容詞、副詞を対象とする
-
単漢字 (私、個、何など)を除く
-
ひらがなのみ(する、できるなど)を除く
-
記号や数字を除く
という条件で単語を絞り込みました。
良く使われる単語Top10改 (おおよその出現数)
- 使用 (32,000)
- 思う (28,000)
- 見る (21,000)
- 表示 (19,000)
- 実行 (18,000)
- 作成 (17,000)
- 場合 (16,000)
- ファイル (15,000)
- 設定 (15,000)
- 情報 (14,000)
今度は少し面白そうですね。実は「~する」「~できる」といった単語も多いのですが、どうやらこれは「表示する」「作成できる」といった表現が多いためではないかと思います。他にも面白いものとしては「ござる (20,000)」というのがあります。まさか・・・「Windowsアップデートをしようとしたらインストールに失敗したでござるの巻」という投稿が多いわけではなく、「ありがとうございます」が「ありがとう」「ござる」「ます」に形態素解析されているのだと思います。同様に「くださる (15,000)」は「教えてください」に関係している可能性が高いと思います。MSDN / TechNet フォーラムの参加者の方は丁寧な方が多いんですね(^-^)