Welcome to MSDN Blogs Sign in | Join | Help

MVP リード 小板公一のブログ

コミュニティ サポート & MVP, MVP リード 小板公一のブログです。
MSDN / TechNet フォーラムで良く使われる単語

4回に分けてWebページの解析について紹介しましたので、まだ調査途中ですがMSDN / TechNetフォーラムに関する情報をご紹介します。(独自調査なので100%正確というわけではない点はあらかじめご了承ください)

 

MeCabで形態素解析して原型を抽出して集約したMSDN / TechNet フォーラムで良く使われる単語を調べてみました。

 

良く使われる単語Top5

  1. する
  2. ます

・・・つまらないですよね(^-^;

 

IPAの辞書ですべての品詞を対象にすると上記のような結果になりましたので、そのリストから

  • 名詞、動詞、形容詞、副詞を対象とする
  • 単漢字 (私、個、何など)を除く
  • ひらがなのみ(する、できるなど)を除く
  • 記号や数字を除く

という条件で単語を絞り込みました。

 

良く使われる単語Top10 (おおよその出現数)

  1. 使用 (32,000)
  2. 思う (28,000)
  3. 見る (21,000)
  4. 表示 (19,000)
  5. 実行 (18,000)
  6. 作成 (17,000)
  7. 場合 (16,000)
  8. ファイル (15,000)
  9. 設定 (15,000)
  10. 情報 (14,000)
  11.  

今度は少し面白そうですね。実は「~する」「~できる」といった単語も多いのですが、どうやらこれは「表示する」「作成できる」といった表現が多いためではないかと思います。他にも面白いものとしては「ござる (20,000)」というのがあります。まさか・・・「Windowsアップデートをしようとしたらインストールに失敗したでござるの巻」という投稿が多いわけではなく、「ありがとうございます」が「ありがとう」「ござる」「ます」に形態素解析されているのだと思います。同様に「くださる (15,000)」は「教えてください」に関係している可能性が高いと思います。MSDN / TechNet フォーラムの参加者の方は丁寧な方が多いんですね(^-^)

     

Posted: Tuesday, July 28, 2009 7:05 PM by kkoita
Filed under:

Comments

No Comments

Leave a Comment

(required) 

(required) 

(optional)

(required) 

  
Enter Code Here: Required

Comment Notification

If you would like to receive an email when updates are made to this post, please register here

Subscribe to this post's comments using RSS

Page view tracker