Welcome to MSDN Blogs Sign in | Join | Help

MVP リード 小板公一のブログ

コミュニティ サポート & MVP, MVP リード 小板公一のブログです。

July 2009 - Posts

Bing + Twitter = BingTweets
Bing ( ディシジョンエンジン ) + Twitter (マイクロブログ ) を組み合わせた面白いサービスです。 http://bingtweets.com/ ( 日本語名はビングトゥィートとかビングヒウィッヒヒーになるのでしょうか!? ) 日本語の Bing と Tweeter を表示でき、右上のテキストボックスにキーワードを入力すると両方に反映できます。例えば TechEd と入力すると Bing ではオフィシャルページをはじめとする TechEd の情報が表示され、 Tweet では TechEd Read More...
MSDN / TechNet フォーラムで良く使われる単語
4 回に分けて Web ページの解析について紹介しましたので、まだ調査途中ですが MSDN / TechNet フォーラムに関する情報をご紹介します。 ( 独自調査なので 100% 正確というわけではない点はあらかじめご了承ください ) MeCab で形態素解析して原型を抽出して集約した MSDN / TechNet フォーラムで良く使われる単語を調べてみました。 良く使われる単語 Top5 の 、 する ます て ・・・つまらないですよね (^-^; IPA の辞書ですべての品詞を対象にすると上記のような結果になりましたので、そのリストから Read More...
Webページを解析する4 - その他の細かい点
さて、入力が掲示板のタイトルのように一行 ( 改行がないという意味 ) で文自体も短い場合は今までの処理を施した後に MeCab に流せばよかったのですが、一般的な掲示板の本文は複数行で文もそこそこ長いものになります。また HTML では通常の改行コード (\n) ではなく <br /> などが改行コード?になっています。 そこで掲示板本文を解析する前にいくつかの処理をする必要があります。 例 ) 私が MSDN フォーラムを解析してどのような単語が頻出単語かを調べる場合 署名の削除 Read More...
XNA Creators Club公式サイトオープン
XNA Creators Club 公式サイト ( 日本語 ) http://creators.xna.com/ja-JP/ ついにオープンとなりました。ゲーム作れる人がうらやましい (^-^)/ まだ日本人のクリエーターの作品は承認済みとはなっていないと思いますが、さて第一号はどんなゲームが登場するのでしょう!!! XNA Game Studio Japan 2008 Spring Contest や XNA ゲームクリエーターコンテスト 2008 で完成度の高いゲームがすでに発表されているので非常に楽しみですね。 Read More...
Webページを解析する3 - 大文字小文字と全角半角
期待する結果を得るためには MeCab で処理をする前に大文字小文字の統一、全角半角の統一が必要になります。私の場合は「英数字は半角小文字」「カタカナは全角」で統一することにしました。 ある程度入力データが小さく、全角または半角どちらか一方にのみ統一する場合は Excel の JIS または ASC 関数を使うことができるのでプログラムが面倒な場合はこちらを利用すると楽だと思います。 ( 私も最初はそうしていました ) では C# で実際にプログラムすると・・・結構大変なようです。そこで VB.NET Read More...
Webページを解析する2 - 表記ゆれへの対応
Web ページを解析する上でもっとも大変なのは表記ゆれにどのように対応するかにあると思います。 例えば Windows 7 の場合、 IPA の辞書のみを利用していると前回の投稿のように Windows 7 という切り出しができませんし、その他にも Win7 といった単語が Windows 7 とは別の扱いになってしまいます。 そこで MeCab のユーザー辞書に windows 7,0,0,10,Microsoft,Windows,7,*,*,*,Windows 7 windows7,0,0,10,Microsoft,Windows,7,*,*,*,Windows Read More...
Webページを解析する - MeCab & MeCabSharp & C#
MeCab は京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです。 ( 公式ページから抜粋 ) 詳しくは以下のサイトをご覧ください。 http://mecab.sourceforge.net/ 特徴の中に各種スクリプト言語バインディングの項目があり C# も記載されています。ちなみに C# はスクリプト言語・・・ではないです (^-^; ちょっと面白そうなので実際に C# でプログラムを組み、使ってみることにしました。下準備が大変かと思ったのですが、さすがに公式ページで紹介されているだけあって、すでに Read More...
Page view tracker