本文へジャンプ

ホーム > アド・プロ社員の注目NEWS > テクノロジー、ツール > グーグル、日本語N-gramデータを公開

2007年11月02日 グーグル、日本語N-gramデータを公開

グーグルは11月1日、Webから抽出した約200億文(約2,550億単語)の日本語データにより作成した、
単語単位のN-gramデータを公開したそうです。
データの配布は特定非営利活動法人言語資源協会を通じて行なわれ、学術目的限定でデータを記録したDVD-Rを有償で入手できる。

 グーグルが公開したN-gramデータは、例えば、「グーグルで」という言葉の後ろには、「検索」という単語が最も多く出現するといったことがわかるなど、直前の単語の並びから次に来る単語の出現頻度を記録したもの。直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。

注目すべきは、データを作成された、ソフトウェアエンジニアの工藤拓氏と賀沢秀人氏が、
【勤務時間の20%を自分の好きなことに使ってよい】という、グーグルの「20%ルール」による
成果だという点ではないでしょうか。
http://internet.watch.impress.co.jp/cda/news/2007/11/02/17393.html

月別 注目NEWS

▲ページの先頭へ