Current Path : /compat/linux/proc/self/root/usr/local/share/doc/mecab/ |
FreeBSD hs32.drive.ne.jp 9.1-RELEASE FreeBSD 9.1-RELEASE #1: Wed Jan 14 12:18:08 JST 2015 root@hs32.drive.ne.jp:/sys/amd64/compile/hs32 amd64 |
Current File : //compat/linux/proc/self/root/usr/local/share/doc/mecab/partial.html |
<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>MeCab: 制約付き解析 (部分解析)</title> <link type="text/css" rel="stylesheet" href="mecab.css"> </head> <body> <h1><font style="color:black;background-color:A0ffff">制約付き解析</font> (<font style="color:black;background-color:99ff99">部分解析</font>)</h1> <p>$Id: partial.html 161 2008-02-03 09:58:46Z taku-ku $;</p> <h2>概要</h2> <p> 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 </p> <p> たとえば、「にわにはにわにわとりがいる。」という文に対して、 「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素 であるというように指定した上で解析することができます。このとき、 制約に反する4文字目の「は」が単独で形態素となったり、「にわとり」が「にわ」と「とり」 に分割されるような解析候補は排除されます。 </p> <h2>入力フォーマット</h2> <p> <font style="color:black;background-color:ffff66">MeCab</font> のデフォルト出力と同じようなフォーマットで制約を記述します。 <font style="color:black;background-color:ffff66">mecab</font> は -p (--partial) オプション付きで起動する必要があります。 </p> <p>各行は以下のいずれかに該当します.</p> <ul> <li>文断片<br> 文の断片です。制約がないときと同じように通常の形態素解析が行われます。ただし文断片をまたぐような 形態素は出力されません。 <li>形態素断片<br> それ以上分割されない、ただ一つの形態素です。この断片がそのまま出力されます。 形態素断片は必ず<br> <pre>表層\t素性パターン</pre> という形で表記する必要があります。\t がない場合は文断片として処理されます。 <li>EOS 文の終わりを示すマークです。文の終わりには必ず指定してください。 </ul> <h2>素性パターンの記述方法</h2> <p> CSV で記述します。* をワイルドカードとして使うことができます。</p> <ul> <li>* : すべての素性 <li>名詞: すべての名詞 <li>*,非自立: 品詞の第二分類が非自立のもの </ul> <h2>例</h2> <p>品詞の部分に * が指定されると、その単語で切り出し、品詞は適当に最適なものを付与します。</p> <pre> にわ * に * はにわ * にわとり * が * いる * EOS</pre> <p>品詞そのものを指定することができます。( "*" はワイルドカード)</p> <pre>にわ * に 助詞 はにわ * にわとり * が 接続詞 いる *,非自立 EOS</pre> <p>品詞のカラムを指定しないと、そのトークンは文断片となり、制約がないときと同じように解析されます。ただし、文断片をまたぐような形態素は出力されません。</p> <pre>にわ には にわ にわとり がいる EOS</pre> <h2>制限</h2> <h3>制約の限界</h3> <p> 制約付きの解析は、いったんラティスを作って、制約を満たさないものを枝刈りするという方法で実装されています。 もし制約を満たすものが一つもない場合、ダミーの形態素を作成します。ただしダミーの形態素の品詞情報(素性)は 制約の情報がそのまま使われます。以下の例では「こんな長い入力を一形態素にしてみる」を 一形態素と指定していますが、ラティス上に存在しないので、制約の品詞をそのまま出力しています。 </p> <p> <pre> % <font style="color:black;background-color:ffff66">mecab</font> -p こんな長い入力を一形態素にしてみる 名詞 EOS こんな長い入力を一形態素にしてみる 名詞 EOS </pre> <h3>文字列の長さ</h3> <p> 制約解析を実装するために、制約の両端に半角スペースを挿入した入力文を内部で作成して解析しています。 そのため文字列の位置がずれます。 </p> <hr> <p>$Id: partial.html 161 2008-02-03 09:58:46Z taku-ku $;</p> </body> </html>