Current Path : /compat/linux/proc/self/root/usr/local/share/doc/chasen/ |
FreeBSD hs32.drive.ne.jp 9.1-RELEASE FreeBSD 9.1-RELEASE #1: Wed Jan 14 12:18:08 JST 2015 root@hs32.drive.ne.jp:/sys/amd64/compile/hs32 amd64 |
Current File : //compat/linux/proc/self/root/usr/local/share/doc/chasen/manual-j.tex |
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%% %%% 形態素解析システム 茶筌 使用説明書 %%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%% This file is for ASCII jLaTeX. %%% %%% Use `j-article' for NTT jLaTeX. %%% \documentstyle[ascmac,titlepage]{jarticle} \topmargin -10mm \textheight 240mm \oddsidemargin -5mm \textwidth 165mm %\input a4 \title{ \bf 形態素解析システム\\ 『茶筌』version 2.4.3 \\ 使用説明書} \author{松本裕治 ~ 高岡一馬 ~ 浅原正幸} \date{平成 20 年 5 月\\ \rule{0mm}{110mm} Copyright \copyright\ 2008 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座} \def\|{\verb|} \def\*{\verb**} \begin{document} \maketitle \thispagestyle{empty} \vspace*{\fill} \begin{footnotesize} \noindent Morphological Analysis System ChaSen 2.4.0 Users Manual \noindent Yuji Matsumoto, Kazuma Takaoka and Masayuki Asahara \noindent Copyright (c) 2008 Nara Institute of Science and Technology All rights reserved. \vspace{.5em} Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: \begin{enumerate} \item Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. \item Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. \item The name Nara Institute of Science and Technology may not be used to endorse or promote products derived from this software without specific prior written permission. \end{enumerate} \vspace{.5em} THIS SOFTWARE IS PROVIDED BY Nara Institute of Science and Technology ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE Nara Institute of Science and Technology BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. \end{footnotesize} \vspace*{1em} \begin{small} \noindent \begin{tabular}{ll} JUMAN\\ ~ ~ version 0.6 & 17 February 1992\\ ~ ~ version 0.8 & 14 April 1992\\ ~ ~ version 1.0 & 25 February 1993\\ ~ ~ version 2.0 & 11 July 1994\\ ChaSen\\ % ~ ~ version 1.0b1 & 14 October 1996\\ % ~ ~ version 1.0b2 & 15 October 1996\\ % ~ ~ version 1.0b3 & 15 October 1996\\ % ~ ~ version 1.0b4 & 17 October 1996\\ % ~ ~ version 1.0b5 & 15 November 1996\\ % ~ ~ version 1.0b6 & 16 January 1997\\ % ~ ~ version 1.0b7 & 21 January 1997\\ ~ ~ version 1.0 & 19 February 1997\\ ~ ~ version 1.5 & 7 July 1997\\ %~ ~ version 1.51 & 29 July 1997\\ %~ ~ version 2.0b6 & 20 April 1999\\ ~ ~ version 2.0 & 15 December 1999\\ %~ ~ version 2.01 & 20 December 1999\\ %~ ~ version 2.02 & 29 December 1999\\ ~ ~ version 2.2.0 & 06 December 2000\\ % ~ ~ version 2.2.1 & 20 December 2000\\ % ~ ~ version 2.2.2 & 22 February 2001\\ % ~ ~ version 2.2.3 & 24 February 2001\\ % ~ ~ version 2.2.4 & 18 March 2001\\ % ~ ~ version 2.2.5 & 24 March 2001\\ % ~ ~ version 2.2.6 & 17 April 2001\\ % ~ ~ version 2.2.7 & 22 June 2001\\ % ~ ~ version 2.2.8 & 23 July 2001\\ % ~ ~ version 2.2.9 & 08 February 2002\\ ~ ~ version 2.3.0 & 16 February 2003\\ % ~ ~ version 2.3.1 & 19 June 2003\\ % ~ ~ version 2.3.2 & 1 August 2003\\ % ~ ~ version 2.3.3 & 16 August 2003\\ ~ ~ version 2.4.0 & 30 March 2007\\ ~ ~ version 2.4.1 & 3 July 2007\\ ~ ~ version 2.4.2 & 23 July 2007\\ ~ ~ version 2.4.3 & 30 May 2008\\ ChaSen for Windows\\ ~ ~ version 1.0 & 29 March 1997\\ ~ ~ version 2.0 & 15 December 1999\\ ~ ~ version 2.4.0 & 30 March 2007\\ ~ ~ version 2.4.1 & 3 July 2007\\ ~ ~ version 2.4.2-1 & 13 October 2007\\ ~ ~ version 2.4.3 & 30 May 2008\\ NAIST Technical Report\\ ~ ~ 1st edition(NAIST-IS-TR99008) & 20 April 1999\\ ~ ~ 2nd edition(NAIST-IS-TR99012) & 15 December 1999\\ \end{tabular} \end{small} \clearpage \pagenumbering{roman} \tableofcontents \clearpage \pagenumbering{arabic} %----------------------------------------% % 本文 % %----------------------------------------% \section*{はじめに} 計算機による日本語の解析において,欧米の言語の解析と比べてまず問題になるの に次の2点があります.一つは形態素解析の問題です.ワードプロセッサの普及など によって日本語の入力には大きな問題がなくなりましたが,計算機による日本語解 析では,まず入力文内の個々の形態素を認識する必要があります.これには実用に 耐えられるだけの大きな辞書も必要であり,これを如何に整備するかという問題も 同時に存在します.もう一つの問題として,日本語には広く認められ同意を得られ た文法,ないし,文法用語がないという現実です.学校文法の単語分類および文法 用語は一般には広く知られていますが,研究者の間ではあまり評判がよくありませ んし,計算機向きではありません. 日本語の解析に真っ先に必要な形態素解析システムは,多くの研究グループによっ て既に開発され技術的な問題が洗い出されているにも係わらず,共通のツールとし て世の中に流布しているものはありません.計算機可読な日本語辞書についても同 様です. 本システムは,計算機による日本語の解析の研究を目指す多くの研究者に共通に使 える形態素解析ツールを提供するために開発されました.その際,上の二つ目の問 題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変 更できるように配慮しました. 大学で小人数で開発したシステムであり,色々な点で不完全な部分があると思いま す.可能な限り順次改良を重ねる予定です.皆様の寛容な利用をお願いいたします. 本茶筌システムの原形は,京都大学長尾研究室および奈良先端科学技術大学院大学 情報科学研究科において開発された日本語形態素解析システムJUMAN(version2.0)です. JUMANは,京都大学および奈良先端科学技術大学院大学のスタッフおよび多くの学生 の協力を得て作成したものです.また,辞書に関しては,Wnnかな漢字変換システム の辞書,および,ICOTから公開された日本語辞書を利用し,独自に修正を加えまし た.JUMAN 2.0をともに開発した東京大学の黒橋禎夫氏,現在キヤノン勤務の妙木 裕氏には特に感謝いたします. JUMAN開発のきっかけを作って下さった長尾真先生に感謝します.JUMAN開 発に関して様々な形で協力していただいた筑波大学宇津呂武仁氏に感謝します. 奈良先端大在学時の知念賢一氏には,茶筌システムの開発に関して多くの助言をいただきました. 奈良先端大在学時の今一修氏,今村友明氏,北内啓氏には茶筌1.0および茶筌2.0β 版の開発の際に山下達雄氏,平野善隆氏,松田寛氏には茶筌2.0版および茶筌2.2版の開発の際に 種々の助力をいただきました.両氏および茶筌の開発に協力いただいた松本研究室のメ ンバーに深く感謝します. 奈良先端大の鹿野清宏教授を代表とする「日本語ディクテーショ ン基本ソフトウェアの開発」グループの方々には,IPA品詞体系辞書の大幅な 整備を行っていただきました.特に,御尽力いただいた法政大学の 伊藤克亘氏,ASTEMの山田篤氏に感謝いたします.話し言葉の解析を中 心にして辞書の整備に様々な助言をいただいた千葉大の伝康晴氏に 感謝します. 奈良先端大在学時の高林哲氏,工藤拓氏には autoconf,automake 化および RPM パッケージ作成に多くの助言をいただきました. ゴーチュイリン氏,鄭育昌氏,呂嘉氏には中国語版辞書の整備に尽力していただ きました. また,一人一人の名を挙げることはできませんが,茶筌システムに対して多くのコメントと質問をいただいた利用者の方々に感謝します. \begin{flushright} 平成19年3月30日 \end{flushright} \vfill \noindent 本システムに関するお問い合わせは以下にお願いします. \noindent 〒630-0192\\ 奈良県生駒市高山町8916-5\\ 奈良先端科学技術大学院大学\ 情報科学研究科\ 自然言語処理学講座\\ Tel: (0743)72-5240,\ Fax: (0743)72-5249\\ E-mail: {\sf chasen@is.naist.jp}\\ URL: {\sf http://chasen-legacy.sourceforge.jp/} \clearpage %----------------------------------------% \section{茶筌の使用法} \subsection{インストール手順} \label{app:inst} \begin{enumerate} \item 必要なツールをインストールする. 茶筌をコンパイルするには以下のツールが必要である. \begin{itemize} \item Darts\footnote{\tt http://cl.aist-nara.ac.jp/\%7etaku-ku/software/darts/} バージョン 0.3 以降 \item (システムに標準装備されていなければ)libiconv \end{itemize} \item `{\tt configure}' を実行する. \begin{screen}\begin{verbatim} % ./configure \end{verbatim}\end{screen} \begin{itemize} \item Dartsのヘッダファイルを指定する場合 \begin{screen}\begin{verbatim} % ./configure --with-darts=/usr/local/include \end{verbatim}\end{screen} \item libiconvを使う場合 \begin{screen}\begin{verbatim} % ./configure --with-libiconv=yes \end{verbatim}\end{screen} \item libiconvの場所を指定する場合 \begin{screen}\begin{verbatim} % ./configure --with-libiconv=/usr/local \end{verbatim}\end{screen} \end{itemize} コンパイラやコンパイルオプションは自動的に設定される. {\tt configure} の詳しい使用法については {\tt INSTALL} あるいは `{\tt ./configure --help}' の出力を参照のこと. \item `{\tt make}' を実行する. \begin{screen}\begin{verbatim} % make \end{verbatim}\end{screen} 茶筌本体の実行ファイルは {\tt chasen/chasen} に, ライブラリは {\tt lib/} に,辞書作成のプログラムは {\tt mkchadic/} 以下に作成される. OS 標準の make を使うとコンパイルに失敗することがある. その場合は GNU make を使用する. \item `{\tt make install}' を実行する. \begin{screen}\begin{verbatim} % make install \end{verbatim}\end{screen} バージョン2.1からインストール先ディレクトリが変更されており, デフォルトでは以下の場所にインストールされる. {\tt PREFIX} は {\tt ./configure --prefix}で指定することができる (デフォルトは {\tt /usr/local}). \begin{tabular}{ll} {\tt PREFIX/bin/chasen} & 茶筌の実行ファイル \\ {\tt PREFIX/libexec/chasen/} & 辞書作成プログラム \\ {\tt PREFIX/lib/libchasen.*} & 茶筌ライブラリ \\ {\tt PREFIX/include/chasen.h} & ヘッダファイル \\ {\tt PREFIX/share/chasen/doc/} & マニュアル \\ \end{tabular} ただし,以下のものはインストールされない. \begin{tabular}{ll} {\tt perl/ChaSen.pm} & Perl モジュール \\ \end{tabular} \end{enumerate} {\tt chasenrc} はシステムインストール時にはインストールされない. 辞書(ipadic-2.6.0 以降)インストール時に {\tt chasen-config}から {\tt chasenrc}のパスを受け取り, {\tt PREFIX/etc} 以下に {\tt chasenrc} がない場合に自動的に コピーされる.既に{\tt PREFIX/etc} 以下に {\tt chasenrc} が ある場合コピーされないため管理者が手で変更する必要がある. \subsection{実行方法}\label{exec} システムの実行ファイルは, `{\tt make install}' によって {\tt PREFIX/bin/chasen} などにインストールされる. \begin{itemize} \item 形態素解析の実行 茶筌は,以下のように {\tt chasen} コマンドを実行することにより起動される. \begin{screen}\begin{verbatim} % chasen [オプション] [ファイル名...] \end{verbatim}\end{screen} 標準入力,または引数で指定されたファイルから一行ごとに文を読み込んで 形態素解析処理を行なう. \item 処理内容 コスト最小(それぞれの形態素の区切りで最小コストとの差が許容されるコスト幅 以内)の解を求め,結果をオプションに従って表示する. 各オプションの意味は次節にまとめる. \item 使用例 入力ファイルを引数として指定できる.以下に使用例を示す. \begin{screen} \begin{tabular}{llllll} \multicolumn{6}{l}{\tt \% cat temp}\\ \multicolumn{6}{l}{私は昨日学校へ行きました.}\\ \multicolumn{6}{l}{\tt \% chasen temp}\\ 私 & ワタクシ & 私 & 名詞-代名詞-一般\\ は & ハ & は & 助詞-係助詞\\ 昨日 & キノウ & 昨日 & 名詞-副詞可能\\ 学校 & ガッコウ & 学校 & 名詞-一般\\ へ & ヘ & へ & 助詞-格助詞-一般\\ 行き & イキ & 行く & 動詞-自立 & 五段・カ行促音便 & 連用形\\ まし & マシ & ます & 助動詞 & 特殊・マス & 連用形\\ た & タ & た & 助動詞 & 特殊・タ & 基本形\\ . & . & . & 記号-句点\\ {\tt EOS}\\ \end{tabular} \end{screen} \end{itemize} \subsection{実行時のオプション}\label{option} 形態素解析の実行については,いくつかのオプションが用意されている. 以下にそれをまとめる. {\tt -r} など引数をともなうオプションでは,オプションと引数の間には 空白があってもなくてもかまわない. \begin{itemize} \item 解が曖昧性を含む場合の表示方法(曖昧性がない場合はどの方法も同じ表示 となる) \begin{quote} \begin{tabular}{ll} {\tt -b} & 後方最長一致の解を一つだけ表示する(デフォルト)\\ {\tt -m} & 曖昧性のある部分だけ,複数の形態素を表示する\\ {\tt -p} & 曖昧性の組合せを展開し,すべての解を個別に表示する \end{tabular} \end{quote} \item 各形態素の表示方法 \begin{quote} \begin{tabular}{ll} {\tt -f} & カラムを整えて表示(デフォルト)\\ {\tt -e} & 完全な形態素情報を文字で表示\\ {\tt -c} & 完全な形態素情報をコードで表示\\ % {\tt -d} & 各形態素をPrologの複合項で表現し,それらをリストにしたも のを出力\\ {\tt -v} & VisualMorphsのための詳細表示\\ {\tt -F format} & 形態素を {\tt format} で指定された形式で出力\\ {\tt -Fh } & {\tt -F} オプションの出力フォーマットのヘルプを表示 \end{tabular} \end{quote} \item その他 \begin{quote} \begin{tabular}{ll} {\tt -j} & 句点あるいは空行を文の区切りとして解析\\ {\tt -o file} & 解析結果出力ファイルを指定\\ {\tt -w width} & コスト幅を指定\\ {\tt -r rc\_file} & {\tt rc\_file} を {\tt chasenrc}ファイルとして使用\\ {\tt -R} & デフォルトのchasenrcファイル({\tt PREFIX/etc/chasenrc})を 読み込む \\ {\tt -L lang} & 言語を指定\\ {\tt -lp} & 品詞番号と品詞名のリストを表示\\ {\tt -lt} & 活用型番号と活用型名のリストを表示\\ {\tt -lf} & 活用型番号,活用形番号と活用形名のリストを表示\\ {\tt -i} & 入力文の文字コードを選択 (e: EUC-JP, s:Shift\_JIS, w:UTF-8, u:UTF-8, a:ISO-8859-1) \\ {\tt -h} & ヘルプメッセージを出力\\ {\tt -V} & 茶筌のバージョンを出力 \\ {\tt -s} & 制約つき解析 \end{tabular} \end{quote} \end{itemize} \paragraph{{\tt -j}オプションについて} ~ 茶筌では通常,改行をもって一つの入力文字列の終了とする.そのため, 文の途中で改行が挿入されているファイルを解析した場合,正しい結果が 得られなくなることが多い. そのようなときは {\tt -j} オプションをつけると,句読点など(デフォルトで は「.。!?」の4文字)あるいは空行を文の区切りとして解析を行うようになる. また, chasenrc ファイルの「区切り文字」の項目を 指定することにより,{\tt -j} オプションをつけた時の文の区切り文字 を設定することができる. \subsection{出力フォーマット}\label{format} {\tt -F}オプションや,{\tt chasenrc}ファイルの「出力フォーマット」で 出力フォーマットを指定することにより,解析結果の出力形式を変えることが できる. 出力フォーマットの文字列の末尾に `\|\n|' があれば,各形態素情報の 表示ごとに改行を行い,文末の次に `{\tt EOS}' の1行を出力する.末尾に `\|\n|' がなければ,1文中の形態素情報を1行で出力し,行末に改行を 表示する. また,出力フォーマットに `{\tt -f}', `{\tt -e}', `{\tt -c}' を 指定すると,それぞれ {\tt -f}, {\tt -e}, {\tt -c} と同じ出力形式 になる. 出力フォーマットの使用例をいくつかあげる. \begin{itemize} \item デフォルト({\tt -f} オプション)と同様の出力 \*"%m\t%y\t%M\t%U(%P-)\t%T \t%F \n"* または \*"-f"* \item 見出し,読み,品詞をタブで区切って表示 \*"%m\t%y\t%P-\n"* \item 見出し語のみ \*"%m\n"* \item 分かち書き(見出し語を空白で区切って表示) \*"%m "* \item 漢字かな変換 \*"%y"* \item ルビつき表示.``漢字(かな)'' の形式で表示する. \*"%r ()"* \end{itemize} 出力フォーマットの変換文字の一覧を以下に示す. \begin{tabular}{l|l} \hline \hline 変換文字 & 機能 \\ \hline \|%m| & 見出し(出現形)\\ \|%M| & 見出し(基本形)\\ \|%y, %y1| & 読みの第一候補(出現形)\\ \|%Y, %Y1| & 読みの第一候補(基本形)\\ \|%y0| & 読み全体(出現形)\\ \|%Y0| & 読み全体(基本形)\\ \|%a| & 発音の第一候補(出現形)\\ \|%A| & 発音の第一候補(基本形)\\ \|%a0| & 発音全体(出現形)\\ \|%A0| & 発音全体(基本形)\\ \|%rABC| & ルビつきの見出し(``\|A漢字BかなC|'' と表示)(※1)\\ \|%i, %i1| & 付加情報の第一候補\\ \|%i0| & 付加情報全体\\ \|%Ic| & 付加情報(空文字列か ``\|NIL|'' なら文字\|c|)(※1)\\ \|%Pc| & 各階層の品詞を文字\|c|で区切った文字列\\ \|%Pnc| & 1〜\|n|(\|n|:1〜9)階層目までの品詞を文字\|c|で区切った文字列\\ \|%h| & 品詞の番号\\ \|%H| & 品詞文字列\\ \|%Hn| & \|n|(\|n|:1〜9)階層目の品詞(なければ最も深い階層)\\ \|%b| & 0(旧版との互換性のみ)\\ \|%BB| & 品詞細分類(なければ品詞)\\ \|%Bc| & 品詞細分類(なければ文字\|c|)(※1)\\ \|%t| & 活用型の番号\\ \|%Tc| & 活用型(なければ文字\|c|)(※1)\\ \|%f| & 活用形の番号\\ \|%Fc| & 活用形(なければ文字\|c|)(※1)\\ \|%c| & 形態素のコスト\\ \|%S| & 解析文全体\\ \|%pb| & 最適パスであれば ``\|*|'', そうでなければ ``\* *''\\ \|%pi| & パスの番号\\ \|%ps| & パスの形態素の開始位置\\ \|%pe| & パスの形態素の終了位置$+1$\\ \|%pc| & パスのコスト\\ \|%ppiC| & 前に接続するパスの番号を文字\|C|で区切り列挙\\ \|%ppcC| & 前に接続するパスのコストを文字\|C|で区切り列挙\\ \|%?B/STR1/STR2/| & 品詞細分類があれば\|STR1|,なければ\|STR2|(※2)\\ \|%?I/STR1/STR2/| & 付加情報が ``NIL'' でも ``''(空文字列)でもなければ\|STR1|,そうでなければ\|STR2|(※2)\\ \|%?T/STR1/STR2/| & 活用があれば\|STR1|,なければ\|STR2|(※2)\\ \|%?F/STR1/STR2/| & \|%?T/STR1/STR2/| と同じ \\ \|%?U/STR1/STR2/| & 未知語なら\|STR1\|,そうでなければ\|STR2|(※2)\\ \|%U/STR/| & 未知語なら"未知語",そうでなければ\|STR|(\|%?U/未知語/STR/|と同じ)(※2)\\ \|%%| & \|%| そのもの\\ \hline \end{tabular} \begin{tabular}{l|l} \hline \hline 変換文字 & 機能 \\ \hline \|.| & フィールド幅の指定\\ \|-| & フィールド幅の指定\\ \|1-9| & フィールド幅の指定\\ \|\n| & 改行文字\\ \|\t| & タブ\\ \|\\| & \|\| そのもの\\ \|\'| & \|'| そのもの\\ \|\"| & \|"| そのもの\\ \hline \end{tabular} \begin{description} \item[※1] ipadic では,「行く(いく/ゆく)」のように 形態素が複数の読みを持つ場合,その読みを「\{イ/ユ\}ク」のように, 半角のブレースとスラッシュを使って表している. 通常の読みの出力(出力フォーマットの \|%y|)では,その第一候補である 「イク」が出力され,\|%y0| を使うと読み全体である「\{イ/ユ\}ク」 が出力される. \item[※1] \|A|,\|B|,\|C|,\|c| が空白文字の時は何も表示しない. \item[※2] `/'には任意の文字が使える.また,括弧``\|(){}[]<>|''を 用いることもできる.以下に例をあげる. \begin{itemize} \item \|%?T#STR1#STR2#| \item \|%?B(STR1)(STR2)| \item \|%?U{STR1}/STR2/| \item \|%U[STR]| \end{itemize} \end{description} \subsection{制約つき解析} 「制約つき解析」とは,入力文の一部の形態素情報が既知である,あるいは境界がわかっているときに,それを満たすように解析することを云います。 たとえば,「にわにはにわにわとりがいる。」という文に対して,「はにわ」の部分が名詞であるとか,「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき,制約に反する4文字目の「は」が単独で形態素となったり,「にわとり」が「にわ」と「とり」に分割されるような解析候補は排除されます。 \paragraph{入力書式} 制約つき解析の入力は茶筌の標準の出力と同じようなフォーマットであたえます。(\t はタブを表します) ただし、読み、基本形の情報は無視されます。 \begin{screen}\begin{verbatim} にわ\tニワ\tにわ\tUNSPEC に はにわ\tハニワ\tはにわ\t名詞-一般 にわとり\tニワトリ\tにわとり\tUNSPEC がいる。 EOS \end{verbatim}\end{screen} 各行をセグメントと呼び、一つのセグメントは 「形態素指定」 「文断片」 「文末」 「注釈」 のいづれかになります。 \begin{itemize} \item 形態素指定 \\ そのセグメントが(それ以上分割されない)一つの形態素であることを示します。 \\ 形態素指定のセグメントは4カラム目以降に品詞情報を持ちます。品詞情報の書式も茶筌の標準の出力と同じです。 \\ 品詞情報の代わりに「UNSPEC」と書くと、セグメントの見出し語で辞書を検索し、該当する語が解析結果となります。辞書にない語はそのまま未知語となります。 \item 文断片 \\ 品詞情報がないセグメントは文断片を表します。 \\ このセグメント内では、制約のない場合と同様に解析されます。ただし、形態素がセグメントをまたぐような解析候補は生成されません。 \item 文末 \\ 「EOS」「BOS/EOS」「文末」で始まる行、あるいは改行しか含まない行は文末です。 \item 注釈 \\ 品詞情報のカラムを「ANNO」とすると、そのセグメントは注釈になります。 \\ 注釈は出力には表示されますが、解析には使われません。表示は chasenrc に従います。 \end{itemize} \paragraph{解析例} 以下に解析例を示します。 入力: \begin{screen}\begin{verbatim} $ chasen -s にわ\tニワ\tにわ\tUNSPEC に はにわ\tハニワ\tはにわ\t名詞-一般 にわとり\tニワトリ\tにわとり\tUNSPEC がいる。 EOS \end{verbatim}\end{screen} 出力: \begin{screen}\begin{verbatim} にわ\t\t\t未知語 に\tニ\tに\t助詞-格助詞-一般 はにわ\tハニワ\はにわ\名詞-一般 にわとり\tニワトリ\tにわとり\t名詞-一般 が\tガ\tが\t助詞-格助詞-一般 いる\tイル\tいる\t動詞-自立\t一段\t基本形 。\t。\t。\t記号-句点 EOS \end{verbatim}\end{screen} \paragraph{制約つき解析における注意点} \begin{itemize} \item 制約つき解析時 ``ANNO'' を指定しても chasenrc に注釈の指定がなければ出力には何も表示されない. \item 制約つき解析時、空白品詞機能と空白読み飛ばしが無効になる(注釈機能で代用すること). \end{itemize} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \section{chasenrc ファイル} \label{s:chasenrc} chasenrc ファイルは形態素解析プログラムに必要な様々な選択肢を定義する ために用いられる.これらの定義は通常, {\tt PREFIX/etc/chasenrc} に記述されるが, 利用者のホームディレクトリの `{\tt .chasenrc}' というファイルに記述することもできる. 起動時オプションなどに よって chasenrc ファイルを指定することもできる. 具体的には次のような優先順位で chasenrc ファイルが読み込まれる. \begin{enumerate} \item (Unix, Windows) 起動時に {\tt -r} オプションで指定されたファイル. \item (Unix, Windows) 環境変数 {\tt CHASENRC} で指定されたファイル. \item (Windows) レジストリ {\verb+HKEY_CURRENT_USER\Software\NAIST\ChaSen+} の {\tt chasenrc} に設定してある chasenrc \item (Unix) 利用者のホームディレクトリにある {\tt .chasen2rc}. \item (Unix) 利用者のホームディレクトリにある {\tt .chasenrc}. \item (Unix) {\tt PREFIX/etc/chasenrc}(デフォルトではインストールされない). \end{enumerate} 設定項目一覧を以下に示す. このうち,「{\tt DADIC}」,「未知語品詞」,「品詞コスト」は必ず指定しなければならない. \begin{enumerate} \item {\bf 文法ファイルのディレクトリ} 文法ファイル({\tt grammar.cha, ctypes.cha, cforms.cha, connect.cha}) が存在するディレクトリを指定する. \begin{screen}\begin{verbatim} (文法ファイル /usr/local/lib/chasen/ipadic/dic) \end{verbatim}\end{screen} 「文法ファイル」は省略することができ,その場合 chasenrc ファイルがある ディレクトリと同じディレクトリを指定したとみなされる. 茶筌に付属の辞書 ipadic1.01 以降のchasenrcファイルでは 「文法ファイル」は省略されている. \item {\bf システム辞書} ダブル配列辞書({\tt chadic.\{da,lex,dat\}})を, ファイル名から末尾の拡張子を除いたものを記述することによって指定する. 複数組みの辞書を指定することもできる. また,相対パス,つまり ``/'' で始まらないパスを記述すると, 文法ファイルと同じディレクトリを指定したとみなされる. 例えば以下のように指定する. \begin{screen}\begin{verbatim} (DADIC chadic /home/rikyu/mydic/chadic) \end{verbatim}\end{screen} 上の記述では,以下の二組の辞書ファイルが読み込まれる. \begin{enumerate} \item 文法ファイルと同じディレクトリにある {\tt chadic.\{da,lex,dat\}} \item {\tt /home/rikyu/mydic/} にある {\tt chadic.\{da,lex,dat\}} \end{enumerate} 辞書引きに際しては,これらの辞書の両方が用いられる \footnote{ 一組の辞書には同一の形態素の登録は行なわれないが,複数の辞書に同じ形態 素が登録されている場合はあり得る. このような場合は,同じ形態素が複数得られることになる. }. Dartsによるダブル配列辞書を使うために「{\tt DADIC}」を指定する. \begin{screen}\begin{verbatim} (DADIC chadic) \end{verbatim}\end{screen} 上の記述では,文法ファイルと同じディレクトリにある {\tt chadic.da}, {\tt chadic.lex}, {\tt chadic.dat} が読み込まれる. %DADICは他の形式に比べ速く,PATDIC にあった1バイト文字についての制約も %ない. 使用する辞書の最大数は,32個に設定されている. %これを変更したい場合は, {\tt chasen/chalib.h} の {\tt PAT\_DIC\_NUM} %の値を変更してコンパイルしなおせばよい. \item {\bf 未知語の品詞} 未知語が発見された時に,その語をどのような品詞として連接規則を適用するか を指示する.複数の品詞を指定した時は,それぞれの品詞について連接規則が 適用される. \begin{screen}\begin{verbatim} (未知語品詞 (名詞 サ変接続)) ; 1個の品詞を指定 (未知語品詞 (名詞 サ変接続) (名詞 一般)) ; 複数の品詞を指定 \end{verbatim}\end{screen} \item {\bf 品詞のコスト} 形態素解析プログラムでは,解析結果の優先情報をコストとして計算している. 解析に曖昧性がある場合は,コストの総計が低いものを優先することになっている. 「品詞コスト」では,各品詞のコストの倍率と, 「未知語」についてのコストを定義する. コストは正の整数値をとる. \begin{screen}\begin{verbatim} (品詞コスト ((*) 1) ((未知語) 500) ((名詞) 2) ((名詞 固有名詞) 3) ) \end{verbatim}\end{screen} 同じ品詞に対してコストの定義が複数回指定されている場合は, 後のものが優先される. 上の記述では,「名詞」の形態素のコストは基本的には 2 倍になるが, 「{\tt 名詞-固有名詞}」以下に細分類される名詞だけは形態素のコストが 3 倍になる. また,先頭の `{\tt (*)}' の指定により,ここで明示的に定義されていない 形態素のコストはすべて 1 倍(そのままのコスト値)となる. 未知語の形態素のコスト値はすべて500になる. \item {\bf 連接コストと形態素コストの相対的な重みの定義} 形態素解析におけるコストの計算は形態素のコストと連接のコストの総計として 計算される. これら二種類のコストに異なる重みを掛けたい場合には,それを指定することが できる. 解析結果のコストはそれぞれのコストにここで指定された重みを乗じた値の総計 として計算される. 省略した場合の重みは 1 である. \begin{screen}\begin{verbatim} (連接コスト重み 1) ; デフォルト値 (形態素コスト重み 1) ; デフォルト値 \end{verbatim}\end{screen} \item {\bf コスト幅} 形態素解析の過程において,常にコストが最低の結果を出すのではなく, ある程度のコスト幅を許容したい場合がある. この許容幅を指定することができる. コスト幅におさまるすべての解を出力するには {\tt -m} オプションや{\tt -p} オプションを使う. \begin{screen}\begin{verbatim} (コスト幅 0) ; デフォルト値 \end{verbatim}\end{screen} コスト幅は{\tt -w}オプションでも指定することができる. その場合,{\tt -w}オプションで指定したものが優先される. \item {\bf 未定義連接コストの定義} 連接規則ファイルに連接規則が定義されていない形態素間の連接コストを指定する. 未定義連接コストを設定しないか,あるいは 0 を指定すると,連接規則が定 義されていない形態素どうしは決して連接しないという意味になる. デフォルトは0. \begin{screen}\begin{verbatim} (未定義連接コスト 500) \end{verbatim}\end{screen} \item {\bf 出力フォーマット} 出力フォーマットを指定することにより,解析結果の出力形式を変えることが できる. \begin{screen}\begin{verbatim} (出力フォーマット "%m\t%y\t%P-\n") \end{verbatim}\end{screen} 出力フォーマットは{\tt -F}オプションでも指定することができる. その場合,{\tt -F}オプションで指定したものが優先される. 詳しくは \ref{format} 節を参照のこと. \item {\bf BOS文字列} 解析結果の文頭に表示する文字列を指定する.``{\tt \%S}''を使うと 解析文全体を表示できる.デフォルトは空文字列(何も表示しない). \begin{screen}\begin{verbatim} (BOS文字列 "解析文: [%S]\n") \end{verbatim}\end{screen} \item {\bf EOS文字列} 解析結果の文末に表示する文字列を指定する.``{\tt \%S}''を使うと 解析文全体を表示できる.デフォルトは ``\|EOS\n|''. \begin{screen}\begin{verbatim} (EOS文字列 "文末\n") \end{verbatim}\end{screen} \item {\bf 空白品詞} 茶筌は,半角の空白文字(ASCIIコード32)とタブ(ASCIIコード9)を空白と みなし,これらを無視して解析する.通常は,解析結果に空白の情報を 出力しないが,「空白品詞」を設定することにより,空白についての情報 を出力するようになる. 例えば,以下のように設定すると,空白を「{\tt 記号-空白}」として出力する. \begin{screen}\begin{verbatim} (空白品詞 (記号 空白)) \end{verbatim}\end{screen} なお,出力フォーマットを ``\|%m|'' に設定して,空白品詞を 指定する(品詞は何でもよい)と,解析文と全く同じ出力が得られる ことになる. \item {\bf 注釈} ある文字列で始まりある文字列で終わる文字列を注釈のように 扱い,その文字列の部分を無視して解析させることができる. 解析結果には,その文字列が一つの形態素として出力される. chasenrc ファイルには,開始文字列,終了文字列からなるリストと 出力時の品詞名あるいはフォーマット文字列を記述する. 終了文字列は省略することができ,その場合,開始文字列と一致する文字列 自身を注釈として扱う.また,出力時の品詞名あるいはフォーマット文字列 を省略するとその形態素についての情報を全く出力しなくなる. \begin{screen}\begin{verbatim} (注釈 (("<" ">") "%m\n") (("「") (記号 一般)) (("」") (記号 一般)) (("\"" "\"") (名詞 引用文字列)) (("[" "]")) ) \end{verbatim}\end{screen} 例えば,上のように記述すると,以下のように解析,出力される. \begin{itemize} \item {\tt <img src="cha.gif">} のように ``\|<|'' で始まり ``\|>|'' で終わる文字列をそのまま出力する. \item ``「'' あるいは ``」'' を「{\tt 記号-一般}」として出力する. \item ``{\tt "hello(again)"}'' のようにダブルクォーテーションで 囲まれた文字列を「{\tt 名詞-引用文字列}」として出力する. \item ``{\tt [ちゃせん]}'' のように ``['' で始まり ``]'' で 終わる文字列を無視して解析し,解析結果にはその文字列の情報を 出力しない. \end{itemize} \item {\bf 連結品詞} ある品詞の形態素が連続して出現したときに,一つの形態素として連結して出 力させるときに使用する. \begin{screen}\begin{verbatim} (連結品詞 ((複合名詞) (名詞) (接頭詞 名詞接続) (接頭詞 数接続)) ((記号))) \end{verbatim}\end{screen} 例えば,上の記述では以下のように品詞を連結する. \begin{enumerate} \item 連続した「名詞」「{\tt 接頭詞-名詞接続}」 「{\tt 接頭詞-数接続}」を連結し「複合名詞」として表示する. なお,「複合名詞」は品詞定義ファイル {\tt grammar.cha} に記述しておく 必要がある. \item 連続した「記号」を連結し,「記号」として表示する. \end{enumerate} \item {\bf 複合語出力} 形態素辞書ファイル({\tt .dic})内で定義した複合語について, 複合語全体の形態素情報を出力する(``複合語'')か, 複合語を構成する各単語の形態素情報を出力する(``構成語'')かを 選択することができる.デフォルトは``複合語''. \begin{screen}\begin{verbatim} (複合語出力 "複合語") \end{verbatim}\end{screen} なお,複合語出力については {\tt -Oc}, {\tt -Os} オプションによっても 制御することができる. \item {\bf 区切り文字} {\tt -j} オプションをつけた時の文の区切り文字を並べ,一つの文字列にし たものを指定する(\ref{option}節参照).区切り文字には全角文字,半角文字 の両方を使用することができる.例えば \begin{screen}\begin{verbatim} (区切り文字 "。.、,!?.,!? ") \end{verbatim}\end{screen} と定義すると,全角文字の「。.、,!?」のいずれか,または半角文字の ``\*.,!? *'' (空白文字が入っていることに注意)のいずれかの文字が文の 区切りとなる. \item {\bf 文字コード指定} あらかじめ形態素辞書ファイルなどの文字コードを変更してコンパイルしておくことにより, 他の文字コードのファイルも解析することができる. その際、chasenrc に以下のように記述して文字コードを指定することができる.例えば \begin{screen}\begin{verbatim} (ENCODE "w") \end{verbatim}\end{screen} と定義すると,文字コードが UTF-8 であるファイルを入力とする. 指定できる文字コードは e: EUC-JP, s:Shift\_JIS, w:UTF-8, u:UTF-8, a:ISO-8859-1. \end{enumerate} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \section{茶筌ライブラリ} 茶筌ライブラリ {\tt libchasen.a}, {\tt libchasen.so} を利用することで, 茶筌のモジュールを他のプログラムに組み込むことができる. ヘッダファイルとして {\tt chasen.h} をインクルードする. 利用できるライブラリ関数・変数は以下の通りである. \begin{description} \item[{\tt \#include <chasen.h>}] ~ \item[{\tt int chasen\_getopt\_argv(char **argv, FILE *fp);}] ~ \item[{\tt extern int Cha\_optind;}] ~ 茶筌にオプションを渡す.もし茶筌の初期化が行われていなければ, 初期化を行ってからオプションの設定を行う. デフォルトのオプションのままでよければ,この関数を呼び出さずに 以下の解析関数を呼び出してもかまわない. {\tt argv} にはコマンドラインオプションとして {\tt NULL} で終わる文字列の 配列を指定する.ただし {\tt argv[0]} はプログラムのファイル名である. オプション指定に誤りがあった場合,ファイル・ポインタ{\tt fp} にエラー メッセージを出力する. {\tt fp} が {\tt NULL} のときは何も出力しない. オプション指定に誤りがなければ 0 を,誤りがあれば 1 を返す. 外部変数 {\tt Cha\_optind} には処理したオプション({\tt argv[0]}を含む) の数が格納される. 以下に使用例を示す.{\tt chawan} というプログラムにおいて, `{\tt -r /home/rikyu/chasenrc.proj -j}' というオプションを茶筌に渡している. この関数の実行後 {\tt Cha\_optind} には 4 が代入される. \begin{screen}\begin{verbatim} char *option[] = {"chawan", "-r", "/home/rikyu/.chasenrc.proj", "-j", NULL}; chasen_getopt_argv(option, stderr); \end{verbatim}\end{screen} \item[{\tt \#include <chasen.h>}] ~ \item[{\tt int chasen\_fparse(FILE *fp\_in, *fp\_out);}] ~ \item[{\tt int chasen\_sparse(char *str\_in, FILE *fp\_out);}] ~ \item[{\tt char *chasen\_fparse\_tostr(FILE *fp\_in);}] ~ \item[{\tt char *chasen\_sparse\_tostr(char *str\_in);}] ~ もし茶筌の初期化が行われていなければ,初期化を行ってから形態素解析を行う. 入力と出力がファイルであるか文字列であるかによって,4つの関数がある. {\tt chasen\_fparse()}, {\tt chasen\_fparse\_tostr()} はファイル・ポインタ {\tt fp\_in} から読み込んだ文字列を解析する. {\tt chasen\_getopt\_argv()} で {\tt -j} オプションを指定したときは, 句点などを文の区切りとして解析を行う. {\tt chasen\_sparse()}, {\tt chasen\_sparse\_tostr()} は 文字列{\tt str\_in} を解析する. {\tt chasen\_fparse()}, {\tt chasen\_sparse()} は解析結果をファイル・ポインタ {\tt fp\_out} に出力する. 返り値は0を返す. {\tt chasen\_fparse\_tostr()}, {\tt chasen\_sparse\_tostr()} は解析結果を 茶筌内部で確保したメモリ領域に格納し,そのポインタを返す. この領域は,次に {\tt chasen\_fparse\_tostr()}, {\tt chasen\_sparse\_tostr()} を呼び出すまで有効である. \end{description} %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \section{他のシステムからの利用} \subsection{Perl からの使用} {\tt perl/ChaSen.pm} を使うことにより,perl から茶筌を利用できる. インストール方法,使用方法については perl/README を参照のこと. %----------------------------------------% % 参考文献 % %----------------------------------------% \begin{thebibliography}{88)} \addcontentsline{toc}{section}{参考文献} \bibitem{Masuoka92} \newblock {益岡隆志,田窪行則:} \newblock {『基礎日本語文法 --改訂版--』} \newblock {くろしお出版,} \newblock {1992.} \bibitem{Myoki91} \newblock {妙木裕,松本裕治,長尾眞:} \newblock {「汎用日本語辞書および形態素解析システム」} \newblock {情報処理学会第42回全国大会予稿集,} \newblock {1991.} \bibitem{man:juman} \newblock {松本裕治,黒橋禎夫,宇津呂武仁,妙木裕,長尾真:} \newblock {「日本語形態素解析システムJUMAN 使用説明書 version 2.0」,} \newblock {NAIST Technical Report, NAIST-IS-TR94025,} \newblock {1994.} \bibitem{Yamashita96-1:vijuman} \newblock {山下達雄,松本裕治:} \newblock {「形態素解析視覚化システム ViJUMAN version 1.0 使用説明書」,} \newblock {NAIST Technical Report, NAIST-IS-TR96005,} \newblock {1996.} \bibitem{Yamashita96-2:vijuman} \newblock {山下達雄,松本裕治:} \newblock {「形態素解析結果の視覚化システム ViJUMAN とその学習機能」,} \newblock {情報処理学会研究報告 96-NL-115, pp.29-34,} \newblock {September 1996.} \bibitem{Hirano97:mthesis} \newblock {平野 善隆:} \newblock {「用言の活用を考慮した韓国語品詞体系の提案とそれを用いた韓国語形態素解析」,} \newblock {奈良先端科学技術大学院大学修士論文, NAIST-IS-MT9551092,} \newblock {March 1997.} \bibitem{Yamashita97:mthesis} \newblock {山下達雄:} \newblock {「規則と確率モデルの統合による形態素解析」,} \newblock {奈良先端科学技術大学院大学修士論文, NAIST-IS-MT9551119,} \newblock {March 1997.} \bibitem{Yamashita97:signl119} \newblock {山下達雄,松本裕治:} \newblock {「コスト最小法と確率モデルの統合による形態素解析」,} \newblock {情報処理学会研究報告 96-NL-119,} \newblock {May 1997.} \bibitem{Kitauchi97:nlp1997} \newblock {北内 啓,山下 達雄,松本 裕治:} \newblock {「日本語形態素解析システムへの可変長連接規則の実装」,} \newblock {言語処理学会第三回年次大会論文集, pp.437-440,} \newblock {1997.} \bibitem{IPAreport} \newblock {「研究開発用知的資源タグ付きテキストコーパス報告書」平成9年度,} \newblock {テキストサブワーキンググループ,\ 技術研究組合 新情報処理開発機構,} \newblock {1998.} \bibitem{Matsuda1999:mthesis} \newblock {松田 寛:} \newblock {「品詞タグ付きコーパス作成支援環境の構築」,} \newblock {奈良先端科学技術大学院大学修士論文, NAIST-IS-MT9851103,} \newblock {March 1999.} \bibitem{Kitauchi99:ipsj40-5} \newblock {北内 啓, 宇津呂 武仁, 松本 裕治:} \newblock {「誤り駆動型の素性選択による日本語形態素解析の確率モデル学習」,} \newblock {情報処理学会論文誌 Vol. 40, No. 5, p.p.2325-2337,} \newblock {May 1999.} \bibitem{Matsuda99:signl134} \newblock {松田 寛, 桐山 和久, 山田 悟史, 吉野 圭一, 松本裕治:} \newblock {「部分形態素解析を用いたコーパスの品詞体系変換」,} \newblock {情報処理学会研究報告 99-NL-134, p.p.23-30,} \newblock {Nov. 1999.} \bibitem{Asahara2000:mthesis} \newblock {Masayuki Asahara:} \newblock {Extended Statistical Model for Morphological Analysis,} \newblock {奈良先端科学技術大学院大学修士論文, NAIST-IS-MT9851001,} \newblock {March 2000.} \bibitem{Matsuda2000:signl137} \newblock {松田 寛, 松本 裕治:} \newblock {「品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs」,} \newblock {情報処理学会研究報告 2000-NL-137, p.98,} \newblock {June, 2000.} \bibitem{Asahara2000:signl137} \newblock {浅原 正幸, 松本 裕治:} \newblock {「統計的日本語形態素解析に対する拡張 HMM モデル」,} \newblock {情報処理学会研究報告 2000-NL-137, p.p.39-46,} \newblock {June, 2000.} \bibitem{Asahara2000:coling2000} \newblock {Masayuki Asahara, Yuji Matsumoto:} \newblock {Extended Models and Tools for High-performance Part-of-Speech Tagger,} \newblock {Proceedings of COLING 2000,} \newblock {July, 2000.} \bibitem{Asahara2000:signl139} \newblock {浅原 正幸, 松本 裕治:} \newblock {「誤り駆動による統計的品詞タグづけモデルの拡張」,} \newblock {情報処理学会研究報告 2000-NL-139, p.p.25-32,} \newblock {Sep. 2000.} \bibitem{Matsu2000:ipsjmagazine41-11} \newblock {松本 裕治:} \newblock {「形態素解析システム『茶筌』」,} \newblock {情報処理 Vol.41 No.11, p.p.1208-1214,} \newblock {Nov. 2000.} \bibitem{Den2001} \newblock {伝 康晴,浅原 正幸:} \newblock {「リレーショナル・データベースによる統合的言語資源管理環境」,} \newblock {第1回「話し言葉の科学と工学」ワークショップ,} \newblock {Feb. 2001.} \bibitem{Den2002} \newblock {伝 康晴,宇津呂 武仁,山田 篤,浅原 正幸,松本 裕治:} \newblock {「話し言葉研究に適した電子化辞書の設計」,} \newblock {第2回「話し言葉の科学と工学」ワークショップ,} \newblock {pp. 39-46, Feb. 2002.} \bibitem{浅原2003} \newblock {浅原 正幸,松本 裕治:} \newblock {「形態素解析とチャンキングの組み合わせによる日本語テキスト中の未知語出現箇所同定」,} \newblock {情報処理学会研究報告, 自然言語処理研究会, SIGNL-154, pp.47-54, 2003} \bibitem{中川2003} \newblock {中川 哲治,工藤 拓,松本 裕治 :} \newblock {「Support Vector Machineを用いた形態素解析と修正学習法の提案」,} \newblock {情報処理学会論文誌, Vol.44, No.5, pp.1354-1367, May 2003.} \bibitem{Kudo2004} \newblock {Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto:} \newblock {''Appliying Conditional Random Fields to Japanese Morphological Analysis'',} \newblock{EMNLP-2004, 2004.} \bibitem{松本2004a} \newblock {松本裕治,高岡一馬,浅原正幸,工藤拓 :} \newblock {「茶筌と南瓜による日本語解析--構文情報を用いた文の役割分類」 } \newblock {人工知能学会誌, Vol.19, No.3, pp.334-339, 2004.} \bibitem{Goh2005a} \newblock {Chooi-Ling Goh, Masayuki Asahara, and Yuji Matsumoto:} \newblock {"Chinese Word Segmentation by Classification of Characters",} \newblock {International Journal of Computational Linguistics and Chinese Language Processing ,} \newblock {Vol.10, No.3, pp.381-396, September, 2005.} \bibitem{Goh2005b} \newblock {Chooi-Ling Goh, Masayuki Asahara, and Yuji Matsumoto:} \newblock {"Training Multi-Classifiers for Chinese Unknown Word Detection" ,} \newblock {Journal of Chinese Language and Computing, Vol.15, No.1, pp.1-12, 2005.} \bibitem{Goh2005c} \newblock {ゴーチュイリン,鄭育昌,浅原正幸,松本裕治:} \newblock {「中国版茶筌の開発」,} \newblock {言語処理学会第11回年次大会発表論文集, pp.245-248, 2005.} \bibitem{浅原2005} \newblock {浅原正幸,高橋由梨加,松本裕治:} \newblock {「異表記同語情報を付与した辞書の整備」,} \newblock {言語処理学会第11回年次大会発表論文集, pp.604-607, 2005.} \bibitem{工藤2005} \newblock {工藤 拓:} \newblock {「形態素周辺確率を用いた分かち書きの一般化とその応用」,} \newblock {言語処理学会第11回年次大会発表論文集, 2005.} \bibitem{Goh2006} \newblock {Chooi-Ling Goh, Masayuki Asahara, and Yuji Matsumoto:} \newblock {"Machine Learning-based Methods to Chinese Unknown Word Detection and POS Tag Guessing",} \newblock {Journal of Chinese Language and Computing, Vol.16, No.4, pp.185-206, 2006.} \bibitem{東2006} \newblock{東藍,浅原正幸,松本裕治:} \newblock{「条件付確率場による日本語未知語処理」} \newblock{情報処理学会研究報告, 自然言語処理研究会, SIGNL-173, pp.67-74, 2006.} \bibitem{東2007} \newblock{東藍,工藤拓,浅原正幸,松本裕治:} \newblock{「日本語未知語処理のための大規模未解析データの利用法」} \newblock{情報処理学会研究報告, 自然言語処理研究会, SIGNL-179, 2007.} \end{thebibliography} %----------------------------------------% \clearpage \appendix \noindent {\LARGE\bf 付録} \addcontentsline{toc}{section}{付録} \section{著作権および使用条件について} 茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとし て開発されたものである. 茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講 座(松本研究室)が保持する.本ソフトウェアの使用,改変,再配布については, 特に制限を課すことはしないが,再配布については,次の事項を条件とする. \begin{itemize} \item 再配布されるソフトウェアに,著作権に関する本節の記述と使用説明書 の表紙裏のページの著作権に関する但し書きを必ず含むこと. \end{itemize} なお,本ソフトウェアの著作権者である奈良先端科学技術大学院大学は, 原形あるいは改変された形で配布された本ソフトウェアに関連して生じる 一切の損失に対して保証の責を負わないこととする. また,上に述べた著作権は茶筌システム本体についてのものであり, ipadic をはじめとする他の辞書については,各辞書についての著作権条項があ るためそちらを参照すること. \section{更新履歴} \subsection{茶筌 2.3.3 から 茶筌 2.4.0 への変更点} \begin{itemize} \item 制約つき解析の実装 \item Windows 版パッケージの再構成 \item chasenrc による文字コード指定 \item UTF-8 の指定文字に 'u' を追加 \end{itemize} \subsection{茶筌 2.3.2 から 茶筌 2.3.3 への変更点} \begin{itemize} \item 辞書に読み,発音の情報がないとき,\%y,\%a などは空白を表示する よう変更. \item (MinGW版のみ) chasenrc と文法ファイルのパスをレジストリで指定で きるようにした. \end{itemize} \subsection{茶筌 2.3.1 から 茶筌 2.3.2 への変更点} \begin{itemize} \item 辞書検索の高速化 \item 活用形指定辞書のサポート \end{itemize} \subsection{茶筌 2.3.0 から 茶筌 2.3.1 への変更点} \begin{itemize} \item PATDIC, SUFDIC の廃止 \item -i オプション(文字コード選択) の導入 \item UTF-8 対応 \end{itemize} \subsection{茶筌 2.2 から 茶筌 2.3 への変更点} \begin{itemize} \item ダブル配列ライブラリDartsを用いた辞書の実装 \item サーバ・クライアントモードの廃止 \item コマンドインタプリタの廃止 \item {\tt cforms.cha} で,基本形として定義する文字列を変更できるように した. \begin{screen}\begin{verbatim} (基本形 基本形-一般) \end{verbatim}\end{screen} \end{itemize} \subsection{茶筌 2.0 から 茶筌 2.2 への拡張点} \begin{itemize} \item 辞書とシステムの分離 \\ 他言語の辞書整備により,辞書とシステムを分離した. chasenrc は辞書側が持ち,システムインストール時にはインストールさ い.辞書インストール時に {\tt PREFIX/etc} 以下に {\tt chasenrc} を インストールする必要がある. \item autoconf, automake, libtool 化 \\ {\tt ./configure} で,自動的に環境を読み込み設定できるようにした. これに伴い,各辞書をコンパイルする際に必要になる情報を出力するプロ グラム {\tt chasen-config} を導入した. \end{itemize} \subsection{JUMAN 2.0 から 茶筌 2.0 への拡張点} 茶筌 2.0 では品詞体系や連接規則の機能などを拡張した. この機能拡張版をv-gram版,従来のバージョンをbi-gram版と呼ぶ. v-gram版はbi-gram版と文法ファイルの形式が異なっているため, 辞書に互換性がない.ただし,{\tt mkchadic/convdic}を実行することにより, bi-gram版の辞書をv-gram版の辞書に変換することができる. {\tt convdic} はbi-gram版の辞書があるディレクトリ上で, v-gram版の辞書を格納するディレクトリを引数として実行する. 例えば以下のように実行すると,bi-gram版の辞書がある {\tt dic}という ディレクトリと同じ階層に{\tt dic2}というディレクトリが作成され, その中にv-gram版の辞書が格納される. なお,{\tt convdic} 実行後,茶筌に付属の {\tt dic/Makefile} を v-gram版の辞書があるディレクトリ(下の例では{\tt dic2})にコピーする 必要がある.また,chasenrcファイルも用意する. \begin{screen}\begin{verbatim} % cd dic % ../mkchadic/convdic ../dic2 % cp Makefile ../dic2 \end{verbatim}\end{screen} 茶筌2.0ではデフォルトでv-gram版がコンパイルされる.`{\tt make bigram}' を実行すればbi-gram版の実行ファイルが作成され,bi-gram版の 辞書を利用することができる. v-gram版はbi-gram版と比べ,以下のような拡張機能や変更点がある. \begin{enumerate} \item 品詞を2階層から多階層に拡張した. \item 連接規則をbi-gramの固定長からvariable-gram(可変長)に拡張した. すなわち,連接する2個の単語(あるいは品詞)の連接コストだけではなく, 3個以上の任意の長さの単語(品詞)列に対して単語(品詞)の連接コストを記述 できる. \item {\tt *.dic} で「発音」という属性を使える.出力フォーマットの \|%a|, \|%A| で表示できる. また,{\tt cforms.cha} で発音の語尾を定義できる. \item {\tt *.dic} で「base」という属性を使える.見出し語の基本形など を表示する際,活用を持っていればその基本形を,活用がなくbaseを 持っていればbaseを表示する.英語の辞書などで使用する. \item chasenrc ファイルの「連結品詞」の機能を拡張し,複数の種類の 品詞を別々に連結できるようにした. \item 空行に対しても``{\tt EOS}''(正確にはBOS文字列とEOS文字列)を 表示する.つまり,``{\tt EOS}''の個数が入力文の行数と一致する. \item 解析結果のデフォルトの出力形式({\tt -f})で, 見出し語などの直後の区切りがスペースではなくタブになった. \item 辞書に登録されていない単語の品詞表示を「未定義語」から「未知語」 に変更した. \item 形態素辞書ファイル {\tt *.dic}で単語のコスト値が省略されている 場合,bi-gram版ではコスト値が10となるのに対し,v-gram版では {\tt *.dic} 中の「デフォルト品詞コスト」で指定されたコスト値 (指定されていない場合は65535)が用いられる. \item bi-gram版では形態素コストと連接コストを内部で10倍しているが, v-gram版ではそのままの値を用いる.また,bi-gram版では形態素コストの 範囲が0〜6553.5(茶筌1.51以前は0〜25.5)であるが,v-gram版では0〜65535である. \item 連接コスト0を「確率1で連接する」という意味に, -1を「連接しない」という意味に変更した. また,連接コストの範囲を -1〜32767 に変更した. \item 文節区切りの機能を持つ,長さ0の品詞が使える. 品詞定義ファイルで品詞名の後ろに `/' をつけると文節区切りとして機能する. \end{enumerate} \subsection{茶筌1.5 から 茶筌 2.0 への拡張点} ここでは v-gram 版,bi-gram 版に共通する拡張点をあげる. \begin{enumerate} \item chasenrc の「文法ファイル」を省略できるようにした. 「PATDIC」「SUFDIC」が '/' で始まっていない場合は,「文法ファイル」 のディレクトリからの相対パスとみなすようにした. \item 辞書引きに SUFARY を使えるようにすることにより,半角文字も検索できる ようにした. \item SUFARY を使って英語を解析できるようにした. \item -D なしで -R を指定した場合は Makefile で指定した chasenrc (/usr/local/share/chasen/dic/chasenrc など)を読み込むようにした. \item 文頭・文末で出力する文字列を設定できるようにした. \item 未知語品詞とそのコストを複数指定できるようにした. \item chasenrc ファイルで「空白品詞」を指定することにより,空白も解析結果に 出力できるようにした. \item chasenrc ファイルで「注釈」を指定することにより,SGMLタグのような 特定の文字列を空白と同様に無視して解析できるようにした. \item -lp, -lt, -lf オプションで品詞や活用のリストを表示できるようにした. \item -o オプションで出力ファイルを指定できるようにした. \item 出力フォーマット {\tt "\%?T/STR1/STR2/"} を使えるようにした.活用があれば {\tt STR1}, なければ {\tt STR2} を出力する. そのほかに {\tt \%?I}, {\tt \%?B}, {\tt \%?F}, {\tt \%?U} も使えるようにした. \item 出力フォーマット {\tt "\%rABC"} を導入し,ルビを表示できるようにした. \item chasenrc ファイルで「BOS文字列」「EOS文字列」を指定することにより, 文頭・文末で出力する文字列を設定できるようにした. \item BOS文字列,EOS文字列,出力フォーマットで,解析文全体を表示する {\tt "\%S"} を使えるようにした. \item 辞書ファイルの形態素コストの範囲を今までの0〜25.5から, bi-gram版は0〜6553.5に,v-gram版は0〜65535に変更した. \item 連接ファイルの連接コストの範囲を0〜255から0〜32767に変更した. \end{enumerate} \subsection{茶筌1.0 から 茶筌 1.5 への拡張点} \begin{enumerate} \item ライブラリ化を行い,茶筌のモジュールを他のプログラムに 簡単に組み込めるようにした. \item サーバ化を行い,クライアントを用いて他のマシンから解析を 行うことができるようにした.また,クライアントのEmacs Lisp 版 インタフェースを作成した. \item {\tt -w} オプションでコスト幅を指定できるようにした. \item {\tt chasenrc} ファイルに「区切り文字」を指定することにより, jfgets() の区切り文字を設定できるようにした.半角文字を指定することも可能. また,区切り文字のデフォルトを ".。!?" に変更した. \item バッファを動的に確保することにより,文字列が長いときでも ``Too many morphs'' の警告が出ないようにした. \item 美茶(ViCha)用出力オプション -v を新設した. \item {\tt -d} オプションと {\tt -b} を同時に指定したときに {\tt -d} の出力形式で最適解パスだけ表示できるようにした. \end{enumerate} \subsection{JUMAN 2.0 から 茶筌 1.0 への拡張点} \begin{enumerate} \item 辞書検索の方法を従来のNDBMを用いて疑似的にTRIE構造を実現する方法から, 独自開発のパトリシア木を用いたものに変更した. 解析に必要な辞書のサイズが約4分の1に縮小した. また,辞書のコンパイル時間が3〜40分の1になった. \item 解析システムの見直しを行ない,高速化を図った. 解析速度が約8〜11倍になった(JUMAN 2.0との比較). \item 多くのプラットフォームでインストール可能になるようにコードを書き 直した.また,GNU Cコンパイラ(gcc)だけでなく OS 付属のCコンパイラなど でもコンパイルできるようにした. \item 日本語EUCだけでなく,JIS(ISO-2022-JP)の文字列も解析できるようにした. \item 未定義連接コストの導入により,未定義語の出力を減らすことができるようになった. \item 連結品詞を定義できるようにし,最適パスを出力する時に,その 品詞の単語を一単語に連結して表示するようにした. \item 活用語尾の読みを定義できるようにすることにより,「来る」「得る」など の読みがひらがなで表示されるようになった. \item 入力文を改行コードで区切るのではなく,句点により区切るオプション ({\tt -j}) を追加した. \item {\tt -r} オプションや環境変数 {\tt CHASENRC} で{\tt chasenrc}ファイル を指定できるようにした. \item {\tt -F} オプションや {\tt chasenrc} ファイルの「出力フォーマット」で 解析結果の出力形式を変更できるようにした. \item 文法の見直しを行ない,品詞分類「特殊」の下の「括弧」を「括弧開」と「括 弧閉」に分離した. また,同じく「特殊」の下に「空白」を定義した.「空白」は具体的には全角の 空白を表す. \item 助動詞の活用型に「助動詞べきだ型」を追加した.助動詞「べきだ」の活用 を従来の「ナ形容詞」型から「助動詞べきだ型」に変更した. \item 辞書登録語について見直し,追加削除等の修正を行なった. \end{enumerate} \section{JUMAN3.0 と 茶筌 との関係について} JUMAN 2.0が1994年7月にリリースされて以降,京都大学長尾研究室と奈良先端大松本 研究室では,それぞれ異なる方向での拡張を試みていました. 京都大学では,従来のbi-gramモデルでは記述できない連接関係を記述するために連 語処理や括弧の透過処理などの機能を追加し,文法ファイル,形態素辞書に大幅な修正 を行なった拡張版を作成していました. 奈良先端大では,今後大量の蓄積が始まると思われる日本語タグ付きコーパスから bi-gram以上の連接規則(単語レベルや品詞レベルの設定も含む)を自動的に学習する 機能を追加するための拡張と,UNIXのハッシュデータベースNDBMに依存しない辞書 の構築を考えていました. 後者の拡張はUNIX以外のOSでの稼働を要求する声に対応することと辞書のコンパイ ル時間と検索速度の改善を目指したことによります. bi-gram以上の連接規則に対する両者の考え方がかなり異なるため,両者の融合は見 合わせることにし,いち早く完成した京都大学の拡張版が1996年6月にJUMAN3.0beta として公開されました. 奈良先端大で拡張を予定していた機能には下に示すような項目があり,茶筌 1.0を1997年2月に公開し,以後,茶筌1.5, 1.51, 2.0, 2.2, 2.3を経て, 茶筌2.4においてそのほとんどが実現されました. \begin{enumerate} \item (茶筌1.0) 辞書システムの独自開発(NDBMの棄却,パトリシア木の採用) \item (茶筌1.0) 解析システムの見直しと高速化 \item (茶筌1.0) 未定義連接コスト,連接品詞,解析結果出力フォーマットの導入 \item (茶筌1.0) JIS文字列の解析 \item (茶筌1.0) 活用語尾の読みの定義 \item (WinCha1.0) Windows への対応 \item (茶筌1.5) ライブラリ化 \item (茶筌1.5) サーバ化 \item (茶筌2.0) 品詞定義の多階層化 \item (茶筌2.0) 接続規則の可変長化 \item (茶筌2.0) 半角文字を含む単語の辞書登録(SUFARYを利用した辞書) \item (茶筌2.0) 出力フォーマットの拡充 \item (茶筌2.0) 解析済みデータからの可変長接続コストの学習 \item (茶筌2.4) 制約つき解析 \end{enumerate} \section{形態素解析器の今後について} 工藤拓氏により MeCab という形態素解析器が公開されています% \footnote{http://mecab.sourceforge.net/}。 茶筌は形態素解析モデルとして隠れマルコフモデルという生成モデルを用いてい るのに対し,MeCab は条件付確率場という識別モデルを用いて います。 工藤氏の論文\cite{Kudo2004}では, 新しいモデルの方が解析精度が向上したことを示しています。 MeCab のその他の特色として「ソフトわかち書き」% \cite{工藤2005}\footnote{http://mecab.sourceforge.net/soft.html} を出力することがあげられます。 現在の茶筌の枠組では,MeCab のように素性(特徴量)を自由に設計できず, このような新しい解析モデルには対応できないでおります。 辞書関連でも近年さまざまな改良が行われてきました。 新しい JUMAN 辞書% \footnote{http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html}では, 日本語の基本的語彙を選別するとともに, 表記ゆれ情報の整備が行われています。 千葉大の伝氏のグループにより UniDic \cite{Den2002}と呼ばれる,自然言語処理研究者 のみならず,人文系研究者にも音声処理研究者にも使いやすい辞書が近く公開さ れるようです。 奈良先端大では,IPADIC の辞書項目を選別し, 表記ゆれ情報,複合語情報を付与した日本語辞書を公開する予定です。 新しい辞書では,名前を変更し,IPADIC で懸案となっていた ICOT 条項 を廃止する予定です。 また,奈良先端大では,権利関係の処理が終わり次第 Penn Chinese Treebank 体系の品詞が付与された中国語形態素解析用辞書を公開する予定です。 中国語形態素解析用辞書公開時には,MeCab 作者の工藤さんとも協議して, ChaSen 用モデルだけでなく,MeCab 用モデルも同時に公開したいと考えております。 JUMAN, 茶筌, MeCab が解決していない問題として,未知語(辞書にない語)の 問題があります。現在奈良先端大におきまして未知語の問題を解決する機械学習 モデルを開発しております\cite{東2006,東2007}。 いずれ、現在の茶筌とは異なる枠組で構成された、 未知語解析モデルつきの形態素解析器を公開できればと考えております。 \end{document} % Local Variables: % mode: latex % TeX-master: t % End: