読者です 読者をやめる 読者になる 読者になる

漢字をひらがなやローマ字に変換することができる KAKASI の導入方法

自然言語処理

KAKASIを使えば漢字が入った文をひらがな文やローマ字文に変換することできます。

今回試した環境

Mac OS X 10.9.4

CentOS 5.10, 6.5

KAKASIのダウンロード

http://kakasi.namazu.org/stable/

最新版をダウンロードする。2014-7-17時点では 2.3.6。

KAKASIのインストール

$ wget http://kakasi.namazu.org/stable/kakasi-2.3.6.tar.gz
$ tar zxfv kakasi-2.3.6.tar.gz
$ cd kakasi-2.3.6/
$ ./configure
$ make
$ sudo make install

nkf のインストール

後で使うのでインストールしておく。

$ brew install nkf # Mac OS X の場合
$ sudo yum install nkf # CentOS の場合

使い方

kakasi コマンドのオプションとして変換前(J)、変換後(a, H, K)を指定する。

J : 漢字
a : ローマ字
H : ひらがな
K : カタカナ

ローマ字、ひらがな、カタカナに変換する

$ echo '自然言語処理' | nkf -e | kakasi -Ja
shizengengoshori

$ echo '自然言語処理' | nkf -e | kakasi -JH | nkf -w
しぜんげんごしょり

$ echo '自然言語処理' | nkf -e | kakasi -JK | nkf -w
シゼンゲンゴショリ

漢字以外が含まれていても大丈夫

$ echo '自然言語処理って難しいですね' | nkf -e | kakasi -JH | nkf -w
しぜんげんごしょりってむずかしいですね

参考

http://kakasi.namazu.org/index.html.ja