トークナイザ一覧
toiro でサポートしている日本語トークナイザと BPE モデルの一覧です。
形態素解析ベースのトークナイザ
Janome
- 種類: 形態素解析
- 辞書: MeCab IPADIC
- 特徴: Pure Python 実装、外部依存なし
- デフォルト: toiro に標準で含まれる
nagisa
- 種類: RNN ベース
- 特徴: 品詞タグ付けと固有表現抽出もサポート
mecab-python3
- 種類: 形態素解析
- 辞書: MeCab IPADIC
- 特徴: MeCab の Python バインディング
SudachiPy
- 種類: 形態素解析
- 辞書: Sudachi 辞書
- 特徴: 複数の分割モード(A/B/C)、同義語展開
spaCy
- 種類: 統計モデルベース
- 特徴: 固有表現認識、依存構造解析など多機能
GiNZA
- 種類: spaCy の日本語モデル
- 特徴: Universal Dependencies 準拠、固有表現認識
KyTea
- 種類: 点予測ベース
- 特徴: 読み推定機能
- 注意: システムレベルのインストールが必要
Juman++
- 種類: 形態素解析
- 辞書: JUMAN 辞書
- 特徴: RNN による再順位付け
- 注意: システムレベルのインストールが必要(pyknp 経由で使用)
fugashi
- 種類: MeCab の Cython ラッパー
- 辞書: IPADIC または UniDic
- 特徴: 高速な MeCab Python バインディング
TinySegmenter
- 種類: コンパクトな分かち書き
- 特徴: 軽量、辞書不要
サブワードトークナイザ
SentencePiece
- 種類: BPE / Unigram
- 特徴: 言語非依存、ニューラル機械翻訳向け
tiktoken
- 種類: BPE
- モデル: GPT-4o / GPT-5
- 特徴: OpenAI モデル用トークナイザ
トークナイザの選び方
| 用途 | おすすめ |
|---|---|
| 手軽に始めたい | Janome(依存なし) |
| 高速処理 | MeCab, fugashi, SudachiPy |
| 固有表現認識も必要 | GiNZA, spaCy |
| ニューラル機械翻訳 | SentencePiece |
| OpenAI モデルと統合 | tiktoken |
システムレベルのインストールが必要
KyTea と Juman++ は、Python パッケージをインストールする前にシステムレベルでのインストールが必要です。詳細は各プロジェクトの公式ドキュメントを参照してください。