toiro ドキュメント

toiro(といろ)は 日本語の各種トークナイザ を比較するための Python パッケージです。 以下のことができます。
- トークナイザの 処理速度を比較
- トークナイザごとの 分かち書き結果を比較
- アプリケーションタスク(例: テキスト分類)での性能比較
- 日本語 NLP の補助機能(コーパスのダウンロード/前処理、簡易分類器 など)

主な機能
対応トークナイザ
13種類の日本語トークナイザと BPE をサポート:
- janome(デフォルト搭載)
- nagisa
- mecab-python3
- sudachipy
- spacy
- ginza
- kytea
- jumanpp
- sentencepiece
- fugashi (ipadic/unidic)
- tinysegmenter
- tiktoken (GPT-4o / GPT-5 用 BPE)
リンク
👉 プロジェクト本体: https://github.com/taishi-i/toiro 👉 デモ(Hugging Face Spaces): https://huggingface.co/spaces/taishi-i/Japanese-Tokenizer-Comparison 👉 PyPI: https://pypi.org/project/toiro/
対応 Python バージョン
Python 3.10 以上を推奨。
ライセンス
toiro は Apache License 2.0 の下で提供されています。
このドキュメントサイトは MkDocs Material によって生成されています。