コンテンツにスキップ

インストール

必須環境

  • Python 3.10 以上

基本インストール

pip install toiro

toiro は最小構成でインストールされ、デフォルトでは Janome が利用可能です。

追加トークナイザの導入

次のように個別にインストールしてください(例: SudachiPy と nagisa を追加)。

pip install sudachipy sudachidict_core
pip install nagisa

その他のトークナイザ

# MeCab (mecab-python3)
pip install mecab-python3

# GiNZA / spaCy 日本語
pip install spacy ginza
pip install "spacy[ja]"

# KyTea(本体の導入が別途必要)
# 公式手順で KyTea を入れた上で:
pip install kytea

# Juman++ v2(本体の導入が別途必要)
# 公式手順で Juman++ v2 を入れた上で:
pip install pyknp

# SentencePiece
pip install sentencepiece

# fugashi + IPADIC / UniDic
pip install fugashi ipadic
pip install fugashi unidic-lite

# TinySegmenter
pip install tinysegmenter3

# tiktoken(GPT-4o / GPT-5 用 BPE)
pip install tiktoken

すべてまとめてインストール

すべてのトークナイザを一度に試したい場合:

pip install "toiro[all_tokenizers]"

システムレベルのインストールが必要なツール

KyTea と Juman++ は、Python パッケージをインストールする前にシステムレベルでのインストールが必要です。詳細は各プロジェクトの公式ドキュメントを参照してください。

Docker を使う

すべてのトークナイザがプリインストールされた Docker イメージも利用できます:

docker run --rm -it taishii/toiro /bin/bash

詳細は Docker Hub を参照してください。

分類器の追加(オプション)

BERT ベースのテキスト分類器を使いたい場合:

pip install "toiro[all_classifiers]"

または個別に:

pip install torch transformers catalyst