awesome-japanese-nlp-resources

日本語の自然言語処理に関するPythonライブラリ、学習済みモデル、辞書、およびコーパスの厳選リストです。
The latest additions 🎉
Hugging Face 🤗
Corpus
- Jamp_sp - アスペクトを考慮した日本語時間推論データセットの構築(Jamp_sp: 制御された日本語時間推論データセットを考慮)
- jnli-neg - 否定理解能力を評価するための日本語言語推論データセット JNLI-Neg の公開用リポジトリです。
- swallow-corpus - このリポジトリは、Common Crawlアーカイブから大規模な日本語ウェブコーパス(岡崎ら、2024年)であるSwallow Corpus Version 1を構築するためのPython実装を提供しています。
- jalecon - 非母語話者向けの日本語語彙複雑性のデータセット
- multils-japanese - MultiLS-日本語の語彙複雑性予測と語彙の簡素化データセット:アノテータープロファイル、非集計注釈、および注釈ガイドライン。
- nwjc - NINJALウェブ日本語コーパス
- jcms - 多数の専門分野をカバーした日本語コーパス(JCMS)
Updated on Apr 01, 2025
Contents
Python library
Morphology analysis
- sudachi.rs - SudachiPy 0.6以上はSudachi.rsとして開発されています。
- Janome - 純粋なPythonで書かれた日本語形態素解析エンジン
- mecab-python3 - mecab-pythonです。mecab-pythonです。オリジナルバージョンはこちらから見つけることができます:http://taku910.github.io/mecab/。
- mecab - このリポジトリは、Windows 64ビット用のMeCabバイナリのビルドと、MeCab Pythonバインディングの改善に使用されます。
- fugashi - 高速でPythonicな日本語トークナイズと形態素解析のためのCython MeCabラッパー。
- nagisa - 再帰型ニューラルネットワークに基づく日本語トークナイザー
- pyknp - JUMAN++/KNP用のPythonモジュール
- Mykytea-python - KyTeaのPythonラッパー
- konoha - Konoha:日本語トークナイザーのシンプルなラッパー
- natto-py - natto-pyは、Pythonプログラミング言語と日本語の品詞や形態素解析器であるMeCabを組み合わせたものです。
- rakutenma-python - 楽天MA(Python版)
- python-vaporetto - Vaporettoは、高速で軽量なポイントワイズ予測ベースのトークナイザーです。これはVaporettoのPythonラッパーです。
- dango - 日本語テキスト用の使いやすいトークナイザー。言語学習者や非言語学者を対象としています。
- rhoknp - Juman++/KNPのための別のPythonバインディング
- python-vibrato - Viterbiベースの高速トークナイザー(Pythonラッパー)
- jagger-python - JaggerのPythonバインディング(パターンベースの日本語形態素解析器のC++実装)
Parsing
- ginza - ユニバーサル依存関係に基づくspaCyフレームワークを使用した日本語NLPライブラリ
- cabocha - もう一つの日本語依存構造解析ツール
- UniDic2UD - 現代日本語のためのトークナイザー、POSタガー、レンマ化器、依存構造解析器
- camphr - Camphr - パイプラインコンポーネントを作成するためのNLPライブラリ
- SuPar-UniDic - モダン・コンテンポラリー日本語用のTokenizer、POS-tagger、Lemmatizer、およびDependency-parserには、BERTモデルが使用されます。
- depccg - スーパータグと依存関係ファクタリングモデルを備えたA* CCGパーサー
- bertknp - BERTに基づく日本語依存構造解析器
- esupar - 日本語や他の言語に対応したBERT/RoBERTa/DeBERTaモデルを使用したトークナイザー、POSタガー、依存構造解析器。
- yomikata - 微調整されたBERTモデルを使用した異音異義語の曖昧性解消ライブラリ。
- jdepp-python - J.DepPのPythonバインディング(日本語依存構造解析器のC++実装)
- lightblue - DTS表現を使用した日本語のCCGパーサー
- natsume-simple - natsume-simpleは日本語の係り受け関係検索システム
Converter
数量表現や時間表現の抽出・正規化を行うNormalizeNumexpのPython実装
- Jusho - 日本の郵便番号データの簡単なラッパー
- yurenizer - 日本語テキストの表記の一貫性を解消する日本語テキスト正規化ツール
Preprocessor
- neologdn - mecab-neologd用の日本語テキスト正規化ツール
- jaconv - ひらがな、カタカナ、半角、全角のための純粋なPython日本語文字相互変換器
- mojimoji - 日本語半角と全角の素早い変換ツール
- text-cleaning - 日本語のウェブテキスト用の強力なテキストクリーナー
- HojiChar - 複数の前処理を構成して管理するテキスト前処理ツール
- utsuho - Utsuhoは、日本語の半角カタカナと全角カタカナの間で双方向変換を容易にするPythonモジュールです。
- python-habachen - もう一つの高速な日本語文字列変換ツール
- kairyou - SpaCyを使用して、日本語テキストをNLP/NERで迅速に前処理し、日本語翻訳やその他のNLPタスクに使用します。
Sentence spliter
Sentiment analysis
- oseti - 日本語の辞書ベースの感情分析
- negapoji - 日本語のネガティブ・ポジティブの分類。日本語の文章のネガティブ・ポジティブを判定します。
- pymlask - 日本語テキストの感情分析ツール
- asari - Pythonで実装された日本語感情分析器。
Machine translation
- jparacrawl-finetune - JParaCrawlの事前学習済みニューラル機械翻訳(NMT)モデルの使用例。
- JASS - JASS:ニューラル機械翻訳のための日本語固有のシーケンス・トゥ・シーケンス事前学習(LREC2020)&言語学的に駆動された低リソースニューラル機械翻訳のためのマルチタスク事前学習(ACM TALLIP)
- PheMT - 日英機械翻訳の堅牢性に関する現象別評価データセット。このデータセットは、MTNTデータセットをベースに、固有名詞、略語、口語表現、および変異形の4つの言語現象の追加注釈を含んでいます。COLING 2020。
- VISA - 視覚シーンに関する機械翻訳のための曖昧な字幕データセット
Named entity recognition
OCR
Others
エラスティックサーチやGiNZA、患者表現辞書を使用して患者表現の揺れを吸収する意味構造検索を試してみました。
C++
Morphology analysis
- mecab - もう一つの日本語形態素解析器
- jumanpp - Juman++(形態素解析ツールキット)
- kytea - 京都テキスト分析ツールキット:単語分割や発音推定などに使用されます。
Parsing
Name |
downloads/week |
total downloads |
stars |
cabocha |
- |
- |
 |
knp |
- |
- |
 |
Others
- jsc - 日本語の仮名漢字変換、中国語のピンイン入力、CJE混合入力のための共通ソースチャネルモデル。
- aquaskk - 形態素解析を行わない入力方法。
- mozc - Mozc - マルチプラットフォームに対応した日本語入力システムエディター
-
trimatch - Trimatch:(完全 |
接頭辞 |
近似)文字列マッチングライブラリ |
- resembla - Resembla:単語ベースの日本語類似文検索ライブラリ
- corvusskk - ▽▼ Windows用のSKK風日本語入力エディタ
Rust crate
Morphology analysis
- lindera - 形態素解析ライブラリ。
- vaporetto - Vaporetto:非常に加速されたポイントワイズ予測に基づくトークナイザー
- goya - Rustで書かれた日本語形態素解析
- vibrato - バイブラート:Viterbiベースの高速トークナイザー
- yoin - 純粋なRustで書かれた日本語形態素解析器
- mecab-rs - 「mecab」の安全なRustバインディング。品詞と形態素解析ライブラリ。
- awabi - MeCab辞書を使用する形態素解析器
- kanpyo - Rustで書かれた日本語形態素解析器
Converter
Search engine library
Others
- daachorse - Rustでコンパクトなダブル配列データ構造を使用したAho-Corasickアルゴリズムの高速実装。
- find-simdoc - 効率的な時間とメモリを使って、類似したドキュメントのすべてのペアを見つける。
- crawdad - 文字単位のダブル配列トライを使用した自然言語辞書のRustライブラリ。
- tokenizer-speed-bench - 様々なトークナイザーの比較コード
- stringmatch-bench - ここでは、文字列マッチングのデータ構造のパフォーマンスを比較するためのベンチマークツールが提供されています。
- vime - X11アプリケーションの入力方法としてVimを使用する
- voicevox_core - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア
- akaza - IBus/Linux用のもう1つの日本語IME
- Jotoba - 無料でオンラインで自己ホスト可能な、多言語対応の日本語辞書。
- dvorakjp-romantable - Google日本語入力用のDvorakJPローマ字テーブル
- niinii - 一覧を使用したテキストの補助読みのための日本語の注釈者
- cskk - 出力: SKK(シンプルかな漢字変換)ライブラリ
- japanki - CLIでクイズをすることで日本語の単語を学びましょう! 🇯🇵
- jpreprocess - テキスト読み上げアプリケーション用の日本語テキストプリプロセッサ(Rust言語でのOpenJTalkの書き直し)
- listup_precedent - 裁判例のデータ一覧を裁判所のホームページ(https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
- jisho - Jishoは、日本語-英語辞書を提供するCLIツールおよびRustライブラリです。
Jishoは、日本語-英語辞書を提供するCLIツール&Rustライブラリです。
JavaScript
Morphology analysis
Converter
Others
Go
Morphology analysis
- kagome - 純粋なGoで書かれた自己完結型の日本語形態素解析器
Name |
downloads/week |
total downloads |
stars |
kagome |
- |
- |
 |
Others
Java
Morphology analysis
Others
Pretrained model
Word2Vec
ChatGPT
Dictionary and IME
Corpus
Part-of-speech tagging / Named entity recognition
Parallel corpus
Dialog corpus
Others
Tutorial
Research summary
Reference
Contributors