awesome-japanese-nlp-resources

日本語の自然言語処理に関するPythonライブラリ、学習済みモデル、辞書、およびコーパスの厳選リストです。

859件の GitHub リポジトリ情報を掲載中
364 件の Hugging Face リポジトリ情報を掲載中
🎉 2026年3月1日、日本語NLPリソースのサーベイツール awesome-japanese-nlp-survey をリリースしました！

🎉 The latest additions

Rust

sqlite-vaporetto - SQLite FTS5 拡張機能による高速な日本語全文検索を🛥Vaporettoで実現
duckdb-vaporetto - 🛥VaporettoによるDuckDB拡張機能を使用した日本語全文検索

Updated on May 05, 2026

Hugging Face
- Models
- Datasets
Python library
C++
Rust crate
JavaScript
Go
- Morphology analysis
- Others
Java
- Morphology analysis
- Others
Pretrained model
- Word2Vec
- Transformer based models
ChatGPT
Dictionary and IME
Corpus
Tutorial
Research summary
Reference
Contributors

Python library

Morphology analysis

日本語を単語や形態素に分割し品詞や原形を付与するライブラリ

sudachi.rs - SudachiPy 0.6以上はSudachi.rsとして開発されています。
Janome - 純粋なPythonで書かれた日本語形態素解析エンジン
mecab-python3 - mecab-pythonです。mecab-pythonです。オリジナルバージョンはこちらから見つけることができます：http://taku910.github.io/mecab/。
mecab - このリポジトリは、Windows 64ビット用のMeCabバイナリのビルドと、MeCab Pythonバインディングの改善に使用されます。
fugashi - 高速でPythonicな日本語トークナイズと形態素解析のためのCython MeCabラッパー。
nagisa - 再帰型ニューラルネットワークに基づく日本語トークナイザー
pyknp - JUMAN++/KNP用のPythonモジュール
Mykytea-python - KyTeaのPythonラッパー
konoha - Konoha：日本語トークナイザーのシンプルなラッパー
natto-py - natto-pyは、Pythonプログラミング言語と日本語の品詞や形態素解析器であるMeCabを組み合わせたものです。
rakutenma-python - 楽天MA（Python版）
python-vaporetto - Vaporettoは、高速で軽量なポイントワイズ予測ベースのトークナイザーです。これはVaporettoのPythonラッパーです。
dango - 日本語テキスト用の使いやすいトークナイザー。言語学習者や非言語学者を対象としています。
rhoknp - Juman++/KNPのための別のPythonバインディング
python-vibrato - Viterbiベースの高速トークナイザー（Pythonラッパー）
jagger-python - JaggerのPythonバインディング（パターンベースの日本語形態素解析器のC++実装）
Mecari - Mecari（グラフニューラルネットワークを用いた日本語形態素解析）

Name	downloads/week	total downloads
SudachiPy
Janome
mecab-python3
mecab
fugashi
nagisa
pyknp
Mykytea-python
konoha
natto-py
rakutenma-python
python-vaporetto
dango
rhoknp
python-vibrato
jagger-python
Mecari	-	-

Parsing

文の構造や依存関係を解析して文法関係を明らかにするライブラリ

ginza - ユニバーサル依存関係に基づくspaCyフレームワークを使用した日本語NLPライブラリ
cabocha - もう一つの日本語依存構造解析ツール
UniDic2UD - 現代日本語のためのトークナイザー、POSタガー、レンマ化器、依存構造解析器
camphr - Camphr - パイプラインコンポーネントを作成するためのNLPライブラリ
SuPar-UniDic - モダン・コンテンポラリー日本語用のTokenizer、POS-tagger、Lemmatizer、およびDependency-parserには、BERTモデルが使用されます。
depccg - スーパータグと依存関係ファクタリングモデルを備えたA* CCGパーサー
bertknp - BERTに基づく日本語依存構造解析器
esupar - 日本語や他の言語に対応したBERT/RoBERTa/DeBERTaモデルを使用したトークナイザー、POSタガー、依存構造解析器。
yomikata - 微調整されたBERTモデルを使用した異音異義語の曖昧性解消ライブラリ。
jdepp-python - J.DepPのPythonバインディング（日本語依存構造解析器のC++実装）
lightblue - DTS表現を使用した日本語のCCGパーサー
natsume-simple - natsume-simpleは日本語の係り受け関係検索システム
jdeppy - J.DepP用のPythonラッパー、高速日本語依存構造解析器

Name	downloads/week	total downloads
ginza
cabocha
UniDic2UD
camphr
SuPar-UniDic
depccg
bertknp	-	-
esupar
yomikata
jdepp-python
lightblue	-	-
natsume-simple	-	-
jdeppy

Converter

仮名ローマ字や全半角など文字や表記を変換するライブラリ

pykakasi - 日本語の仮名漢字文から仮名ローマ字文に変換する軽量コンバーター。
cutlet - Pythonでの日本語からローマ字への変換ツール
alphabet2kana - 英語アルファベットをカタカナに変換してください。
Convert-Numbers-to-Japanese - アラビア数字、または「西洋式」の数字を日本の文脈に変換します。
mozcpy - Python用Mozc：かな漢字変換器
jamorasep - ひらがな/カタカナの文字列をモーラ（音節）に分割する日本語テキストパーサー。
text2phoneme - 日本語文を音素列へ変換するスクリプト
jntajis-python - 日本国税庁の法人番号システムで定義されたスキームに基づく、高速な文字変換および転写ライブラリ。
wiredify - 「ばびぶべぼ」から「ヴァヴィヴヴェヴォ」に変換してください。
mecab-text-cleaner - MeCabを使用して、日本語の読み仮名とアクセントを取得するためのシンプルなPythonパッケージ（CLI/Python API）。
pynormalizenumexp - 数量表現や時間表現の抽出・正規化を行うNormalizeNumexpのPython実装数量表現や時間表現の抽出・正規化を行うNormalizeNumexpのPython実装
Jusho - 日本の郵便番号データの簡単なラッパー
yurenizer - 日本語テキストの表記の一貫性を解消する日本語テキスト正規化ツール
e2k - 自動的な英語から片仮名への変換ツール
alkana.py - アルファベット文字列のカタカナ読みを取得するツール。
englishtokanaconverter - 英語文字列をカタカナに変換するプログラム
kanjiconv - 漢字変換器へひらがな、カタカナ、ローマ字。
kanjize - Kanjize(カンジャイズ): 漢字数字と整数の簡単な変換ツール

Name	downloads/week	total downloads
pykakasi
cutlet
alphabet2kana
Convert-Numbers-to-Japanese	-	-
mozcpy
jamorasep
text2phoneme	-	-
jntajis-python
wiredify
mecab-text-cleaner
pynormalizenumexp
Jusho
yurenizer
e2k
alkana.py	-	-
englishtokanaconverter	-	-
kanjiconv
kanjize

Preprocessor

テキストを正規化し解析に適した形に整えるライブラリ

neologdn - mecab-neologd用の日本語テキスト正規化ツール
jaconv - ひらがな、カタカナ、半角、全角のための純粋なPython日本語文字相互変換器
mojimoji - 日本語半角と全角の素早い変換ツール
text-cleaning - 日本語のウェブテキスト用の強力なテキストクリーナー
HojiChar - 複数の前処理を構成して管理するテキスト前処理ツール
utsuho - Utsuhoは、日本語の半角カタカナと全角カタカナの間で双方向変換を容易にするPythonモジュールです。
python-habachen - もう一つの高速な日本語文字列変換ツール
kairyou - SpaCyを使用して、日本語テキストをNLP/NERで迅速に前処理し、日本語翻訳やその他のNLPタスクに使用します。

Name	downloads/week	total downloads
neologdn
jaconv
mojimoji
text-cleaning	-	-
HojiChar
utsuho
python-habachen
kairyou

Sentence spliter

文章を文ごとに自動で分割するライブラリ

Bunkai - 日本語テキストの文境界曖昧性解消ツール (にほんごぶんきょうかいはんていき)
japanese-sentence-breaker - 日本語の文分割器
sengiri - 日本語テキストのための別の文レベルのトークナイザー
budoux - スタンドアロン。小さい。言語に依存しない。BudouXは、機械学習による行の整理ツールであるBudouの後継者です。
ja_sentence_segmenter - Python用の日本語文分割ライブラリ
hasami - 日本語テキストの文分割を実行するツール
kuzukiri - Rustで書かれたPython用の日本語テキストセグメンター
ja-senter-benchmark - 日本語文分割ツールの比較
fast-bunkai - 日本語文境界判定器、Rustで高速化されたPythonライブラリを使用して、megagonlabs/bunkaiとほぼ完全なAPI互換性を持つ40〜250倍速くなりました。

Name	downloads/week	total downloads
bunkai
japanese-sentence-breaker
sengiri
budoux
ja_sentence_segmenter
hasami
kuzukiri
ja-senter-benchmark	-	-
fast-bunkai

Sentiment analysis

文に含まれる感情や評価を判定するライブラリ

oseti - 日本語の辞書ベースの感情分析
negapoji - 日本語のネガティブ・ポジティブの分類。日本語の文章のネガティブ・ポジティブを判定します。
pymlask - 日本語テキストの感情分析ツール
asari - Pythonで実装された日本語感情分析器。

Name	downloads/week	total downloads
oseti
negapoji	-	-
pymlask
asari

Machine translation

異なる言語間で文章を自動翻訳するライブラリ

jparacrawl-finetune - JParaCrawlの事前学習済みニューラル機械翻訳（NMT）モデルの使用例。
JASS - JASS：ニューラル機械翻訳のための日本語固有のシーケンス・トゥ・シーケンス事前学習（LREC2020）＆言語学的に駆動された低リソースニューラル機械翻訳のためのマルチタスク事前学習（ACM TALLIP）
PheMT - 日英機械翻訳の堅牢性に関する現象別評価データセット。このデータセットは、MTNTデータセットをベースに、固有名詞、略語、口語表現、および変異形の4つの言語現象の追加注釈を含んでいます。COLING 2020。
VISA - 視覚シーンに関する機械翻訳のための曖昧な字幕データセット
plamo-translate-cli - ローカル実行を使用したplamo-2-translateモデルを利用した翻訳のためのコマンドラインインターフェース。

Name	downloads/week	total downloads
jparacrawl-finetune	-	-
JASS	-	-
PheMT	-	-
VISA	-	-
plamo-translate-cli	-	-

Named entity recognition

文から人名地名組織名などの固有表現を抽出するライブラリ

namaco - 文字ベースの固有表現認識。
entitypedia - Entitypediaは、Wikipediaからの拡張された固有名詞辞書です。
noyaki - 文字の範囲ラベル情報をトークン化されたテキストベースのラベル情報に変換します。
bert-japanese-ner-finetuning - Code to perform finetuning of the BERT model. BERTモデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
joint-information-extraction-hs - 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度の推論を行うコード
pygeonlp - pygeonlpは、日本語テキストのジオタギングに使用するPythonモジュールです。
bert-ner-japanese - BERTによる日本語固有表現抽出のファインチューニング用プログラム
huggingface-finetune-japanese - 日本語の言語（Hugging Face）リソースのためにエンコーダーのみとエンコーダーデコーダーのトランスフォーマーを微調整するための例
novelanalysisbyner - BERTのファインチューニングによる固有表現抽出

Name	downloads/week	total downloads
namaco	-	-
entitypedia	-	-
noyaki
bert-japanese-ner-finetuning	-	-
joint-information-extraction-hs	-	-
pygeonlp
bert-ner-japanese	-	-
huggingface-finetune-japanese	-	-
novelanalysisbyner	-	-

OCR

画像から文字を読み取りテキスト化するライブラリ

Manga OCR - 日本語のマンガを中心に、光学文字認識についての説明。
mokuro - ブラウザ内で選択可能なテキストで日本のマンガを読む。
handwritten-japanese-ocr - インテルのOpenVINOツールキットを使用して、タッチパネルを使って入力テキストを描画する手書き日本語OCRデモ
OCR_Japanease - Japanese OCR
ndlocr_cli - NDLOCRのアプリケーション
donut - OCRフリー文書理解トランスフォーマー（Donut）および合成文書ジェネレーター（SynthDoG）の公式実装、ECCV 2022
JMTrans - マンガ翻訳者 - URLから日本のマンガを取得してマンガ画像を翻訳する
Kindai-OCR - 現代日本の雑誌を認識するOCRシステム
text_recognition - NDLOCR用テキスト認識モジュール
Poricom - 漫画画像の光学文字認識。漫画OCRデスクトップアプリケーション。
owocr - 日本語テキストの光学文字認識
yomitoku - Yomitokuは、日本語に特化したAIパワードのドキュメント画像解析パッケージです。
findtextcenternet - センターネットを使用した日本語OCR
simple-ocr-for-manga - 漫画用のシンプルなOCR（日本の伝統的なものと日本の縦書き）
jp-ocr-evaluation - 日本語の文章画像に対するOCRの性能を評価
paddleocr-vl-sft-for-japanese-manga-on-rtx-3060 - 日本の漫画テキスト認識のために、Manga109sデータセットでPaddleOCR-VLを微調整します。ベースモデルは漫画内の縦書き日本語テキストの読み順に苦労しています。微調整後、モデルは漫画固有のテキストレイアウトを正しく処理します。
MangaOCR - 日本語テキスト用の軽量なOCRモデル、特にマンガ向け
meikiocr - 高速、高精度、日本のビデオゲーム向けのローカルOCR
meikipop - Windows、Linux、およびmacOS用のユニバーサル日本語OCRポップアップ辞書

Name	downloads/week	total downloads
manga-ocr
mokuro
handwritten-japanese-ocr	-	-
OCR_Japanease	-	-
ndlocr_cli	-	-
donut
JMTrans	-	-
Kindai-OCR	-	-
text_recognition	-	-
Poricom	-	-
owocr	-	-
yomitoku
findtextcenternet	-	-
simple-ocr-for-manga	-	-
jp-ocr-evaluation	-	-
paddleocr-vl-sft-for-japanese-manga-on-rtx-3060	-	-
MangaOCR	-	-
meikiocr
meikipop	-	-

Tool for pretrained models

事前学習済みモデルを活用して精度を高めるライブラリ

JGLUE - JGLUE：日本語一般言語理解評価
ginza-transformers - spacy-transformersでカスタムトークナイザーを使用する
t5_japanese_dialogue_generation - T5による会話生成
japanese_text_classification - MLP、CNN、RNN、BERTアプローチを含む様々なDNNテキスト分類器を調査する。
Japanese-BERT-Sentiment-Analyzer - FastAPIとBERTを使用して感情分析サーバーを展開する
jmlm_scoring - 日本語とベトナム語のためのマスクされた言語モデルに基づくスコアリング
allennlp-shiba-model - ShibaのためのAllenNLP統合：日本のCANINEモデル
evaluate_japanese_w2v - 日本語の類似度データセットで事前学習された日本語word2vecモデルを評価するスクリプト
gector-ja - 日本語のBERTベースのGECタグ付け
Japanese-BPEEncoder - 日本語-BPEエンコーダー
Japanese-BPEEncoder_V2 - 日本語-BPEエンコーダーバージョン2
transformer-copy - 日本語文法誤り訂正ツール
japanese-stable-diffusion - 日本語ステーブル拡散は、任意のテキスト入力に対して写真のようなリアルな画像を生成することができる、日本特有の潜在的なテキストから画像への拡散モデルです。
nagisa_bert - nagisa用のBERTモデル
prefix-tuning-gpt - トレーニング済みのプレフィックスを使用したGPT/GPT-NeoXモデルのプレフィックスチューニングの例コードと推論のためのコード。
JGLUE-benchmark - JGLUEのトレーニングと評価スクリプト、日本語理解ベンチマーク用
jptranstokenizer - トランスフォーマーライブラリの日本語トークナイザー
jp-stable - JP言語モデル評価ハーネス
compare-ja-tokenizer - 異なるトークナイザーは、スクリプト連続言語における下流タスクでどのように機能するか？：日本語のケーススタディ - ACL SRW 2023
lm-evaluation-harness-jp-stable - 自己回帰言語モデルの少数ショット評価のためのフレームワーク。
llm-lora-classification - llm-lora-classificationllm-lora-分類
jp-stable - JP言語モデル評価ハーネス
rinna_gpt-neox_ggml-lora - このリポジトリには、”rinna/japanese-gpt-neox…” [gpt-neox] モデルをggmlに変換した場合に、Alpaca-LoraアダプターをLoRAチューニングに適応させるために修正されたスクリプトとマージスクリプトが含まれています。
japanese-llm-roleplay-benchmark - このリポジトリは日本語LLMのキャラクターロールプレイに関する性能を評価するために作成しました。
japanese-llm-ranking - このリポジトリは、YuzuAIのラクダリーダーボードをサポートしています。ラクダリーダーボードは、LMSYSのビクーナ評価の日本に特化した類似物です。
llm-jp-eval - このツールは、複数のデータセットを横断して日本語の大規模言語モデルを自動評価するものです．
llm-jp-sft - このリポジトリには、LLM-jpモデルの教師ありファインチューニングのためのコードが含まれています。
llm-jp-tokenizer - LLM勉強会（LLM-jp）で開発しているLLM用のトークナイザー関連をまとめたリポジトリです．
japanese-lm-fin-harness - 日本語言語モデルの金融評価ハーネス
ja-vicuna-qa-benchmark - 日本のビクーニャQAベンチマーク
swallow-evaluation - Swallowプロジェクト大規模言語モデル評価スクリプト
swallow-evaluation-instruct - Swallowプロジェクト事後学習ずみ大規模言語モデル評価フレームワーク
pretrained_doc2vec_ja - 日本語のWikipediaに事前学習されたdoc2vecモデル
pl-bert-ja - 日本語音素レベルBERTのリポジトリ

Name	downloads/week	total downloads
JGLUE	-	-
ginza-transformers
t5_japanese_dialogue_generation	-	-
japanese_text_classification	-	-
Japanese-BERT-Sentiment-Analyzer	-	-
jmlm_scoring	-	-
allennlp-shiba-model
evaluate_japanese_w2v	-	-
gector-ja	-	-
Japanese-BPEEncoder	-	-
Japanese-BPEEncoder_V2	-	-
transformer-copy	-	-
japanese-stable-diffusion	-	-
nagisa_bert
prefix-tuning-gpt	-	-
JGLUE-benchmark	-	-
jptranstokenizer
jp-stable	-	-
compare-ja-tokenizer	-	-
lm-evaluation-harness-jp-stable	-	-
llm-lora-classification	-	-
jp-stable	-	-
rinna_gpt-neox_ggml-lora	-	-
japanese-llm-roleplay-benchmark	-	-
japanese-llm-ranking	-	-
llm-jp-eval	-	-
llm-jp-sft	-	-
llm-jp-tokenizer	-	-
japanese-lm-fin-harness	-	-
ja-vicuna-qa-benchmark	-	-
swallow-evaluation	-	-
swallow-evaluation-instruct	-	-
pretrained_doc2vec_ja	-	-
pl-bert-ja	-	-

Others

日本語処理を補助するその他の汎用ライブラリ

namedivider-python - 日本のフルネームを姓と名に分けるためのツール。
asa-python - 日本語の自然言語処理のPythonライブラリに特化したリソースの厳選リスト
python_asa - python版日本語意味役割付与システム（ASA）
toiro - 日本語トークナイザーの比較ツール
ja-timex - 自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器
JapaneseTokenizers - テキストデータからの特徴選択のためのメトリックのセット
daaja - このリポジトリには、日本語のNLPのためのデータ拡張の実装が含まれています。
accel-brain-code - このリポジトリの目的は、私がウェブサイトで書いた概念実証（PoC）および研究開発（R＆D）の文脈でプロトタイプをケーススタディとして作成することです。主な研究トピックは、表現学習に関連するオートエンコーダー、エネルギーベースモデルの統計的機械学習、敵対的生成ネットワークなどです…
kyoto-reader - 京都コーパス、KWDLC、および注釈付きFKCコーパス用のプロセッサー
nlplot - 自然言語処理の可視化モジュール
rake-ja - 日本語の高速自動キーワード抽出アルゴリズム
jel - 日本語エンティティリンカー。
MedNER-J - 最新版のMedEX/J（日本語疾患名抽出ツール）
zunda-python - Python用の日本語強調モダリティ解析クライアント「Zunda」。
AIO2_DPR_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/ を入力してください。
showcase - Matsubayashi＆Inui（2018）の論文で紹介された日本語述語引数構造（PAS）解析器のPyTorch実装にいくつかの改良を加えました。
darts-clone-python - ダーツクローンのPythonバインディング
jrte-corpus_example - 日本の現実的なテキスト推論コーパスの例コード
desuwa - KNPルールファイルに基づく形態素とフレーズの特徴注釈ツール（純粋なPython）
HotPepperGourmetDialogue - 日本語による対話を通じたレストラン検索システム。
nlp-recipes-ja - 日本語の自然言語処理のサンプルコード
Japanese_nlp_scripts - Pythonで日本語テキストを扱うための小さなサンプルスクリプト
DNorm-J - DNormの日本語版
pyknp-eventgraph - EventGraphは、日本語の高度なNLPアプリケーションの開発プラットフォームです。
ishi - 石：日本語の意志分類器
python-npylm - ベイズ階層言語モデルによる教師なし形態素解析
python-npycrf - 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
unsupervised-pos-tagging - 教師なし品詞タグ推定
negima - Negimaは、定義した品詞ベースのルールを使用して、日本語テキストからフレーズを抽出するためのPythonパッケージです。
YouyakuMan - BertSumを要約モデルとして使用する抽出型要約器
japanese-numbers-python - 自然言語での日本語数字（漢字、アラビア数字）のパーサー。
kantan - 部首のパターンで日本語の単語を検索する
make-meidai-dialogue - 日本語の会話コーパスを取得する。
japanese_summarizer - 日本語記事の要約ツール。
chirptext - ChirpTextはPythonのテキスト処理ツールのコレクションです。
yubin - 日本の住所マンガー
jawiki-cleaner - 日本語ウィキペディアクリーナー
japanese2phoneme - 日本語を音素に変換するためのPythonライブラリ。
anlp_nlp2021_d3-1 - このリポジトリには、「感情に基づくテキスト分類のための日本語トークナイザーの実験的評価」に関連するコードが含まれています。
aozora_classification - 約について
aozora-corpus-generator - 青空文庫からプレーンテキストまたはトークン化されたテキストファイルを生成します。
JLM - 日本語や中国語のような大語彙言語に対応した高速なLSTM言語モデル
NTM - 日本語記事のニューラルトピックモデリングのテスト
EN-JP-ML-Lexicon - これは、機械学習とディープラーニングの用語に関する英日語辞典です。
text-generation - あなた自身のテキストでGPT-2-JAを微調整し、文章を生成し、自動的にツイートするための使いやすいスクリプト。
chainer_nic - Chainer上のニューラル画像キャプション（NIC）、英語と日本語の画像キャプションデータセットの事前学習済みモデル。
unihan-lm - 「UnihanLM：Unihanデータベースを用いた粗-細分割の中国語-日本語言語モデル事前学習」の公式リポジトリ、AACL-IJCNLP 2020
mbart-finetuning - mBARTモデルのファインチューニングを実行するためのコード。
xvector_jtubespeech - jtubespeech上のxvectorモデル
TinySegmenterMaker - TinySegmenter用の学習モデルを自作するためのツール．
Grongish - 日本語とグロンギ語の相互変換スクリプト
WordCloud-Japanese - WordCloudでの日本語文章をMecab（形態素解析エンジン）を使用せずに形態素解析チックな表示を実現するスクリプト
snark - 日本語ワードネットを利用したDBアクセスライブラリ
toEmoji - 日本語文を絵文字だけの文に変換するなにか
termextract - - 専門用語抽出アルゴリズムの実装の練習
JDT-with-KenLM-scoring - Japanese-Dialog-Transformerの応答候補に対して、KenLMによるN-gram言語モデルでスコアリングし、フィルタリング若しくはリランキングを行う。
mixture-of-unigram-model - Pythonにおける混合ユニグラムモデルと無限混合ユニグラムモデルの組み合わせ。
hidden-markov-model - Pythonにおける隠れマルコフモデル（HMM）と無限隠れマルコフモデル（iHMM）。
Ngram-language-model - PythonにおけるNグラム言語モデル。
ASRDeepSpeech - 自動音声認識は、Zakuro AIのサポートを受けたpytorchのdeepspeech2モデルを使用しています。
neural_ime - ニューラルIME：ニューラル入力方式エンジン
neural_japanese_transliterator - ニューラルネットワークはローマ字を正しく日本語に転写できますか？
tinysegmenter - 日本語用のトークナイザーが指定されました。
AugLy-jp - AugLyにおける日本語テキストのデータ拡張
furigana4epub - MecabとUnidicを使用して日本語のepub書籍にフリガナを追加するためのPythonスクリプト。
PyKatsuyou - 日本語の動詞/形容詞の活用ツール
jageocoder - 純粋なPythonの日本の住所ジオコーダー
pygeonlp - pygeonlpは、日本語テキストのジオタギングに使用するPythonモジュールです。
nksnd - 新しいかな漢字変換エンジン
JaMIE - 日本語医療情報抽出ツールキット
fasttext-vs-word2vec-on-twitter-data - fasttextとword2vecの比較と、実行スクリプト、学習スクリプトです
minimal-search-engine - 最小のサーチエンジン/PageRank/tf-idf
5ch-analysis - 5chの過去ログをスクレイピングして、過去流行った単語(ex, 香具師, orz)などを追跡調査
tweet_extructor - Twitter日本語評判分析データセットのためのツイートダウンローダ
japanese-word-aggregation - Juman++とConceptNet5.5に基づいて日本語の単語を集約する。
jinf - 日本語活用変換ツール
kwja - 日本語の統一された言語解析器
mlm-scoring-transformers - マスクされた言語モデルスコアリングに基づく再現パッケージ（ACL2020）。
ClipCap-for-Japanese - [PyTorch] 日本語のClipCap
SAT-for-Japanese - [PyTorch] 日本語のための Show, Attend and Tell
cihai - CJK（中国語、日本語、韓国語）言語辞書のためのPythonライブラリ
marine - MARINE：マルチタスク学習に基づく日本語アクセント推定
whisper-asr-finetune - Whisper ASRモデルの微調整
japanese_chatbot - BERTとTransformerのデコーダーを使用した日本語チャットボットのPyTorch実装
radicalchar - 部首文字正規化ライブラリ
akaza - IBus/Linux用のもう一つの日本語IME
posuto - 日本の郵便番号データ。
tacotron2-japanese - 日本語のTacotron2の実装
ibus-hiragana - ひらがなIME for IBus
furiganapad - ふりがなパッド
chikkarpy - 日本語類語辞書
ja-tokenizer-docker-py - Mecab + NEologd + Docker + Python3 の入力となります。
JapaneseEmbeddingEval - 日本語埋め込み評価
gptuber-by-langchain - GPTがYouTuberをやります
shuwa - 入力方法のためにGNOMEオンスクリーンキーボードを拡張する
japanese-nli-model - このリポジトリは、日本語NLIモデルのコードを提供しており、ファインチューニングされたマスク言語モデルです。
tra-fugu - FuguMTを使用した日本語-英語翻訳および英語-日本語翻訳のためのツール。
fugumt - ぷるーふおぶこんせぷとで公開した機械翻訳エンジンを利用する翻訳環境です。フォームに入力された文字列の翻訳、PDFの翻訳が可能です。
JaSPICE - JaSPICE：画像キャプショニングモデルの述語引数構造を使用した自動評価メトリック
Retrieval-based-Voice-Conversion-WebUI-JP-localization - 日本語ローカライゼーション
pyopenjtalk - OpenJTalkのPythonラッパー
yomigana-ebook - 電子書籍に漢字の読み方を追加することで、日本語の学習をより簡単にすることができます。
N46Whisper - ささやきベースの日本語字幕生成ツール
japanese_llm_simple_webui - Rinna-3.6B、OpenCALM等の日本語対応LLM(大規模言語モデル)用の簡易Webインタフェースです
pdf-translator - pdf-translatorは、英語のPDFファイルを日本語に翻訳し、元のレイアウトを保持します。
japanese_qa_demo_with_haystack_and_es - Haystack + Elasticsearch + wikipedia(ja) を用いた、日本語の質問応答システムのサンプルヘイスタック + エラスティックサーチ + Wikipedia(ja) を使用した、日本語の質問応答システムのサンプル
mozc-devices - 自動的にcode.google.com/p/mozc-morseからエクスポートされました。
natsume - 日本語テキストフロントエンド処理ツールキット
vits-japros-webui - 日本語TTS（VITS）の学習と音声合成のGradio WebUI
ja-law-parser - 日本の法律パーサー
dictation-kit - Juliusを使用した日本語音声認識キット
julius4seg - Juliusを使ったセグメンテーション支援ツール
voicevox_engine - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXの音声合成エンジン
LLaVA-JP - LLaVA-JPは、LLaVAメソッドで訓練された日本のVLMです。
RAG-Japanese - 日本の低資源設定での日本語LLM用のオープンソースRAGとLlama Index
bertjsc - BERTを使用した日本語スペルエラー修正ツール
llm-leaderboard - 日本のタスクのLLM評価プロジェクト
jglue-evaluation-scripts - JGLUEのトレーニングと評価スクリプトについて、日本語理解のベンチマークに関してJGLUEは、日本語理解のベンチマークのためのトレーニングと評価スクリプトについての情報です。
BLIP2-Japanese - 日本のデータセットで事前学習されたモデルを使用して、LAVISのBLIP2 Q-formerを修正します。LAVISのBLIP2 Q-formerを日本のデータセットで事前学習されたモデルを用いて修正します。
wikipedia-passages-jawiki-embeddings-utils - wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。
simple-simcse-ja - 日本語のSimCSEを探索中
wikipedia-japanese-open-rag - Wikipediaの日本語記事を元に、ユーザの質問に回答するGradioベースのRAGのサンプル
gpt4-autoeval - GPT-4 を用いて、言語モデルの応答を自動評価するスクリプト
t5-japanese - 日本語T5モデル
japanese_llm_eval - 日本語LLMを評価するためのリポジトリ
jmteb - JMTEB（日本語大規模テキスト埋め込みベンチマーク）の評価スクリプト
pydomino - 日本語音声に対して音素ラベルをアラインメントするためのツールです
easynovelassistant - 軽量で規制も検閲もない日本語ローカル LLM『LightChatAssistant-TypeB』による、簡単なノベル生成アシスタントです。ローカル特権の永続生成 Generate forever で、当たりガチャを積み上げます。読み上げにも対応。
clip-japanese - 日本語CLIPモデル
rime-jaroomaji - Rime IMEのための日本語ローマ字入力スキーマ
deep-question-generation - 深層学習を用いたクイズ自動生成（日本語T5モデル）
magpie-nemotron - Magpieという手法とNemotron-4-340B-Instructを用いて合成対話データセットを作るコード
qlora_ja - 日本語データセットでのqlora instruction tuning学習サンプルコード
mozcdic-ut-jawiki - Mozc UT Jawiki辞書は、Mozc用に日本語のWikipediaから生成された辞書です。
shisa-v2 - 日本語/英語バイリンガルLLM
llm-translator - ミクストラルベースの日英（英日）翻訳モデル
llm-jp-asr - Whisperのデコーダをllm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのコード
rag-japanese - 日本の低リソース環境でのLLM向けのラマ指数付きのオープンソースRAG
monaka - 日本語パーサー（歴史的な日本語を含む）
jp-translate.cloud - 最新のNMT研究に基づいた最先端のオープンソース日本語<–>英語機械翻訳システム。
substring-word-finder - 連続部分文字列の単語判定を行います
heron-vlm-leaderboard - このプロジェクトは、さまざまなビジョン言語モデル（VLMs）のパフォーマンスを評価および比較するためのベンチマークツールです。モデルのパフォーマンスを測定するために、LLaVA-Bench-In-the-WildとJapanese HERON Benchの2つのデータセットを使用しています。
text2dataset - 簡単に大きな英語テキストデータセットを日本語テキストデータセットに変換できます。オープンLLMsを使用してください。
mecab-web-api - MeCabを利用した日本語形態素解析WebAPI
mecab_controller - ふりがな読みを生成するためのMecabラッパー
vits - VITSによるテキスト読み上げ器&ボイスチェンジャー
akari_chatgpt_bot - 音声認識、文章生成、音声合成を使って対話するチャットボットアプリ
kudasai - 高度な前処理と統合された翻訳技術を活用して、日本語-英語翻訳を効率化する
mecab-visualizer - MeCabの形態素解析結果を可視化するツール
add-dictionary - OpenJTalkのユーザ辞書をGUIで追加するアプリ
j-moshi - J-Moshi: 日本語のフルデュプレックス音声対話システム
jatts - JATTS: 日本語TTS（研究用）
tsukasa-speech - フロンティア日本語音声生成ネットワーク
symptom-expression-search - ElasticsearchやGiNZA、患者表現辞書を使った患者表現揺れ吸収する意味構造検索を試したエラスティックサーチやGiNZA、患者表現辞書を使用して患者表現の揺れを吸収する意味構造検索を試してみました。
llm-jp-judge - 生成自動評価を行うためのPythonツール
asagi-vlm-colaboratory-sample - Colaboratory上でAsagi(合成データセットを活用した大規模日本語VLM)をお試しするサンプル
llm-jp-eval-mm - このツールは、複数のデータセットにわたって日本語のマルチモーダル大規模言語モデルを自動的に評価します。
llm-jp-judge - 生成自動評価を行うためのPythonツール
manga109api - Manga109の注釈データを読むためのシンプルなPython API
fastrtc-jp - fastrtc用の日本語TTSとSTT追加キット
whisper-transcription - Pythonを使用したWhisperモデルによる音声文字起こしツール
pocket-researcher - LLMを活用した自律調査エージェント。手軽に情報収集、概要把握。
jtransbench - 日本語翻訳スキルを簡単にベンチマークするためのツール
easyllasa - EasyLlasa は 5～15秒の日本語音声と日本語テキストから日本語音声を生成する TSTS (TextSpeechToSpeech) です。
kanjikana-model - 氏名漢字カナ突合モデル
deep-openreview-research-ja - OpenReview論文を自動で発見・分析する日本語対応AIエージェント
pitchbench - 実験的な日本語ピッチアクセントに基づくLLMベンチマーク
mini-transformer-from-scratch - ゼロから日本語への英語変換器
vv_core_inference - VOICEVOXのコア内で用いられているディープラーニングモデルの推論コード
pyopenjtalk-plus - pyopenjtalk-plus: 追加の改善を加えたOpenJTalkのPythonラッパー
japanese_spelling_correction - 日本語のスペル修正
py-kaomoji - python 顔文字
llm-jp-vila - このリポジトリには、VILAリポジトリから変更されたllm-jp/llm-jp-3-vila-14bのトレーニングコードが含まれています。
kanjivg-radical - kanjivg-radical漢字VGラジカル
japanese-wordnet-visualization - このプロジェクトは、Djangoで構築されたWebアプリケーションを使用して日本語ワードネットを可視化します。
piper-plus - 日本語サポート、WebAssembly、マルチGPUトレーニング、品質向上を備えた強化されたパイパーTTS。
Japanera - 日本の元号システムのための簡単なツール
bert-abstractive-text-summarization - BERTを使用した日本語文章要約
kyujipy - 新字体（Shinjitai）から旧字体（Kyujitai）へ、またはその逆に日本語テキストを変換するためのPythonライブラリ
jitenbot - 日本語辞書の個人用コピーを作成するためのWebクローラー
ja-icd10 - ICD-10 国際疾病分類の日本語情報を扱うためのPythonパッケージ
pl-bert-vits2 - 音素レベルの日本語BERTを使用したVITS2
ndc_predictor - NDCPredictorの機械学習モデル（書誌情報から日本十進分類を推測するfastTextの学習済みモデル）
pfmt-bench-fin-ja - pfmt-bench-fin-ja: 日本語金融向けの優先マルチターンベンチマーク
marine-plus - MARINE：マルチタスク学習ベースの日本語アクセント推定（Windowsもサポート）
ja-tokenizer-benchmark - Pythonでのさまざまな日本語トークナイザーの速度を比較してください。
yat - yat：日本語NLPのためのもう1つのトークナイザーyat：日本語NLPのためのもう1つのトークナイザー
igakuqa119 - 第119回日本医師免許試験におけるLLMの評価
japanese-luw-tokenizer - TransformersのRemBertTokenizerFastを使用した日本語長単位ワードトークナイザー
ibus-jig - 入力: ibus-jig：GPT-4を使用した日本語入力法
jp-stopword-filter - カスタマイズ可能なルールに基づいて日本語テキストからストップワードをフィルタリングするために設計された軽量なPythonライブラリ。
yasumail - MLトレーニングデータ用の合成日本語ビジネスメールジェネレータ
himotoki - Pythonベースの日本語トークナイザー、辞書、形態素解析ツール、ローマ字変換ツール。言語学習用のJMDictに基づいています。
diafill-toolkit - 音声ベースのインタラクションに使用する、フィラー豊富で短い発話の日本語ダイアログスクリプトを合成するためのツールキット。このプロジェクトは、データを生成するために2つのフェーズで設計されています：シード生成（メタデータ作成）とダイアログ生成（スクリプト作成）。
eval_vertical_ja - 縦書き日本語テキストにおけるマルチモーダル大規模言語モデルの評価
jp-llm-corpus-pii-filter - 本コードは，大規模言語モデル（LLM）の学習用コーパスから，個人情報の中でも特に配慮が求められる「要配慮個人情報」をフィルタリングするためのものです.
eval_vertical_ja - 縦書き日本語テキストにおけるマルチモーダル大規模言語モデルの評価
Novel2DialCorpus - 小説テキストから雑談対話コーパスを構築する手法
OneCompression - 富士通研究所による LLM 向け後学習量子化 (PTQ) パイプライン。QEP (NeurIPS 2025)、ILP 混合精度、回転前処理、vLLM プラグインを統合。論文: arXiv:2603.28845。
manga-translator - マンガ画像内の吹き出し内のテキストを翻訳してください。
shirabe-address-api - Shirabe Address API — AIエージェント向けの日本の住所正規化（Cloudflare Workers + Fly.io NRT、abr-geocoderバックアップ）調べるアドレスAPI
medical-paper-summarizer-public - 毎日PubMedから最新の循環器内科論文を自動収集・AI要約してGmailに届けるシステム

Name	downloads/week	total downloads
namedivider-python
asa-python
python_asa	-	-
toiro
ja-timex
JapaneseTokenizers	-	-
daaja
accel-brain-code
JGLUE	-	-
kyoto-reader
nlplot
rake-ja	-	-
jel
MedNER-J	-	-
zunda-python
AIO2_DPR_baseline	-	-
showcase
darts-clone-python
jrte-corpus_example	-	-
desuwa
HotPepperGourmetDialogue	-	-
nlp-recipes-ja	-	-
Japanese_nlp_scripts	-	-
DNorm-J	-	-
pyknp-eventgraph
ishi
python-npylm	-	-
python-npycrf	-	-
unsupervised-pos-tagging	-	-
negima
YouyakuMan	-	-
japanese-numbers-python
kantan	-	-
make-meidai-dialogue	-	-
japanese_summarizer	-	-
chirptext
yubin
jawiki-cleaner
japanese2phoneme
anlp_nlp2021_d3-1	-	-
aozora_classification	-	-
aozora-corpus-generator	-	-
JLM	-	-
NTM	-	-
EN-JP-ML-Lexicon	-	-
text-generation	-	-
chainer_nic	-	-
unihan-lm	-	-
mbart-finetuning	-	-
xvector_jtubespeech	-	-
TinySegmenterMaker	-	-
Grongish	-	-
WordCloud-Japanese	-	-
snark	-	-
toEmoji	-	-
termextract	-	-
JDT-with-KenLM-scoring	-	-
mixture-of-unigram-model	-	-
hidden-markov-model	-	-
Ngram-language-model	-	-
ASRDeepSpeech	-	-
neural_ime	-	-
neural_japanese_transliterator	-	-
tinysegmenter
AugLy-jp
furigana4epub
PyKatsuyou
jageocoder
pygeonlp
nksnd	-	-
JaMIE	-	-
fasttext-vs-word2vec-on-twitter-data	-	-
minimal-search-engine	-	-
5ch-analysis	-	-
tweet_extructor	-	-
japanese-word-aggregation	-	-
jinf
kwja
mlm-scoring-transformers	-	-
ClipCap-for-Japanese	-	-
SAT-for-Japanese	-	-
cihai
marine
whisper-asr-finetune	-	-
japanese_chatbot	-	-
radicalchar	-	-
akaza	-	-
posuto
tacotron2-japanese	-	-
ibus-hiragana	-	-
furiganapad	-	-
chikkarpy
ja-tokenizer-docker-py	-	-
JapaneseEmbeddingEval	-	-
gptuber-by-langchain	-	-
shuwa	-	-
japanese-nli-model	-	-
tra-fugu	-	-
fugumt	-	-
JaSPICE
Retrieval-based-Voice-Conversion-WebUI-JP-localization	-	-
pyopenjtalk
yomigana-ebook
N46Whisper	-	-
japanese_llm_simple_webui	-	-
pdf-translator	-	-
japanese_qa_demo_with_haystack_and_es	-	-
mozc-devices	-	-
natsume
vits-japros-webui	-	-
ja-law-parser	-	-
dictation-kit	-	-
julius4seg	-	-
voicevox_engine	-	-
LLaVA-JP	-	-
RAG-Japanese	-	-
bertjsc	-	-
llm-leaderboard	-	-
jglue-evaluation-scripts	-	-
BLIP2-Japanese	-	-
wikipedia-passages-jawiki-embeddings-utils	-	-
simple-simcse-ja	-	-
wikipedia-japanese-open-rag	-	-
gpt4-autoeval	-	-
t5-japanese	-	-
japanese_llm_eval	-	-
jmteb	-	-
pydomino	-	-
easynovelassistant	-	-
clip-japanese	-	-
rime-jaroomaji	-	-
deep-question-generation	-	-
magpie-nemotron	-	-
qlora_ja	-	-
mozcdic-ut-jawiki	-	-
shisa-v2	-	-
llm-translator	-	-
llm-jp-asr	-	-
rag-japanese	-	-
monaka	-	-
jp-translate.cloud	-	-
substring-word-finder	-	-
heron-vlm-leaderboard	-	-
text2dataset	-	-
mecab-web-api	-	-
mecab_controller	-	-
vits	-	-
akari_chatgpt_bot	-	-
kudasai	-	-
mecab-visualizer	-	-
add-dictionary	-	-
j-moshi	-	-
jatts	-	-
tsukasa-speech	-	-
symptom-expression-search	-	-
llm-jp-judge	-	-
asagi-vlm-colaboratory-sample	-	-
llm-jp-eval-mm	-	-
llm-jp-judge	-	-
manga109api
fastrtc-jp	-	-
whisper-transcription	-	-
pocket-researcher	-	-
jtransbench	-	-
easyllasa	-	-
kanjikana-model	-	-
deep-openreview-research-ja	-	-
pitchbench	-	-
mini-transformer-from-scratch	-	-
vv_core_inference	-	-
pyopenjtalk-plus
japanese_spelling_correction	-	-
py-kaomoji
llm-jp-vila	-	-
kanjivg-radical	-	-
japanese-wordnet-visualization	-	-
piper-plus	-	-
Japanera
bert-abstractive-text-summarization	-	-
kyujipy
jitenbot	-	-
ja-icd10	-	-
pl-bert-vits2	-	-
ndc_predictor	-	-
pfmt-bench-fin-ja	-	-
marine-plus
ja-tokenizer-benchmark	-	-
yat	-	-
igakuqa119	-	-
japanese-luw-tokenizer	-	-
ibus-jig	-	-
jp-stopword-filter
yasumail	-	-
himotoki
diafill-toolkit	-	-
eval_vertical_ja	-	-
jp-llm-corpus-pii-filter	-	-
eval_vertical_ja	-	-
Novel2DialCorpus	-	-
OneCompression	-	-
manga-translator	-	-
shirabe-address-api	-	-
medical-paper-summarizer-public	-	-

C++

Morphology analysis

高速な日本語形態素解析を行うライブラリ

mecab - もう一つの日本語形態素解析器
jumanpp - Juman++（形態素解析ツールキット）
kytea - 京都テキスト分析ツールキット：単語分割や発音推定などに使用されます。
juman - 日本語形態素解析システムJUMAN

Name	downloads/week	total downloads
mecab	-	-
jumanpp	-	-
kytea	-	-
juman	-	-

Parsing

日本語の文法構造や係り受けを解析するライブラリ

cabocha - もう一つの日本語依存構造解析ツール
knp - 日本語パーサー

Name	downloads/week	total downloads	stars
cabocha	-	-
knp	-	-

Others

その他の日本語NLP関連ライブラリ

jsc - 日本語の仮名漢字変換、中国語のピンイン入力、CJE混合入力のための共通ソースチャネルモデル。
aquaskk - 形態素解析を行わない入力方法。
mozc - Mozc - マルチプラットフォームに対応した日本語入力システムエディター
trimatch - Trimatch：（完全接頭辞近似）文字列マッチングライブラリ
resembla - Resembla：単語ベースの日本語類似文検索ライブラリ
corvusskk - ▽▼ Windows用のSKK風日本語入力エディタ
mozuku - 日本語文章の解析・校正を行う LSP サーバー。

Name	downloads/week	total downloads
jsc	-	-
aquaskk	-	-
mozc	-	-
trimatch	-	-
resembla	-	-
corvusskk	-	-
mozuku	-	-

Rust crate

Morphology analysis

Rustで実装された日本語形態素解析ライブラリ

lindera - 形態素解析ライブラリ。
vaporetto - Vaporetto：非常に加速されたポイントワイズ予測に基づくトークナイザー
goya - Rustで書かれた日本語形態素解析
vibrato - バイブラート：Viterbiベースの高速トークナイザー
yoin - 純粋なRustで書かれた日本語形態素解析器
mecab-rs - 「mecab」の安全なRustバインディング。品詞と形態素解析ライブラリ。
awabi - MeCab辞書を使用する形態素解析器
kanpyo - Rustで書かれた日本語形態素解析器

Name	downloads/week	total downloads	stars
lindera	-
vaporetto	-
goya	-
vibrato	-
yoin	-
mecab-rs	-
awabi	-
kanpyo	-

Converter

日本語の文字や仮名を変換するライブラリ

wana_kana_rust - 日本語の文字（ひらがな、カタカナ）とローマ字の間の変換とチェックを行うためのユーティリティライブラリ。
unicode-jp-rs - 日本語の半角カナと全角英数字を通常の文字に変換するためのRustライブラリ
kana - [ミラー] ローマ字テキストをひらがなまたはカタカナに変換するためのCLIプログラム
kanaria - このライブラリは、ひらがな・カタカナ、半角・全角の相互変換や判別を始めとした機能を提供します。
japanese-address-parser - 日本の住所を都道府県/市区町村/町名/その他に分割するライブラリです
yosina - Yosinaは、日本語の文章で使用される文字や記号を取り扱う転写ライブラリです。
mojimoji-rs - 日本語半角と全角文字の高速変換を行うRust実装、mojimoji。
haqumei - 日本語のグラフェムから音素への変換（G2P）ライブラリ。

Name	downloads/week	total downloads
wana_kana_rust	-
unicode-jp-rs	-
kana	-	-
kanaria	-	-
japanese-address-parser	-	-
yosina	-	-
mojimoji-rs	-	-
haqumei	-	-

Search engine library

日本語全文検索のためのライブラリ

lindera-tantivy - Tantivy用のLinderaトークナイザー。
tantivy-vibrato - Vibratoを使用したTantivyトークナイザー。
sqlite-vaporetto - SQLite FTS5 拡張機能による高速な日本語全文検索を🛥Vaporettoで実現
duckdb-vaporetto - 🛥VaporettoによるDuckDB拡張機能を使用した日本語全文検索

Name	downloads/week	total downloads
lindera-tantivy	-
tantivy-vibrato	-
sqlite-vaporetto	-	-
duckdb-vaporetto	-	-

Others

日本語処理やIMEを扱う補助ライブラリ

daachorse - Rustでコンパクトなダブル配列データ構造を使用したAho-Corasickアルゴリズムの高速実装。
find-simdoc - 効率的な時間とメモリを使って、類似したドキュメントのすべてのペアを見つける。
crawdad - 文字単位のダブル配列トライを使用した自然言語辞書のRustライブラリ。
tokenizer-speed-bench - 様々なトークナイザーの比較コード
stringmatch-bench - ここでは、文字列マッチングのデータ構造のパフォーマンスを比較するためのベンチマークツールが提供されています。
vime - X11アプリケーションの入力方法としてVimを使用する
voicevox_core - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア
akaza - IBus/Linux用のもう1つの日本語IME
Jotoba - 無料でオンラインで自己ホスト可能な、多言語対応の日本語辞書。
dvorakjp-romantable - Google日本語入力用のDvorakJPローマ字テーブル
niinii - 一覧を使用したテキストの補助読みのための日本語の注釈者
cskk - 出力: SKK（シンプルかな漢字変換）ライブラリ
japanki - CLIでクイズをすることで日本語の単語を学びましょう！ 🇯🇵
jpreprocess - テキスト読み上げアプリケーション用の日本語テキストプリプロセッサ（Rust言語でのOpenJTalkの書き直し）
listup_precedent - 裁判例のデータ一覧を裁判所のホームページ(https://www.courts.go.jp/index.html) をスクレイピングして生成するソフトウェア
jisho - Jishoは、日本語-英語辞書を提供するCLIツールおよびRustライブラリです。Jishoは、日本語-英語辞書を提供するCLIツール＆Rustライブラリです。
kanalizer - 英単語から読みを推測するライブラリ。
koharu - Rustで書かれたLLMを使用した自動漫画翻訳ツール。
yomine - 言語学習者が新しい単語や表現を見つけるのを手助けするために設計された日本語語彙マイニングツール。
matsuba - 軽量な日本語IMEをRustで書かれました。
hujiang_dictionary - Rustによる日本語辞書、Telegramボット、AWS Lambda、Cloudflare Workersをサポート。LLMとRAGの検索をサポートします。

Name	downloads/week	total downloads
daachorse	-
find-simdoc	-
crawdad	-
tokenizer-speed-bench	-	-
stringmatch-bench	-	-
vime	-	-
voicevox_core	-	-
akaza	-	-
Jotoba	-	-
dvorakjp-romantable	-	-
niinii	-	-
cskk	-	-
japanki	-	-
jpreprocess	-	-
listup_precedent	-	-
jisho	-	-
kanalizer	-	-
koharu	-	-
yomine	-	-
matsuba	-	-
hujiang_dictionary	-	-

JavaScript

Morphology analysis

ブラウザやNode.jsで日本語形態素解析を行うライブラリ

kuromoji.js - 日本語形態素解析器のJavaScript実装
rakutenma - 日本語と中国語の形態素解析器（単語分割器+品詞タガー）である「楽天MA」は、純粋にJavaScriptで書かれています。
node-mecab-ya - Nodejs用の別のmecabラッパー
juman-bin - 日本語形態素解析システムのユーザー拡張可能な解析器。
node-mecab-async - MeCabを使用した非同期日本語形態素解析器。

Name	downloads/week	total downloads	stars
kuromoji.js
rakutenma
node-mecab-ya
juman-bin
node-mecab-async

Converter

日本語の表記や発音を変換するライブラリ

kuroshiro - ふりがなと送り仮名モードに対応した、日本語の文章をひらがな、カタカナ、ローマ字に変換するための日本語言語ライブラリ。
kuroshiro-analyzer-kuromoji - 黒白のためのKuromoji形態素解析器。
hepburn - ヘボン式ローマ字による、日本語のひらがなとカタカナを相互に変換するためのNode.jsモジュール
japanese-numerals-to-number - 日本の数字を数字に変換します。
jslingua - テキストを処理するためのJavascriptライブラリ：アラビア語、日本語など。
WanaKana - ひらがな<–>カタカナ<–>ローマ字の検出と転写のためのJavascriptライブラリ
node-romaji-name - ローマ字表記の日本人名における一般的な問題を正規化し修正する。
kyujitai.js - 日本語のテキストを古風にするためのユーティリティコレクション
normalize-japanese-addresses - オープンソースの住所正規化ライブラリ。
jaconv - 日本語文字変換ライブラリ (javascript)
romaji-conv - ローマ字をひらがなに変換する
japanese-addresses-v2 - 全国の住所データAPI
jptext-to-emoji - テキストの単語を絵文字に変換する
japanese.js - 日本語テキスト処理のためのUtilコレクション。ひらがな化、カタカナ化、ローマ字化。

Name	downloads/week	total downloads
kuroshiro
kuroshiro-analyzer-kuromoji
hepburn
japanese-numerals-to-number
jslingua
WanaKana
node-romaji-name
kyujitai.js
normalize-japanese-addresses	-	-
jaconv	-	-
romaji-conv	-	-
japanese-addresses-v2	-	-
jptext-to-emoji	-	-
japanese.js	-	-

Others

日本語NLPを扱うその他のJavaScriptライブラリ

bangumi-data - 日本のアニメの生データ
yomichan - ChromeとFirefox用の日本語ポップアップ辞書拡張機能。
proofreading-tool - テキストリントツールのGUIツール
kanjigrid - 「Remembering the Kanji」第6版で教えられる2200の漢字を表示するウェブアプリ。
japanese-toolkit - 漢字、ふりがな、日本語DBなどのためのモノレポ
analyze-desumasu-dearu - 文の敬体(ですます調)、常体(である調)を解析するJavaScriptライブラリ
hatsuon - 日本語のアクセントユーティリティ
sentiment_ja_js - 日本語の感情分析。JavaScriptでsentiment_ja。
mecab-ipadic-seed - mecab-ipadicのシード辞書リーダー
Japanese-Word-Of-The-Day - 毎日違う日本語の単語。
oskim - 入力方法のためにGNOMEオンスクリーンキーボードを拡張する
tweetMapping - 東日本大震災発生から24時間以内につぶやかれたジオタグ付きツイートのデジタルアーカイブです。
pitch-accent - 日本語のアクセントを予測する
kana2ipa - 「ひらがな」または「カタカナ」を日本語で発音する際の音声記号(IPA)に変換するコマンド
voicevox - 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのエディター
kamiya-codec - 日本語動詞の活用と非活用を基にした神谷妙子の「日本語動詞の手引き」と「日本語形容詞・副詞の手引き」に向けて。
closewords - 最も似た単語を単語群から検索する日本語(漢字含む)対応のライブラリ
japanese-analyzer - 日本語文章解析器
japanese-furigana-normalize - 日本語のフリガナを正規化します。
yama - 任意のウェブサイトで日本語の語彙を習得します。
kaitai - AIを使用して日本語の文章構造を分析するためのアプリケーションです。このツールは、単語やフレーズがどのように関連しているかを視覚化し、インタラクティブな図表で文法的な関係を示します。
tsukeru-furigana-converter - ブラウザ拡張機能（Chrome/Edge/Firefox）は、日本語のウェブページにフリガナを注入するもので、辞書のツールチップ、JLPTのフィルタリング、単語/Ankiのエクスポートを含んでいます。

Name	downloads/week	total downloads
bangumi-data
yomichan	-	-
proofreading-tool	-	-
kanjigrid	-	-
japanese-toolkit	-	-
analyze-desumasu-dearu
hatsuon
sentiment_ja_js	-	-
mecab-ipadic-seed
Japanese-Word-Of-The-Day
oskim	-	-
tweetMapping	-	-
pitch-accent
kana2ipa	-	-
voicevox	-	-
kamiya-codec	-	-
closewords	-	-
japanese-analyzer	-	-
japanese-furigana-normalize	-	-
yama	-	-
kaitai	-	-
tsukeru-furigana-converter	-	-

Go

Morphology analysis

Goで日本語形態素解析を行う軽量ライブラリ

kagome - 純粋なGoで書かれた自己完結型の日本語形態素解析器

Name	downloads/week	total downloads	stars
kagome	-	-

Others

日本語処理を支援する追加ライブラリ

ojosama - テキストを壱百満天原サロメお嬢様風の口調に変換します
nihongo - 日本語辞書
yomichan-import - Yomichan用の外部辞書インポーター。
imas-ime-dic - アイドルマスターの言葉辞書（imas-db.jpによる日本語IME用）
go-kakasi - Goで漢字の読み仮名/片仮名/ローマ字に変換
go-moji - 全角/半角変換のためのGoライブラリ
ojichat - おじさんがLINEやメールで送ってきそうな文を生成する
name - 日本語の名前検索者

Name	downloads/week	total downloads
ojosama	-	-
nihongo	-	-
yomichan-import	-	-
imas-ime-dic	-	-
go-kakasi	-	-
go-moji	-	-
ojichat	-	-
name	-	-

Java

Morphology analysis

日本語形態素解析と辞書管理を行うライブラリ

kuromoji - Kuromojiは、検索用に設計された自己完結型で非常に使いやすい日本語形態素解析器です。
Sudachi -　A Japanese Tokenizer for Business
SudachiDict - すだちの語彙集
meval - 形態素解析器性能評価システム MevAL

Name	downloads/week	total downloads
kuromoji	-	-
Sudachi	-	-
SudachiDict	-	-
meval	-	-

Others

自然言語処理やOCRを支援するJavaライブラリ

kanjitomo-ocr - 画像から日本語文字を識別するためのJavaライブラリ
jakaroma - 日本語の漢字をローマ字（ラテンアルファベット）に変換するためのJavaライブラリとコマンドラインツール。
kakasi-java - Javaにおける漢字のひらがな/カタカナ/ローマ字への転写
Kamite - 日本語学習者のためのデスクトップ言語浸透コンパニオン
react-native-japanese-tokenizer - React Native用の非同期日本語トークナイザーネイティブプラグイン（iOSおよびAndroid用）
elasticsearch-analysis-japanese - 日本語アナライザーは、ElasticSearch用にkuromoji日本語トークナイザーを使用しています。
moji4j - 日本語のひらがな、カタカナ、ローマ字のスクリプト間を変換するためのJavaライブラリ。
neologdn-java - mecab-neologd用の日本語テキスト正規化ツール
elasticsearch-sudachi - Elasticsearchのための日本語解析プラグイン

Name	downloads/week	total downloads
kanjitomo-ocr	-	-
jakaroma	-	-
kakasi-java	-	-
Kamite	-	-
react-native-japanese-tokenizer	-	-
elasticsearch-analysis-japanese	-	-
moji4j	-	-
neologdn-java	-	-
elasticsearch-sudachi	-	-

Pretrained model

Word2Vec

単語を数値ベクトルに変換して意味的関係を学習するモデル

japanese-words-to-vectors - GensimとMecabを使用した日本語のWord2vec（単語からベクトルへのアプローチ）手法。
chiVe - SudachiとNWJCを使用した日本語の単語埋め込み。
elmo-japanese - エルモ-日本語
embedrank - EmbedRankのPython実装
aovec - 簡単な青空文庫のWord2Vecビルダー - 青空文庫の全書籍を対象としたWord2Vecモデルの構築と構築済みモデル
dependency-based-japanese-word-embeddings - これはAI LABの記事「係り受けに基づく日本語単語埋込 (Dependency-based Japanese Word Embeddings)」のリポジトリです。（記事URL https://ai-lab.lapras.com/nlp/japanese-word-embedding/）
jawikivec - もう一つの日本語ウィキペディアエンティティベクトル
jawiki_word_vector_updater - 最新の日本語Wikipediaのダンプデータから，MeCabを用いてIPA辞書と最新のNeologd辞書の両方で形態素解析を実施し，その結果に基づいた word2vec，fastText，GloVeの単語分散表現を学習するためのスクリプト

Name	downloads/week	total downloads
japanese-words-to-vectors	-	-
chiVe	-	-
elmo-japanese	-	-
embedrank	-	-
aovec
dependency-based-japanese-word-embeddings	-	-
jawikivec	-	-
jawiki_word_vector_updater	-	-

Transformer based models

自己注意機構で文脈を理解し高度な言語処理を行うモデル

bert-japanese - 日本語テキスト用のBERTモデル。
japanese-pretrained-models - りんな株式会社が提供する日本語事前学習モデルのコードを入力してください。
bert-japanese - 日本語テキスト用のSentencePieceを使用したBERT。
SudachiTra - トランスフォーマー用の日本語トークナイザー
japanese-dialog-transformers - NTT株式会社が提供する日本語事前学習モデルの評価コード。
shiba - CANINE、効率的な文字レベルトランスフォーマーのPytorch実装と事前学習済みの日本語モデル。
Dialog - BERTとTransformerのデコーダーを使用した日本語チャットボットのPyTorch実装
language-pretraining - 日本語テキストのPyTorch実装のBERTおよびELECTRAモデル。
medbertjp - 日本語の医療分野における事前学習済みBERTモデルの試験。
ILYS-aoba-chatbot - ILYS青葉チャットボット
t5-japanese - 日本語T5モデルの事前学習のためのコード
pytorch_bert_japanese - PytorchでBERTの日本語学習済みモデルを利用する
Laboro-BERT-Japanese - ラボロBERT日本語：Webコーパスで事前学習された日本語BERT
RoBERTa-japanese - 日本語BERT事前学習モデル
aMLP-japanese - 日本語用のaMLPトランスフォーマーモデル
bert-japanese-aozora - 青空文庫とウィキペディアでトレーニングされた日本語BERTで、UniDicとSudachiPyでプリトークナイズされました。
sbert-ja - ハギングフェイスモデルハブのSentence BERT日本語モデルをトレーニングするためのコード
BERT-Japan-vaccination - 「日本のツイートの感情分析と日本のワクチン接種との比較」の公式微調整コード
gpt2-japanese - 日本語GPT2生成モデル
text2text-japanese - GPT-2ベースのテキスト2テキスト変換モデル
gpt-ja - HuggingFaceのtransformers用のGPT-2日本語モデル
friendly_JA-Model - フレンドリー_JAコーパスを使用してトレーニングされたMTモデルは、標準的な漢字語彙の代わりにラテン語/英語由来のカタカナ語彙を使用することで、日本語を西洋人にとってより簡単/アクセスしやすくすることを目指しています。
albert-japanese - 日本語テキスト用のSentencePieceを使用したBERT。
ja_text_bert - 日本語WikipediaコーパスでBERTのPre-Trainedモデルを生成するためのリポジトリ
DistilBERT-base-jp - 日本語のDistilBERT事前学習モデルで、Wikipediaで訓練されました。
bert - このリポジトリは、日本語コーパスで事前学習されたRoBERTaを使用するためのスニペットを提供しています。私たちのデータセットは、日本語のWikipediaとWebスクロールされた記事で、合計25GBです。リリースされたモデルは、HuggingFaceからのものをベースに構築されています。
Laboro-DistilBERT-Japanese - ラボロ DistilBERT 日本語
luke - LUKE – 知識ベース埋め込みを用いた言語理解
GPTSAN - 汎用スイッチトランスをベースにした日本語モード
japanese-clip - 株式会社りんなの日本語クリップ。
AcademicBART - 私たちは、学術データベースCiNii Articlesの論文要約を用いて、BARTベースの日本語マスク言語モデルを事前学習しました。
AcademicRoBERTa - 私たちは、学術データベースCiNii Articlesの論文要約を用いて、RoBERTaベースの日本語マスク言語モデルを事前学習しました。
LINE-DistilBERT-Japanese - 131 GBの日本語ウェブテキストで事前学習されたDistilBERTモデル。教師モデルは、LINE内で構築されたBERT-baseです。
Japanese-Alpaca-LoRA - 日本語に翻訳したStanford Alpacaのデータセットを用いてLLaMAをファインチューニングし作成したLow-Rank AdapterのリンクとGenerateサンプルコード
albert-japanese-tinysegmenter - 日本語のWikipediaリソースで公式ALBERT（https://github.com/google-research/albert）を事前学習するための事前学習済みモデル、コード、ガイダンスを提供します。
japanese-llama-experiment - 日本のLLaMa実験日本のLLaMa実験
easylightchatassistant - EasyLightChatAssistantは、KoboldCppで簡単に試すことができる、軽量で検閲や規制のないローカル日本語モデルのLightChatAssistantです。

Name	downloads/week	total downloads
bert-japanese	-	-
japanese-pretrained-models	-	-
bert-japanese	-	-
SudachiTra
japanese-dialog-transformers	-	-
shiba
Dialog	-	-
language-pretraining	-	-
medbertjp	-	-
ILYS-aoba-chatbot	-	-
t5-japanese	-	-
pytorch_bert_japanese	-	-
Laboro-BERT-Japanese	-	-
RoBERTa-japanese	-	-
aMLP-japanese	-	-
bert-japanese-aozora	-	-
sbert-ja	-	-
BERT-Japan-vaccination	-	-
gpt2-japanese	-	-
text2text-japanese	-	-
gpt-ja	-	-
friendly_JA-Model	-	-
albert-japanese	-	-
ja_text_bert	-	-
DistilBERT-base-jp	-	-
bert	-	-
Laboro-DistilBERT-Japanese	-	-
luke	-	-
GPTSAN	-	-
japanese-clip	-	-
AcademicBART	-	-
AcademicRoBERTa	-	-
LINE-DistilBERT-Japanese	-	-
Japanese-Alpaca-LoRA	-	-
albert-japanese-tinysegmenter	-	-
japanese-llama-experiment	-	-
easylightchatassistant	-	-

ChatGPT

ChatGPTやAPIを用いて日本語の対話やテキスト生成を行うためのリソース

VRChatGPT - ChatGPTを使ってVRChat上でお喋り出来るようにするプログラム。
AITuberDegikkoMirii - AITuberの基礎となる部分を開発しています
wanna - 自然言語でのシェルコマンド起動ツール
ChatdollKit - ChatdollKitを使用すると、あなたの3Dモデルをチャットボットに変換できます。
ChuanhuChatGPTJapanese - 日本語のChatGPT API用GUI
AISisterAIChan - ChatGPT3.5を搭載した伺かゴースト「AI妹アイちゃん」です。利用には別途ChatGPTのAPIキーが必要です。
vrchatbot - VRChatにAI Botを作るためのリポジトリ
gptuber-by-langchain - GPTがYouTuberをやります
openai-chatfriend - Nuxt 3を使用して構築されたチャットボックスアプリケーションで、Open AIテキスト補完エンドポイントによって動作します。AIフレンドの異なるパーソナリティを選択できます。デフォルトでは日本語で応答します。このアプリを使用して、日本語のスキルを練習することができます！
chrome-ext-translate-to-hiragana-with-chatgpt - このChrome拡張機能は、ChatGPTを使用して選択した日本語テキストをひらがなに翻訳できます。
azure-search-openai-demo - このサンプルでは、Retrieval Augmented Generation パターンを使用して、独自のデータに対してChatGPT のような体験を作成するためのいくつかのアプローチを示しています。
chatvrm - ChatVRMはブラウザで簡単に3Dキャラクターと会話ができるデモアプリケーションです。
sftly-replace - 選択したテキストをやさしく置き換えるためのChrome拡張機能
summarize_arxv - 図を含むarXiv論文を要約する。
aiavatarkit - AIベースの会話型アバターを超高速で構築する
pva-aoai-integration-solution - このリポジトリは、神戸市役所でのChatGPTの試行利用に向けて作成したフロー等をソリューション化し公開するものです。
jp-azureopenai-samples - Azure OpenAIを活用したアプリケーション実装のリファレンスを目的として、アプリのサンプル（リファレンスアーキテクチャ、サンプルコードとデプロイ手順）を無償提供しています。
character_chat - OpenAIのAPIを利用して、設定したキャラクターと日本語で会話するチャットスクリプトです。
chatgpt-slackbot - OpenAIのChatGPT APIをSlack上で利用するためのSlackbotスクリプト (日本語での利用が前提)
chatgpt-prompt-sample-japanese - ChatGPT の Prompt のサンプルです。
kanji-flashcard-app-gpt4 - PythonとLangchainを使用して構築された日本語漢字フラッシュカードアプリで、GPT-4の知能が強化されています。
IgakuQA - 日本の医師免許試験におけるGPT-4とChatGPTの評価
japagen - 日本語タスクにおけるLLMを用いた疑似学習データ生成の検討
generativeai-prompt-sample-japanese - ChatGPTやCopilotなど各種生成AI用の「日本語]の Prompt のサンプル

Name	downloads/week	total downloads
VRChatGPT	-	-
AITuberDegikkoMirii	-	-
wanna
ChatdollKit	-	-
ChuanhuChatGPTJapanese	-	-
AISisterAIChan	-	-
vrchatbot	-	-
gptuber-by-langchain	-	-
openai-chatfriend	-	-
chrome-ext-translate-to-hiragana-with-chatgpt	-	-
azure-search-openai-demo	-	-
chatvrm	-	-
sftly-replace	-	-
summarize_arxv	-	-
aiavatarkit	-	-
pva-aoai-integration-solution	-	-
jp-azureopenai-samples	-	-
character_chat	-	-
chatgpt-slackbot	-	-
chatgpt-prompt-sample-japanese	-	-
kanji-flashcard-app-gpt4	-	-
IgakuQA	-	-
japagen	-	-
generativeai-prompt-sample-japanese	-	-

Dictionary and IME

日本語辞書や入力メソッドエディタに関するリソース

mecab-ipadic-neologd - 「mecab-ipadic」に基づくウェブ上の言語リソースに基づく新語辞典
tdmelodic - 日本語アクセント辞書ジェネレーター
jamdict - Jim Breen氏のJMdict、KanjiDic2、JMnedict、漢字ラジカルマッピングを操作するためのPython 3ライブラリ
unidic-py - pipを介してインストールするためにパッケージ化されたUnidic。
Japanese-Company-Lexicon - 日本企業用語辞典（JCLdic）
manbyo-sudachi - すだち向け万病辞書
jawiki-kana-kanji-dict - Wikipedia（日本語版）からSKK/MeCab辞書を生成する。
JIWC-Dictionary - テキストに関連する感情を見つけるための辞書
JumanDIC - このリポジトリには、JUMANとJuman ++の辞書を構築するためのソース辞書ファイルが含まれています。
ipadic-py - Pythonから簡単に使用できるようにパッケージ化されたIPAdic。
unidic-lite - 簡単なpipインストール用のUniDicの小さなバージョン。
emoji-ime-dictionary - 日本語で絵文字入力をするための IME 追加辞書 orange_book Google 日本語入力などで日本語から絵文字への変換を可能にする IME 拡張辞書
google-ime-dictionary - 日英変換・英語略語展開のための IME 追加辞書 orange_book 日本語から英語への和英変換や英語略語の展開を Google 日本語入力や ATOK などで可能にする IME 拡張辞書
dic-nico-intersection-pixiv - ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
google-ime-user-dictionary-ja-en - これはGoogleIME用カタカナ語辞書プロジェクトのアーカイブです。日本語の外来語から英語へのGoogle IMEユーザー辞書のプロジェクトアーカイブです。
emoticon - Google日本語入力の顔文字辞書∩(,,Ò‿Ó,,)∩
mecab-mozcdic - open source mozc dictionaryをMeCab辞書のフォーマットに変換したものです。
denonbu-ime-dic - 電音IME: Microsoft IMEなどで利用することを想定した「電音部」関連用語の辞書
nijisanji-ime-dic - Microsoft IMEなどで利用することを想定した「にじさんじ」関連用語の用語辞書です。
pokemon-ime-dic - Microsoft IMEなどで利用することを想定した、現状判明している全てのポケモンの名前を網羅した用語辞書です。
EJDict - 英和辞書データ（パブリックドメイン）EJDict-hand
Ayashiy-Nipongo-Dic - 贵樣ばこゐ辞畫を使て正レい日本语を使ラことが出來ゑ。
genshin-dict - Windows/macOSで利用可能な原神の用語辞書です。
jmdict-simplified - JMdictとJMnedictをJSON形式で入力してください。
mozcdict-ext - 外部の単語をMozcシステム辞書に変換する。
mh-dict-jp - MonsterHunterのユーザー辞書を作りたい…
jitenbot - 日本語の辞書ウェブサイトやアプリからデータをポータブルなファイル形式に変換する
mecab-unidic-neologd - mecab-unidicの言語リソースに基づいたネオログ辞書
hololive-dictionary - ホロライブ（ホロライブプロダクション）に関する辞書ファイルです。./dictionary フォルダ内のテキストファイルを使って、IMEに単語を追加できます。詳細はREADME.mdをご覧ください。
jmdict-yomitan - Yomitan/YomichanのためのJMdict、JMnedict、KANJIDIC。
yomichan-jlpt-vocab - Yomichanの単語に対するJLPTレベルのタグ
Jitendex - 複数の辞書クライアントと互換性のある、無料でオープンライセンスの日本語-英語辞書
jiten - JMDict/Kanjidicに基づいた日本語のAndroid/CLI/Web辞書 — 日本語辞典、和英辞典、漢英字典、和独辞典、和蘭辞典
pixiv-yomitan - ピクシブ百科事典読谷のため
uchinaaguchi_dict - うちなーぐち辞典（沖縄語辞典）
yomitan-dictionaries - 読谷村のための日本語と中国語の辞書。
mouse_over_dictionary - マウスオーバーした単語を自動で読み取る汎用辞書ツール
jisyo - かな漢字変換エンジン SKKのための新しい辞書形式
skk-jisyo.emoji-ja - 日本語の読みから Emoji に変換するための SKK 辞書 😂
anthy - アンシーは日本語のかな漢字変換エンジンです。ローマ字をかなに変換し、かなテキストをかなと漢字の混合テキストに変換します。
aws_dic_for_google_ime - AWSサービス名のGoogle日本語入力向けの辞書
cl-skkserv - Common LispによるSKK辞書サーバーとその拡張
anthy - アンシーのメンテナンス
anthy-unicode - アンシーユニコード - アナザーアンシー
azooKey - Input: azooKey: Swiftで完全に開発された日本語キーボードiOSアプリケーションOutput: azooKey：Swiftで完全に開発された日本語キーボードiOSアプリ
azookey-desktop - デスクトップ用の日本語入力メソッドazooKey、macOSをサポート
fcitx5-hazkey - fcitx5用の日本語入力メソッド、azooKeyエンジンによって提供されています。
mozcdic-ut-place-names - Mozc UT 場所名辞書は、Mozc用に日本郵便の郵便番号データから変換された辞書です。
azookeykanakanjiconverter - Swiftで書かれた仮名漢字変換モジュール
libkkc - 日本語仮名漢字変換入力方式ライブラリ
libskk - 日本語のSKK入力方式ライブラリ
kanayomi-dict - openjtalk形式のユーザー辞書
cjkvi-dict - 漢字データベースの辞書関連データ
wlsp-classical - 古典日本語の分類語彙表データ
kanji-dict - 漢字の書き順(筆順)・読み方・画数・部首・用例・成り立ちを調べるための漢字辞書です。Unicode 15.1 のすべての漢字 98,682字を収録しています。
Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ（旧Kaomoji_proj）はMicrosoft社の入力ソフト、Microsoft IME向けの顔文字の辞書を作成するプロジェクトです。
kotlin-kana-kanji-converter - Kotlin かな漢字変換プログラム
alfred-japanese-dictionary - jisho.orgを使用した日本語-英語辞書、エントリーの音声付きCSVエクスポート、および辞書サイトのプレビュー。jisho.orgを使用した日本語-英語辞書、エントリーの音声付きCSVエクスポート、および辞書サイトのプレビュー。
ichiran - 日本語のテキスト用言語ツール
mikan - 日本語の入力方法。
colloquial-kansai-dictionary - 関西弁日本語の授業で教えられた教材の簡単な参考資料。
jisho-open - JMdict日本語英語辞書プロジェクトのWebフロントエンド、学習リストのサポート付き！JMdict日本語英語辞書プロジェクトのWebフロントエンド、学習リストのサポート付き！
macskk - もうひとつのmacOS SKK入力方式
nandoku - 難読漢字を学年別にまとめた辞書です。
japanese_android_ime - Android用のFOSS日本語IME
anthywl - Swayのためのlibanthyを使用した日本語入力方法
sekka - SKKに触発されたもう1つの日本語入力方式。
sumibi - ChatGPT APIによって強化された日本語入力方法
jinmei-dict - 辞書データから人名だけを抜き出し、読み仮名（カタカナ）をキーとして、候補となる書き文字をリストで保持するようなJSON形式に整形しています。
japanesekeyboard - スミレ完全オフラインの日本語キーボードアプリ
japanesearabic - 日本語アラビア語辞書（ヨミタン）
o-dic - 沖縄辞書
skk-emoji-jisyo - SKK 絵文字辞書
mozcdic-ut-personal-names - Mozc用の個人名辞書
mozcdic-ut-sudachidict - SudachiDictからMozc用に変換された辞書
nihongo - 日本語の言語データと辞書
kagome-dict - かごめv2の辞書ライブラリ
canna - カンナ日本語入力システム
kansai-accent-dictionary - 京阪式アクセント（関西弁）辞書 - 4,615語を収録した日本語方言アクセント辞書
jitendex - 無料で、オフラインで、オープンライセンスの日本語から英語への辞書。毎月更新されます！
karukan - Linux向け日本語入力システム、ニューラル仮名漢字変換エンジン+fcitx5 IME
shitto-mania-dic - 嫉妬辞書（シットーマニア / ジェラシーディクショナリー）
dvorakjp-roman-table - azooKey、Google日本語入力用のDvorakJPローマ字テーブル / azooKey用のDvorakJPローマ字テーブル、Google日本語入力

Name	downloads/week	total downloads
mecab-ipadic-neologd	-	-
tdmelodic	-	-
jamdict
unidic-py
Japanese-Company-Lexicon	-	-
manbyo-sudachi	-	-
jawiki-kana-kanji-dict	-	-
JIWC-Dictionary	-	-
JumanDIC	-	-
ipadic-py
unidic-lite
emoji-ime-dictionary	-	-
google-ime-dictionary	-	-
dic-nico-intersection-pixiv	-	-
google-ime-user-dictionary-ja-en	-	-
emoticon	-	-
mecab-mozcdic	-	-
denonbu-ime-dic	-	-
nijisanji-ime-dic	-	-
pokemon-ime-dic	-	-
EJDict	-	-
Ayashiy-Nipongo-Dic	-	-
genshin-dict	-	-
jmdict-simplified	-	-
mozcdict-ext	-	-
mh-dict-jp	-	-
jitenbot	-	-
mecab-unidic-neologd	-	-
hololive-dictionary	-	-
jmdict-yomitan	-	-
yomichan-jlpt-vocab	-	-
Jitendex	-	-
jiten	-	-
pixiv-yomitan	-	-
uchinaaguchi_dict	-	-
yomitan-dictionaries	-	-
mouse_over_dictionary	-	-
jisyo	-	-
skk-jisyo.emoji-ja	-	-
aws_dic_for_google_ime	-	-
cl-skkserv	-	-
anthy	-	-
anthy-unicode	-	-
azooKey	-	-
azookey-desktop	-	-
fcitx5-hazkey	-	-
mozcdic-ut-place-names	-	-
azookeykanakanjiconverter	-	-
libkkc	-	-
libskk	-	-
kanayomi-dict	-	-
cjkvi-dict	-	-
wlsp-classical	-	-
kanji-dict	-	-
Kaomoji_proj	-	-
kotlin-kana-kanji-converter	-	-
alfred-japanese-dictionary	-	-
ichiran	-	-
mikan	-	-
colloquial-kansai-dictionary	-	-
jisho-open	-	-
macskk	-	-
nandoku	-	-
japanese_android_ime	-	-
anthywl	-	-
sekka	-	-
sumibi	-	-
jinmei-dict	-	-
japanesekeyboard	-	-
japanesearabic	-	-
o-dic	-	-
skk-emoji-jisyo	-	-
mozcdic-ut-personal-names	-	-
mozcdic-ut-sudachidict	-	-
nihongo	-	-
kagome-dict	-	-
canna	-	-
kansai-accent-dictionary	-	-
jitendex	-	-
karukan	-	-
shitto-mania-dic	-	-
dvorakjp-roman-table	-	-

Corpus

Part-of-speech tagging / Named entity recognition

品詞や固有表現のラベルが付与された日本語コーパス

ner-wikipedia-dataset - Wikipediaを用いた日本語の固有表現抽出データセット
IOB2Corpus - 固有表現認識のための日本語IOB2タグ付きコーパス。
TwitterCorpus - 首都大日本語 Twitter コーパス
UD_Japanese-PUD - 並列の普遍的な依存関係。
UD_Japanese-GSD - Google UDT 2.0からの日本語データ。
KWDLC - 京都大学ウェブドキュメントリードコーパス
AnnotatedFKCCorpus - 注釈付きの普門買取センターのコーパス
UD_Japanese-GSDLUW - UD_Japanese-GSDの長単位語バージョン
ud_japanese-bccwj - このUniversal Dependencies（UD）日本語ツリーバンクは、UDドキュメントに記載されているUD日本語規約の定義に基づいています。

Name	downloads/week	total downloads
ner-wikipedia-dataset	-	-
IOB2Corpus	-	-
TwitterCorpus	-	-
UD_Japanese-PUD	-	-
UD_Japanese-GSD	-	-
KWDLC	-	-
AnnotatedFKCCorpus	-	-
anthy	-	-
UD_Japanese-GSDLUW	-	-
ud_japanese-bccwj	-	-

Parallel corpus

多言語の対応文を収録した翻訳用データセット

small_parallel_enja - 機械翻訳ベンチマーク用の50k英日並列コーパス。
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - 日中NMTのためのWebクロールされたコーパス
CourseraParallelCorpusMining - Courseraのコーパスマイニングとマルチステージファインチューニングによる講義翻訳の改善
JESC - 英語と日本語の大規模な平行コーパス
AMI-Meeting-Parallel-Corpus - AMIミーティング並列コーパス
giant_ja-en_parallel_corpus - このディレクトリには、巨大な日英字幕コーパスが含まれています。生データは、スタンフォード大学のJESCプロジェクトから取得されています。
jesc_small - 小さな日英字幕コーパス
graded-enja-corpus - 禁止用語や単語レベルを考慮した日英対訳コーパスです。
cjk-compsci-terms - CJKコンピュータサイエンス用語比較 / 中日韓コンピュータサイエンス用語対照 / 日中韓コンピュータサイエンス用語比較 / 韓中日コンピュータサイエンス用語対照
Laboro-ParaCorpus - 日英並列コーパスの作成スクリプトとNMTモデルのトレーニングに関するスクリプト
google-vs-deepl-je - Google vs DeepL（日本語）
matcha - 訪日観光客向けメディアMATCHAの記事から、日本語のテキスト平易化のためのデータセットを構築しました。
en-ja-el - EnJaEL：En-Jaパラレルエンティティリンキングデータセット（バージョン1.0）EnJaEL：En-Jaパラレルエンティティリンキングデータセット（バージョン1.0）

Name	downloads/week	total downloads
small_parallel_enja	-	-
Web-Crawled-Corpus-for-Japanese-Chinese-NMT	-	-
CourseraParallelCorpusMining	-	-
JESC	-	-
AMI-Meeting-Parallel-Corpus	-	-
giant_ja-en_parallel_corpus	-	-
jesc_small	-	-
graded-enja-corpus	-	-
cjk-compsci-terms	-	-
Laboro-ParaCorpus	-	-
google-vs-deepl-je	-	-
matcha	-	-
en-ja-el	-	-

Dialog corpus

会話データを収集して対話モデルの学習に利用するコーパス

JMRD - 日本映画のおすすめ対話データセット
open2ch-dialogue-corpus - おーぷん2ちゃんねるをクロールして作成した対話コーパス
BSD - ビジネスシーンの対話コーパス
asdc - 宿泊施設探索対話コーパス
japanese-corpus - seq2seqなどに使用する日本語の対話データ
BPersona-chat - このリポジトリには、AACL-IJCNLP 2022のWorkshop Eval4NLP 2022で発表された「Chat Translation Error Detection for Assisting Cross-lingual Communications」の論文で公開された日英バイリンガルチャットコーパスBPersna-chatが含まれています。
japanese-daily-dialogue - 「日本語日常対話コーパス」は、日常生活に関する会話を中心に、学校、旅行、健康、エンターテインメントの5つのトピックについての高品質なマルチターン対話データセットです。
llm-japanese-dataset - LLM構築用の日本語チャットデータセット
kokorochat - ロールプレイで収集した日本語のカウンセリング対話データセット
JMultiWOZ-TC - マルチターン対話でのエージェントのfunction calling評価
HOTATE - 本音・建前付き日本語対話データセット
ETCDataset - Emotion Transcription in Conversation Dataset は，対話中の各発話に対して話者自身が記述した心情文を含む，約1,000 件の対話からなる日本語対話データセットです．

Name	downloads/week	total downloads
JMRD	-	-
open2ch-dialogue-corpus	-	-
BSD	-	-
asdc	-	-
japanese-corpus	-	-
BPersona-chat	-	-
japanese-daily-dialogue	-	-
llm-japanese-dataset	-	-
kokorochat	-	-
JMultiWOZ-TC	-	-
HOTATE	-	-
ETCDataset	-	-

Others

質問応答や含意認識など特定タスク向けの日本語データセット

jrte-corpus - 日本の現実的なテキスト推論コーパス（NLP 2020、LREC 2020）
kanji-data - 更新されたJLPTレベルとWaniKani情報を含むJSON漢字データセット
JapaneseWordSimilarityDataset - 日本語単語類似度データセット
simple-jppdb - 日本語テキスト簡略化のための言い換えデータベース
chABSA-dataset - チャッキのアスペクトベースの感情分析データセット
JaQuAD - JaQuAD: 機械読解のための日本語質問応答データセット（2022年、Skelter Labs）
JaNLI - 日本語の敵対的自然言語推論データセット
ebe-dataset - エビデンスに基づく説明データセット（AACL-IJCNLP 2020）
emoji-ja - UNICODE絵文字の日本語読み/キーワード/分類辞書
nayose-wikipedia-ja - Wikipediaから作成した日本語名寄せデータセット
ja.text8 - 単語埋め込みのための日本語テキスト8コーパス。
ThreeLineSummaryDataset - 3行要約データセット
japanese - このリポジトリには、リーズ大学コーパスによって頻度順に決定された44,998の最も一般的な日本語単語のリストが含まれています。
kanji-frequency - 様々な情報源から収集された漢字使用頻度データ
TEDxJP-10K - TEDxJP-10K ASR 評価データセット
CoARiJ - 日本の年次報告書のコーパス
technological-book-corpus-ja - 日本語で書かれた技術書を収集した生コーパス/ツール
ita-corpus-chuwa - ITAコーパスのチャンク化された単語注釈
wikipedia-utils - NLPのためのWikipediaテキストの前処理のためのユーティリティスクリプト
inappropriate-words-ja - 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
house-of-councillors - 参議院の公式ウェブサイトから会派、議員、議案、質問主意書のデータを整理しました。
house-of-representatives - 国会議案データベース：衆議院
STAIR-captions - STAIRキャプション：大規模な日本語画像キャプションデータセット
Winograd-Schema-Challenge-Ja - ウィノグラード・スキーマ・チャレンジの日本語翻訳
speechBSD - 音声と話者属性情報を含むBSDコーパスの拡張版
ita-corpus - ITAコーパスの文章リスト
rohan4600 - モーラバランス型日本語コーパス
anlp-jp-history - 言語処理学会年次大会講演の全リスト・機械可読版など
keigo_transfer_task - 敬語変換タスクにおける評価用データセット
loanwords_gairaigo - 日本語における英語の借用語
jawikicorpus - 日本語ウィキペディアのウィキフィケーションコーパス
GeneralPolicySpeechOfPrimeMinisterOfJapan - これは日本の総理大臣の一般政策演説のコーパスです。
wrime - WRIME: 主観と客観の感情分析データセット
jtubespeech - JTubeSpeech：YouTubeから収集された日本語音声のコーパス
WikipediaWordFrequencyList - 日本語Wikipediaで使用される頻出単語のリスト
kokkosho_data - 車両不具合情報に関するデータセット
pdmocrdataset-part1 - デジタル化資料OCRテキスト化事業において作成されたOCR学習用データセット
huriganacorpus-ndlbib - 全国書誌データから作成した振り仮名のデータセット
jvs_hiho - JVS（日本語多目的話者）コーパスのラベルの自作
hirakanadic - 任意の複合語リストから、スダチをひらがなからカタカナに正規化することができます。
animedb - 約100年に渡るアニメ作品リストデータベース
security_words - サイバーセキュリティに関連する公的な組織の日英対応
Data-on-Japanese-Diet-Members - 日本の国会議員のデータ
honkoku-data - 「みんなで翻刻」は、歴史資料の市民参加型翻刻プラットフォームであり、ここはそのテキストデータの置き場所です。https://honkoku.org で作成された歴史的な日本の文書の転写テキストです。
wikihow_japanese - wikiHowデータセット（日本語版）
engineer-vocabulary-list - 日本語/英語のエンジニア用語リスト
JSICK - 日本語の構成的知識を含む文（JSICK）データセット/JSICKストレステストセット
phishurl-list - JPCERT/CCからのフィッシングURLデータセット
jcms - 多数の専門分野をカバーした日本語コーパス（JCMS）
aozorabunko_text - www.aozora.gr.jpのテキストのみのアーカイブ
friendly_JA-Corpus - friendly_JAは、標準的な漢語辞典の代わりに、ラテン語/英語由来のカタカナ語彙を使用して日本語をより簡単にすることを目的とした、日本語から日本語への並列コーパスです。
topokanji - 効果的な学習のためのトポロジカルに並べられた漢字リスト
isbn4groups - ISBN-13における日本語での出版物 (978-4-XXXXXXXXX) に関するデータ等
NMeCab - NMeCab: .NET上の日本語形態素解析器について
ndlngramdata - デジタル化資料から作成したOCRテキストデータのngram頻度統計情報のデータセット
ndlngramviewer_v2 - 2023年1月にリニューアルしたNDL Ngram Viewerのソースコード等一式
data_set - 法律・判例関係のデータセット
huggingface-datasets_wrime - huggingfaceのデータセットのためのWRIME
ndl-minhon-ocrdataset - NDL古典籍OCR学習用データセット（みんなで翻刻加工データ）
PAX_SAPIENTICA - GISと考古学シミュレーター。2023年開発中。
j-liwc2015 - LIWC2015の日本語版
huggingface-datasets_livedoor-news-corpus - ハグフェイスのデータセット用に、日本のライブドアニュースコーパスを入力してください。
huggingface-datasets_JGLUE - JGLUE：huggingfaceデータセットのための日本語一般言語理解評価
commonsense-moral-ja - JCommonsenseMoralityは、日本の注釈者の常識的な道徳を反映したクラウドソーシングによって作成されたデータセットです。
comet-atomic-ja - コメット-アトミック ja
dcsg-ja - 日本語での対話の常識グラフ
japanese-toxic-dataset - 「日本語毒性スキーマの提案と評価」は、日本語における毒性のスキーマとデータセットを提供します。
camera - CAMERA（CyberAgent Multimodal Evaluation for Ad Text GeneRAtion）は、日本の広告テキスト生成データセットです。
Japanese-Fakenews-Dataset - 日本語フェイクニュースデータセット
jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
copa-japanese - 日本語のCOPAデータセット
WLSP-familiarity - 「意味原理に基づく単語リスト（WLSP）」の単語親しみ度率
ProSub - 代名詞の代替物と呼びかけの言葉に関する言語間比較研究
commonsense-moral-ja - JCommonsenseMoralityは、日本の注釈者の常識的な道徳を反映したクラウドソーシングによって作成されたデータセットです。
ramendb - なんとかデータベース( https://supleks.jp/ )からのスクレイピングツールと収集データ
huggingface-datasets_CAMERA - huggingfaceデータセットのためのCAMERA（CyberAgent Multimodal Evaluation for Ad Text GeneRAtion）
FactCheckSentenceNLI-FCSNLI- - ファクトチェック文NLIデータセット
databricks-dolly-15k-ja - databricks/dolly-v2-12b の学習データに使用されたdatabricks-dolly-15k.jsonl を日本語に翻訳したデータセットになります。
EaST-MELD - EaST-MELDは、MELDに基づく感情認識音声翻訳のための英日データセットです。
meconaudio - Mecon Audio（メディカル・カンファレンス・オーディオ）は、厚生労働省が主催する先進医療会議の議事録を読み上げるためのデータセットです。
japanese-addresses - 全国の町丁目レベル（277,191件）の住所データのオープンデータ
aozorasearch - グルンガによる青空文庫の全文検索システム。青空文庫全文検索ライブラリ兼Webアプリ。
llm-jp-corpus - このリポジトリには、LLM-jpコーパスを再現するためのスクリプトが含まれています。
alpaca_ja - alpacaデータセットを日本語化したものです
instruction_ja - 出力
japanese-family-names - 頻度順に並べられた読み付きの上位5000の日本の姓
kanji-data-media - 漢字アライブからの漢字、部首、メディアファイル、フォント、関連リソースに関する日本語データ
reazonspeech - 自宅で大規模な日本語音声コーパスを構築する
huriganacorpus-aozora - 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
koniwa - 日本語のアノテーション付き声のオープンコレクション
JMMLU - 日本語マルチタスク言語理解ベンチマーク日本語巨大マルチタスク言語理解ベンチマーク
hurigana-speech-corpus-aozora - 青空文庫振り仮名注釈付き音声コーパスのデータセット
jqara - JQaRA: 検索拡張（RAG）を活用した日本語質問応答データセット
jemhopqa - JEMHopQA（Japanese Explainable Multi-hop Question Answering）は、内部推論を評価できる日本語のマルチホップQAデータセットです。
jacred - 日本語文書レベルの関係抽出データセットのリポジトリ（3月にリリース予定）
jades - JADESは、日本語のテキスト簡素化のためのデータセットであり、『JADES: New Text Simplification Dataset in Japanese Targeted at Non-Native Speakers』で説明されています（論文は近日中に公開されます）。
do-not-answer-ja - 2023年8月にメルボルン大学から公開された安全性評価データセット『Do-Not-Answer』を日本語LLMの評価においても使用できるように日本語に自動翻訳し、さらに日本文化も考慮して修正したデータセット。
oasst1-89k-ja - OpenAssistant のオープンソースデータ OASST1 を日本語に翻訳したデータセットになります。
jacwir - JaCWIR: Japanese Casual Web IR 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
japanese-technical-dict - 日本語学習者のための科学技術業界でよく使われる片仮名と元の単語対照表
j-unimorph - 日本語のUniMorphデータセット
GazeVQA - LREC-COLING 2024論文用データセット、曖昧な日本語質問を明確にするための視線基準ビジュアル質問応答データセットLREC-COLING 2024論文用データセット、曖昧な日本語質問を明確にするための視線基準ビジュアル質問応答データセット
J-CRe3 - J-CRe3実験のコード（上田ら、LREC-COLING、2024）
jmed-llm - JMED-LLM: 大規模言語モデル向けの日本医学評価データセット
lawtext - 日本の法律のプレーンテキスト形式
pdmocrdataset-part2 - OCR処理プログラム研究開発事業において作成されたOCR学習用データセット
japanesetopicwsd - 話題に基づく語義曖昧性解消評価セット
temporalNLI_dataset - Jamp: 制御された日本語時間推論データセット、言語モデルの汎化能力を評価するため
JSeM - 日本語意味テストスイート（FraCaSの対応および拡張）
niilc-qa - NIILC QAデータ
chain-of-thought-ja-dataset - 日本語での「Chain-of-Thought Prompting」の論文検証データセット
WikipediaAnnotatedCorpus - これは、さまざまな言語注釈が付けられたWikipediaの記事からなる日本語テキストコーパスです。
elaws-history - e-Gov 法令検索で配布されている「全ての法令データ」を定期的にダウンロードし、アーカイブしています
Japanese-RP-Bench - Japanese-RP-BenchはLLMの日本語ロールプレイ能力を測定するためのベンチマークです。
hdic - HDIC：日本初期の漢字辞書の統合データベース
awesome-japan-opendata - Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
kanji-data - 常用漢字表他、漢字に関するデータ
openchj-genji - 「源氏物語」形態論情報データ
AdParaphrase - このリポジトリには、魅力的な広告テキストを生成するための言語的特徴を分析するためのParaphraseデータセットに関する私たちの論文のデータが含まれています。
Jamp_sp - アスペクトを考慮した日本語時間推論データセットの構築（Jamp_sp: 制御された日本語時間推論データセットを考慮）
jnli-neg - 否定理解能力を評価するための日本語言語推論データセット JNLI-Neg の公開用リポジトリです。
swallow-corpus - このリポジトリは、Common Crawlアーカイブから大規模な日本語ウェブコーパス（岡崎ら、2024年）であるSwallow Corpus Version 1を構築するためのPython実装を提供しています。
jalecon - 非母語話者向けの日本語語彙複雑性のデータセット
multils-japanese - MultiLS-日本語の語彙複雑性予測と語彙の簡素化データセット：アノテータープロファイル、非集計注釈、および注釈ガイドライン。
nwjc - NINJALウェブ日本語コーパス
open-mantra-dataset - AAAI21で発表された「Towards Fully Automated Manga Translation」論文で紹介されたデータセットAAAI21で発表された「Towards Fully Automated Manga Translation」論文で紹介されたデータセット
public-annotations - Manga109データセットのさまざまな注釈
gimei - ランダムな日本人の名前と住所ジェネレーター
safety-boundary-test - 日本語言語モデルの安全性の振る舞いを評価するテストセット
j-ono-data - JSON形式で収録された、シンプルでオープンソースな日本語の擬音語や擬態語のコレクション。マンガのサンプル付き。
kanji - 学習すべき日本語の漢字部首のリスト
jethics - 日本語道徳理解度評価用データセットJETHICSの概説ページ (to be update)
waon - WAON：ビジョン言語モデル向けの大規模で高品質な日本語画像テキストデータセット
kuci - 京都大学コモンセンス推論データセット（KUCI）
japanese-address-testdata - 解析が難しい日本の住所のテストデータセット
jlpt-word-list - JLPT語彙からの日本語単語リスト
hiragana_mojigazo - 文字画像データセット(平仮名73文字版)
lawqa_jp - 日本の法令に関する多肢選択式QAデータセット
yjcaptions - YJキャプション26kデータセット
ja-vg-vqa - 日本のビジュアルジェノムVQAデータセット
lawhub - テキスト形式で日本の法律を追跡するリポジトリ
japanese-subtitles-word-kanji-frequency-lists - 日本のドラマ、アニメ、映画の字幕から派生した単語の頻度リスト。
jconj - テーブルベースの日本語単語活用プログラム
extract_jawp_names - Wikipedia日本語から個人名を抽出します。
cejc_yomichan_freq_dict - 日常日本会話データセットに基づいた読みちゃんの頻度辞書
wikidict-ja - ウィキペディアバイリンガルリファレンスデータ（日本語）
ajimee-bench - AJIMEE-Bench（高度な日本語IME評価ベンチマーク）
j-spaw - J-SpAW: スピーカー認証とアンチスプーフィングのための日本語音声コーパス
camera3 - CAMERA3: 日本語における制御可能な広告テキスト生成の評価データセット
jgpqa - GPQAデータセットの日本語翻訳
tanaka-corpus-plus - Tanaka Corpus のノイズを除去しています。
emotioncorpusjapanesetokushimaa2lab - 日本の感情コーパス徳島大学 A-2 研究室
osworld-jp - 言語を考慮した評価のための、日本語版コンピュータユースベンチマーク
quasi_japanese_reviews - Quasi Japanese Reviews (擬似レビューデータ)
psychiatry-clinical-notes - 精神科初診カルテ作成アンケートデータセット
merged-town-names - 市町村合併などにより消滅した旧地名と新地名の対応表
japanesetextemoticondata - 日本語のテキスト絵文字データ。
mishearing-corpus - 聞き間違えコーパス︱CSV＋テーブルスキーマで約1万件を管理し、VS Code＋pre-commit＋Frictionless＋GitHub Actionsで自動検証を行う日本語データセット
kotowaza - 日本のことわざ（ことわざ）の構造化されたJSONデータセット。インドネシア語と英語での意味、例、JLPTレベル、およびタグが含まれています。日本のことわざ（ことわざ）の構造化されたJSONデータセット。インドネシア語と英語での意味、例、JLPTレベル、およびタグが含まれています。
selective-rag-kasensabo - 建設の技術基準に関する質問の専門性粒度（細かい/粗い）を96%正確に自動判定し、最適なRAGシステム（ColBERT/Naive）を選択する実用的なAgentic RAGシステムのMVPです。2025年11月に公開された河川砂防ダムの技術基準を対象に４つのRAGシステムを構築し、専門性の粒度が異なる200問の質問に対して、精度と速度を比較した。
jmle2026-bench - 2026年2月7日から8日に行われる第120回日本医師免許試験のLLMベンチマーク
JSTS-Neg - 否定理解能力を評価するための日本語意味的類似度計算データセット JSTS-Neg の公開用リポジトリです。 JSTS-Neg は、JGLUE に含まれる言語推論データセット JSTS を拡張して作成しました。
business-slide-questions - このリポジトリでは、ビジネス資料（スライド）を対象とした Visual Question Answering (VQA) ベンチマーク「BusinessSlideVQA」を提供しています。
WLSP-antonym - 「意味原則による単語リスト（WLSP）」の反意語関係
YouCook2-JP - YouCook2データセットの日本語翻訳。
E2U - つたわる化に関するデータ
annotation-2025 - このリポジトリは，テキストの「解釈」を人手とLLM出力で比較できるデータを公開するためのものです．
jhpt - 歴史的日本語資料の原文テキストと，現代語訳（参照訳）テキストをセグメント単位で対応付けた対訳データセットです．詳細は論文を参照ください．
JBE-QA - 日本の司法試験のQ&A
j-spaw - J-SpAW: スピーカー認証とアンチスプーフィングのための日本語音声コーパス
JMedWiC - マスク言語モデルを用いて擬似的な同義・非同義ペアを自動抽出し，人手による同義性アノテーションを通じてラベルを決定することで，日本語の医療分野における語義同一性判定データセットを構築しました．
jhpt - 歴史的日本語資料の原文テキストと，現代語訳（参照訳）テキストをセグメント単位で対応付けた対訳データセットです．詳細は論文を参照ください．
Doppelganger-JC - これは、LLM（Large Language Model）における中国語と日本語の間でのクロスリンガルな同音異義語の誤用をベンチマークとしたデータセットです。
modelvista-3lang - ソフトウェア図理解のためのVLM評価ベンチマーク（日本語・英語・韓国語対応）
japanese-hr-niah - 日本語人事労務ドメインにおけるロングコンテキストLLMの性能評価ベンチマーク
nijl-manyoshutei - 本リポジトリでは、関西大学所蔵廣瀬本万葉集のTEI/XMLデータ等をCC-BYライセンスのもとで公開しています。
kamuskita - マレー語勉強会で作っているオープンなマレー語・日本語辞典『みんなのマレー語辞典』

Name	downloads/week	total downloads
jrte-corpus	-	-
kanji-data	-	-
JapaneseWordSimilarityDataset	-	-
simple-jppdb	-	-
chABSA-dataset	-	-
JaQuAD	-	-
JaNLI	-	-
ebe-dataset	-	-
emoji-ja	-	-
nayose-wikipedia-ja	-	-
ja.text8	-	-
ThreeLineSummaryDataset	-	-
japanese	-	-
kanji-frequency	-	-
TEDxJP-10K	-	-
CoARiJ	-	-
technological-book-corpus-ja	-	-
ita-corpus-chuwa	-	-
wikipedia-utils	-	-
inappropriate-words-ja	-	-
house-of-councillors	-	-
house-of-representatives	-	-
STAIR-captions	-	-
Winograd-Schema-Challenge-Ja	-	-
speechBSD	-	-
ita-corpus	-	-
rohan4600	-	-
anlp-jp-history	-	-
keigo_transfer_task	-	-
loanwords_gairaigo	-	-
jawikicorpus	-	-
GeneralPolicySpeechOfPrimeMinisterOfJapan	-	-
wrime	-	-
jtubespeech	-	-
WikipediaWordFrequencyList	-	-
kokkosho_data	-	-
pdmocrdataset-part1	-	-
huriganacorpus-ndlbib	-	-
jvs_hiho	-	-
hirakanadic
animedb	-	-
security_words	-	-
Data-on-Japanese-Diet-Members	-	-
honkoku-data	-	-
wikihow_japanese	-	-
engineer-vocabulary-list	-	-
JSICK	-	-
phishurl-list	-	-
jcms	-	-
aozorabunko_text	-	-
friendly_JA-Corpus	-	-
topokanji	-	-
isbn4groups	-	-
NMeCab	-	-
ndlngramdata	-	-
ndlngramviewer_v2	-	-
data_set	-	-
huggingface-datasets_wrime	-	-
ndl-minhon-ocrdataset	-	-
PAX_SAPIENTICA	-	-
j-liwc2015	-	-
huggingface-datasets_livedoor-news-corpus	-	-
huggingface-datasets_JGLUE	-	-
commonsense-moral-ja	-	-
comet-atomic-ja	-	-
dcsg-ja	-	-
japanese-toxic-dataset	-	-
camera	-	-
Japanese-Fakenews-Dataset	-	-
jpn_explainable_qa_dataset	-	-
copa-japanese	-	-
WLSP-familiarity	-	-
ProSub	-	-
commonsense-moral-ja	-	-
ramendb	-	-
huggingface-datasets_CAMERA	-	-
FactCheckSentenceNLI-FCSNLI-	-	-
databricks-dolly-15k-ja	-	-
EaST-MELD	-	-
meconaudio	-	-
japanese-addresses	-	-
aozorasearch	-	-
llm-jp-corpus	-	-
alpaca_ja	-	-
instruction_ja	-	-
japanese-family-names	-	-
kanji-data-media	-	-
reazonspeech	-	-
huriganacorpus-aozora	-	-
koniwa	-	-
JMMLU	-	-
hurigana-speech-corpus-aozora	-	-
jqara	-	-
jemhopqa	-	-
jacred	-	-
jades	-	-
do-not-answer-ja	-	-
oasst1-89k-ja	-	-
jacwir	-	-
japanese-technical-dict	-	-
j-unimorph	-	-
GazeVQA	-	-
J-CRe3	-	-
jmed-llm	-	-
lawtext	-	-
pdmocrdataset-part2	-	-
japanesetopicwsd	-	-
temporalNLI_dataset	-	-
JSeM	-	-
niilc-qa	-	-
chain-of-thought-ja-dataset	-	-
WikipediaAnnotatedCorpus	-	-
elaws-history	-	-
Japanese-RP-Bench	-	-
hdic	-	-
awesome-japan-opendata	-	-
kanji-data	-	-
openchj-genji	-	-
AdParaphrase	-	-
Jamp_sp	-	-
jnli-neg	-	-
swallow-corpus	-	-
jalecon	-	-
multils-japanese	-	-
nwjc	-	-
open-mantra-dataset	-	-
gimei	-	-
safety-boundary-test	-	-
j-ono-data	-	-
kanji	-	-
jethics	-	-
waon	-	-
kuci	-	-
japanese-address-testdata	-	-
jlpt-word-list	-	-
hiragana_mojigazo	-	-
lawqa_jp	-	-
yjcaptions	-	-
ja-vg-vqa	-	-
lawhub	-	-
japanese-subtitles-word-kanji-frequency-lists	-	-
jconj	-	-
extract_jawp_names	-	-
cejc_yomichan_freq_dict	-	-
wikidict-ja	-	-
ajimee-bench	-	-
j-spaw	-	-
camera3	-	-
jgpqa	-	-
tanaka-corpus-plus	-	-
emotioncorpusjapanesetokushimaa2lab	-	-
osworld-jp	-	-
quasi_japanese_reviews	-	-
psychiatry-clinical-notes	-	-
merged-town-names	-	-
japanesetextemoticondata	-	-
mishearing-corpus	-	-
kotowaza	-	-
selective-rag-kasensabo	-	-
jmle2026-bench	-	-
JSTS-Neg	-	-
business-slide-questions	-	-
WLSP-antonym	-	-
YouCook2-JP	-	-
E2U	-	-
annotation-2025	-	-
jhpt	-	-
JBE-QA	-	-
j-spaw	-	-
JMedWiC	-	-
jhpt	-	-
Doppelganger-JC	-	-
modelvista-3lang	-	-
japanese-hr-niah	-	-
nijl-manyoshutei	-	-
kamuskita	-	-

Tutorial

日本語自然言語処理のツールや技術を学ぶためのチュートリアル

spacy_tutorial - spaCyチュートリアルの英語版と日本語版。spacy-transformers、BERT、GiNZA。
fastTextJapaneseTutorial - 日本語コーパスを使用してfastTextをトレーニングするチュートリアル
allennlp-NER-ja - AllenNLP-NER-ja：AllenNLPによる日本語固有表現抽出
chariot-PyTorch-Japanese-text-classification - ChariotとPyTorchを使用した日本語テキスト分類の実験
ginza-examples - 日本語NLPライブラリGiNZAのすゝめ
DocumentClassificationUsingBERT-Japanese - ドキュメント分類にBERTを使用する-日本語
BERT_Japanese_Google_Colaboratory - Google Colaboratoryで日本語のBERTを動かす方法です。
bert-book - 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ
janome-tutorial - Janome を使ったテキストマイニング入門チュートリアルです。
handson-language-models - 日本語の言語モデルのハンズオン資料です
JapaneseNLI - Google Colabで日本語テキスト推論を試す
deep-learning-with-pytorch-ja - deep-learning-with-pytorchの日本語版リポジトリです。
bert-classification-tutorial -【2023年版】BERTによるテキスト分類
python-nlp-book - ディープラーニングによる自然言語処理（共立出版）のサポートページです
llm-book - 「大規模言語モデル入門」（技術評論社, 2023）のGitHubリポジトリ
nlp2024-tutorial-3 - NLP2024 チュートリアル３作って学ぶ日本語大規模言語モデル - 環境構築手順とソースコード
japanese-ir-tutorial - 日本語情報検索チュートリアル
nlpbook - 「自然言語処理の教科書」サポートサイト
kantan-regex-book - 作って学ぶ正規表現エンジン
bert-classification-tutorial-2024 - 【2024年版】BERTによるテキスト分類
Gemma2_2b_Japanese_finetuning_colab.ipynb - Google Gemmaの日本語の説明のためのファインチューニング
nlp100v2020 - 「言語処理100本ノック 2020」をPythonで解く
textmining-ja - Rによる自然言語処理・テキスト分析の練習
nlp2025-tutorial-2 - NLP2025 のチュートリアル「地理情報と言語処理実践入門」の資料とソースコード
nlp100v2025 - 「言語処理100本ノック 2025」をPythonで解く
topic-models-ao - 『トピックモデル』(機械学習プロフェッショナルシリーズ)のノート
slp2025 -音学シンポジウム2025チュートリアル「マルチモーダル大規模言語モデル入門」資料
book_impress_it-basic-education-ai - インプレス出版「IT基礎教養自然言語処理＆画像解析」
genai-agent-advanced-book - 書籍「現場で活用するための生成AIエージェント実践入門」（講談社サイエンティフィック社）で利用されるソースコード
course2024-nlp - 2024年度立教大学大学院人工知能科学研究科自然言語処理特論
support-genai-book - 原論文から解き明かす生成AI（技術評論社）のサポートページです
ir100 - 情報検索100本ノック
kaggle_llm_book - 『Kaggle ではじめる大規模言語モデル入門　～自然言語処理〈実践〉プログラミング～』のサポートサイト
nlp-lecture-keio - 慶応義塾大学理工学部情報工学科講義「自然言語処理」

Name	downloads/week	total downloads
spacy_tutorial	-	-
fastTextJapaneseTutorial	-	-
allennlp-NER-ja	-	-
chariot-PyTorch-Japanese-text-classification	-	-
ginza-examples	-	-
DocumentClassificationUsingBERT-Japanese	-	-
BERT_Japanese_Google_Colaboratory	-	-
bert-book	-	-
janome-tutorial	-	-
handson-language-models	-	-
JapaneseNLI	-	-
deep-learning-with-pytorch-ja	-	-
bert-classification-tutorial	-	-
python-nlp-book	-	-
llm-book	-	-
nlp2024-tutorial-3	-	-
japanese-ir-tutorial	-	-
nlpbook	-	-
kantan-regex-book	-	-
bert-classification-tutorial-2024	-	-
Gemma2_2b_Japanese_finetuning_colab.ipynb	-	-
nlp100v2020	-	-
textmining-ja	-	-
nlp2025-tutorial-2	-	-
nlp100v2025	-	-
public-annotations	-	-
topic-models-ao	-	-
slp2025	-	-
book_impress_it-basic-education-ai	-	-
genai-agent-advanced-book	-	-
course2024-nlp	-	-
support-genai-book	-	-
ir100	-	-
kaggle_llm_book	-	-
nlp-lecture-keio	-	-