国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさんのユーザアバター

NDLOCR-Lite
国立国会図書館が新しいOCRツール「NDLOCR-Lite」を公開しました。GPUを必要とせず、一般的なパソコンで図書・雑誌のデジタル化画像からテキストデータを作成できるというツールだそうです。

windows版をダウンしてみたのですが、すごいです。
子ども新聞の1頁を縦横指定もせず、領域も指定せずファイルを指定しただけなのですが、細かいコラムから読み取ってくれました。もちろんミスはありますがルビのゴミもありません。
普通の小説の数ページも人物紹介や目次もそのままもっときれいに読んでくれました。
以下に使い方の説明とダウンロードの案内があります。

https://lab.ndl.go.jp/data_set/ndlocrlite-usage/

Replied
悟空さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさん、こんにちは。
ndlocr_lite_v1.1.2_windows.zipをダウンロードして解凍を試みたのですが、「このフォルダーは空です」と表示されます。
どこか操作が間違っているのでしょうか?

                       悟空

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

こんにちは、のぐさん。

ご紹介ありがとうございます。
市販のOCRソフトに比べて若干とっつきにくい感じはありますが、使いこなせたら面白そうですね。
AIを使っているらしいし。
無料だし、、、

こんにちは、悟空さん。

私は問題なくダウンロードすることができました。

ダウンロードした「ndlocr_lite_v1.1.2_windows.zip」のファイルサイズは244MBですか?

PARAGON

Replied
悟空さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

PARAGONさん、こんにちは。
はい、244MBです。
プロパティの画面を添付しました。
パソコンはわからない事だらけですね。

                       悟空

Replied
淮さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさん、悟空さん、PARAGONさん、こんにちは。
実は先日PARAGONさんにこっそり紹介していただいた時(2/25)は「ndlocr_lite_v1.0.0」の公開版をダウンしました。出力結果が全行改行で出力されるので、面倒でした。

今回、「ndlocr_lite_v1.1.2」で改良されたのかと思って再度ダウンしても同じでした。

ndlocr_lite_v1.1.2のexeファイルは、2026/03/03 11:34
ndlocr_lite_v1.0.0のexeファイルは、2026/02/25 15:26

上記でいいでしょうか?
「v1.1.2」のzipを解凍したときは、exeファイルは出て来なかったので、自分で探して起動しました。

HPの紹介の図では改行状態にはなってないので、私のボタン選択ミスかなとも思うのですが、わかりません。

あと、使用中のバージョン情報も出て来ないので、どっちを使っているかもよくわかりません。
PDFとjpgでは、CRとLFの違いがありました。

ダウンロード時間も30分以上かかったと思うし、ダウン進行状態の横棒グラフも出て来ないし、不安が大きいです。

悟空さんは何でだろう?(淮)

┗━淮(わいY)━┓

Replied
悟空さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

淮さん、こんにちは。

>ダウンロード時間も30分以上かかったと思うし

そうなんですか。
私の場合は、すぐにファイルが表示されたので、ダウンロードが完了していなかったんでしょうね。
明日またチャレンジしてみます。

                       悟空

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

不思議なことが多いですね。

解凍は+Lhacaですか?
Windows標準機能で解凍してもダメですか。

あと、可能性は低いですがセキュリティソフトによっては解凍の際にセキュリティソフトが意地悪をしている可能性もあるらしいです。
セキュリティソフトの履歴を確認するか、一時的に保護をオフにして解凍を試すのもありかと思います。

PARAGON

Replied
淮さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

すみません、私の勘違いと念のため。

>HPの紹介の図では改行状態にはなってないので

コピペしてみるとLFの改行コードでした。
あと、1回目の解凍の時は「すべて展開」を選択し、2回目の時はダブルクリックしてました。

HPの説明に以下のようにあります。
>ファイルは200MB程度ありますので、少々時間がかかります。
>zipファイルを右クリックして表示されるメニューから「すべてを展開…」を選ぶか、別途ソフトウェアを使用して、zipファイルの中身を完全に展開します(zipファイルをダブルクリックしただけでは、圧縮ファイルの内容が表示されているだけの場合があります。)。

┗━淮(わいY)━┓

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

淮さん、こんにちは。

私は先日も今日も特に問題なく、ダウンロード・解凍・起動までできました。
(全く違うパソコンでしたが)

バージョンはプロパティで確認するしかないのかな?

PARAGON

Replied
konecoさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさん、みなさん、こんにちは。

ndlocr_lite_v1.1.2_windows.zip
DLしましたが、(測ってないけど)10分もかからなかったような気がします。

テキスト化できましたが、淮さんと違い、強制改行されたりされなかったり、です。
ちゃんと点検してないので法則性はわかりません。

Textデータと同時に、デジタル画像の中に貼り付けてある画像も拾い出して画像ファイルが生成されるんですね。
あと、json(プログラムファイル?)とか、ずらりと並ぶので驚きました。

デスクトップにはOCRが入れてありますが、複数ライセンス購入できないので、持ち歩き用ノートPCで使おうと思います。
ありがとうございました。

 ___koneco(=^--^)。o○

Replied
悟空さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

PARAGONさん、こんにちは。

>解凍は+Lhacaですか?
>Windows標準機能で解凍してもダメですか。

「全て展開」で解凍したらできました。
今のところ以下の画面です。

                       悟空

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

悟空さん、こんにちは。

このソフトはインストールとか特に必要ないようなので、後は「詳細情報」から実行するだけですね。

操作はちょっととっつきにくい感じですが、このソフトは結構優秀で古文書とかも読んでくれるらしいですよ。

PARAGON

Replied
やまべえさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさん、皆様、こんばんは

のぐさん、情報ありがとうございます

ソフトをダウンロードして、解凍しました。
一度目は、○をダブルクリックしたら、HPの説明にある画面が表示され、使うことができました。
ほぼ正確にtextデータが作成され、とても感動したのですが、その後、○をダブルクリックしても、ソフトの画面表示に切り替わらず、なんの反応もありません。

なぜなのかな?原因がわかりません。

やまべえ

Replied
淮さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

やまべえさん、こんにちは。
全然わからないですねえ。
ダウンロード、私はすごく時間がかかったので、きっとパソコンのメモリとかHDの空きがかなりきつくなってるのだと思いました。このプログラムの起動も未だに8秒くらいかかります。

HPより
>目安としてPCのメモリに1GB以上空きがないと起動しません。もしなかなか立ち上がらない場合には、Webブラウザ等メモリを大きく消費するアプリケーションを閉じた後に、再度起動(ダブルクリック)してください。

>お知らせ
>Windowsにて起動時にPathNotFoundException が発生のように、特定のWindows環境において起動に失敗する事象が報告されています。
外部ライブラリの不具合とみられ、解決策を調査していますが、応急処置として、flet\ndlocr_lite_guiのように空ディレクトリを作成すると解消することが報告されています。

上記の中に、
>NDL古典籍OCR-Liteではエラーが出ません。
>OneDrive絡みかどうか分かりませんが、

「OneDrive」? やな感じ。
ここの「お知らせ」はむずかしそうですが……。(淮)

┗━淮(わいY)━┓

Replied
konecoさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

のぐさん、みなさん、こんにちは。
訂正です。

>淮さんと違い、強制改行されたりされなかったり、
原本と照合しないで早とちりしてました。

テキストエディタで設定した1行文字数を超えた箇所が自然(成り行き)改行され、超えていない箇所が強制改行されていたようで、つまり全て強制改行されてました。

フォルダを作って画像を複数放り込み、そのフォルダを指定すれば、ワンクリックで全画像のテキストを吐き出してくれるのも便利。

あと、複数種類のファイルがどっさり並ぶのが煩わしかったですが、出力形式を「TXT形式」のみにし、可視化画像の保存もオフにして、スリムになりました。

やまべえさん、アイコン○をダブルクリックしてから起動するのにすごく時間がかかります。
しばらく画面が真っ白で、トイレに行って帰ってきたら「やる気」画面になってました。

 ___koneco(=^--^)。o○

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

やまべえさん、こんにちは。

1回目が終わって、2回目の起動の前にフォルダを移動したり、名前を変えたりしませんでした?

「NDLOCR-Liteの使い方」の中の「(2) zipファイルの展開」に次のようにあります。
≫この時に、配置するフォルダの名称は半角の英数または記号とし、日本語等の全角文字を使わないようにしてください(日本語等の全角文字が含まれると起動しないことがあります)。

私はこれでつまずきました(;^ω^)

PARAGON

Replied
konecoさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

やまべえさん、PARAGONさん

>フォルダを移動したり、名前を変えたりしませんでした?

そう! 私もこれで起動できませんでした。
フォルダ名が「Windows」じゃあんまりだと思って。

解決しますように!
 ___koneco(=^--^)。o○

Replied
やまべえさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

淮さん、konecoさん、PARAGONさん

アドバイスありがとうございます。 解決しました!

そうそう、フォルダ移動していました。
最初、OneDriveに作り、イヤだな…と思い、移動させたのでした。
展開先のフォルダ名は半角英数にしたのですが、その上の上のフォルダ名にカタカナがありました。そのせいだったのでしょうか?

すべて、半角のフォルダ名の場所にしたら、無事に使えるようになりました。

文庫本の見開き2頁分をテキスト化してみたところ、文節ごと抜けている箇所が3カ所。聞→間が1か所ありましたが、あとの文字化けは無し。何より、ルビや頁数が取れているのはありがたい。精度が高くてビックリです。
行替えは原本通りでしたが、段落は字下がりになっていませんでした。
使用法をきちんと読んだら、もっと上手に使いこなせるようになるのかも。

まずは、皆さま、ありがとうございました!

やまべえ

Replied
悟空さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

皆さんのアドヴァイスを参考に操作して、なんとかテキストファイルを作成する事ができました。
慣れなんでしょうが、最初は戸惑う事が多いですね。クリックしても何も表示されないので、動いていないのかと思っていると、そのうち表示されます。
ダウンロードに時間がかかるという事でしたが、私の場合は一瞬でした。起動が「詳細情報」というのも変ですよね。
試しに北方謙三の「水滸伝」1巻のPDFファイルをOCRして見たのが以下の画像です。
所要時間は約9分、赤い枠で文字が囲まれたJPG画像とテキストファイルが391枚できあがっていました。それぞれ1枚につき文庫本1頁分がOCRされておりました。

                       悟空

Replied
淮さんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

konecoさん、悟空さんのハードウェアとは雲泥の差がありそうです。

NDLOCR-Lite Web ブラウザで動く日本語OCR
エイチttps://ndlocr-liteweb.netlify.app/

上記出てました。
のぐさん紹介のサイトにはまだ案内が見当たりません。
「改行を無視する」のチェックボタンがあって、本当に全部無視してました。
サムネイル表示があって、いっぺんに認識できて見た目がわかりやすかったです。
日々進化してるので、ダウンロードする方は一休みかな。(淮)

┗━淮(わいY)━┓

Replied
PARAGONさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

淮さん。

「NDLOCR-Lite Web」使ってみました。
インストールとか無しで簡単に使えるのがいいですね。
これだとずいぶんハードルが下がる。
スマホだとカメラから直接OCRできる!

あと、「ブラウザ完結 — 画像・OCR結果を外部サーバーに送信しません。すべての処理がブラウザ内で完結します。」というところがgood。作成者が国立国会図書館 非常勤調査員ということで本家ともつながりがありそうだし。
(まあ、ネットなので書いてあることすべてが本当とは限りませんが…)

OCRの有料ソフトが売れなくなりそうです。

PARAGON

Replied
konecoさんのユーザアバター

Re: 国会図書館のフリーOCRソフトNDLOCR-Lite紹介

淮さん、PARAGONさん、こんにちは。

>スマホだとカメラから直接OCRできる!
これやってみたら、お~、素晴らしい!

それなりの値段で購入したOCRと遜色ない精度にならないのは、見開き状態で本が歪まないように写すのが難しかったせいもあると思います。
歪み補正アプリもあるし、どっちみちテキスト整形の手間は必要ですもんね。

情報、ありがとうございます!

 ___koneco(=^--^)。o○

コンテンツ配信 コンテンツ配信