PDFファイルを受け取った時に、文字が画像になってしまってて途方に暮れたことありませんか?スマホで写真に撮った本や文書を文字起こししたいと思ったことはありませんか?
そしてそれらを無料でやれるとしたらどうでしょう。
Google ドライブにはOCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)の機能があります。その機能を使えば先ほど書いた内容も実現できます。
Google ドライブにpdfや画像ファイルをアップロードすると、Google ドキュメントで開けるように変換されます。ドキュメントに変換する過程でOCRがかかって文字認識されてテキストとして抽出されているということです。
Google ドキュメントで文字認識されたファイルが用意できると、更にGoogle翻訳にかけることができます。
つまり、紙文書があった時に文字認識させて電子データとして保存ができますし、翻訳をかけないと読めない外国の文書であってもGoogle翻訳の力を借りて翻訳することができるのです。
簡単にまとめると、以下のような作業内容になります。
- 紙文書のスキャン⇒PDF化 or 画像ファイル
- PDFファイル or 画像ファイルをGoogle ドライブにアップロード
- Google ドキュメントで開く(PDFファイル or 画像ファイルを文字認識させたドキュメントに変換)
- ドキュメントをGoogle翻訳する
一連の手順の詳細を以下説明していきます。
興味のある方は読み進めてください。
紙文書のスキャン⇒pdf化
GoogleでOCR(文字認識)をかける場合、紙文書を一度電子データにする必要があります。
紙文書をスキャンするには、複合機かスマホアプリを使い、pdf化します。
複合機は、紙がまっすぐに伸びるので綺麗にスキャンできます。
スマホアプリでも賢く補正してくれる機能がありますが紙が折れていると中々きれいに撮れません。
スマホアプリでpdf化する場合
Genius scanかCamscannerがおススメです。
Google drive/ドキュメントでOCRする手順
Step1:Google Chromeでアプリを開く
Google Chromeを立ち上げ、左上にある『アプリ』をクリックして、アプリ選択の画面を立ち上げます。
Step2:Google ドライブを立ち上げる
アプリ選択の画面になったら、Googleドライブというアプリをクリックします。
なにもアプリをインストールしなくてもGoogleドライブは表示されると思います。
Step3:Google ドライブにファイルをupload
Google ドライブが立ち上がるので、OCRしたいpdfファイルをGoogle ドライブのどこでもよいのでUploadします。
Uploadは、ファイルをドラッグアンドドロップすれば、OKです。
Step4:Google documentアプリで開く
Uplodaが終わったら、OCRしたいファイルの上で右クリックします。右クリックメニューのアプリで開く⇒Googleドキュメントを選びます。
Google ドキュメントが立ち上がるのを待ちます。OCRしているので少し時間がかかります。
Googleドキュメントが立ち上がると、めでたくpdfファイルの文字はテキストにOCRされているはずです。
以上の方法で、紙文書をpdf化から、Googleドライブ経由でGoogleドキュメントによるOCR化、テキスト変換まで出来るようになりました。
pdfファイルでなくとも画像ファイルでもGoogleドキュメントで開けばOCRがかかります。ただし、pdfファイルのように見た目そのままで変換されず、体裁が崩れるので、pdfファイルにすることをお勧めします。
OCR(文字認識)済みドキュメントをGoogle翻訳にかける
Googleドキュメントはテキストに変換されています。テキストをGoogle翻訳にコピペすれば、めでたく翻訳がかかります。
文章が大量の場合は、Google翻訳にファイルを読み込ませることができます。
これで、読めない言語の紙文書でもGoogle翻訳することができるようになりました。
スマホだけで文書を翻訳する方法
こちらの記事にまとめてあります。
まとめ
文字が画像になってしまっているpdfファイルも今回の方法でOCRをかけることができます。Googleの文字認識(OCR)はとても優秀なのでアルファベットだけじゃなく、日本語でも正しくテキストに変換してくれますから、とても使えると思います。