2019年 Google ドライブとGoogleドキュメントでOCR(文字認識)する方法

IT

PDFファイルを受け取った時に、文字が画像になってしまってて途方に暮れたことありませんか?スマホで写真に撮った本や文書を文字起こししたいと思ったことはありませんか?

そしてそれらを無料でやれるとしたらどうでしょう。

Google ドライブにはOCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)の機能があります。その機能を使えば先ほど書いた内容も実現できます。

Google ドライブにpdfや画像ファイルをアップロードすると、Google ドキュメントで開けるように変換されます。ドキュメントに変換する過程でOCRがかかって文字認識されてテキストとして抽出されているということです。

Google ドキュメントで文字認識されたファイルが用意できると、更にGoogle翻訳にかけることができます。

つまり、紙文書があった時に文字認識させて電子データとして保存ができますし、翻訳をかけないと読めない外国の文書であってもGoogle翻訳の力を借りて翻訳することができるのです。

簡単にまとめると、以下のような作業内容になります。

  1. 紙文書のスキャン⇒PDF化 or 画像ファイル
  2. PDFファイル or 画像ファイルをGoogle ドライブにアップロード
  3. Google ドキュメントで開く(PDFファイル or 画像ファイルを文字認識させたドキュメントに変換)
  4. ドキュメントをGoogle翻訳する

一連の手順の詳細を以下説明していきます。

興味のある方は読み進めてください。

紙文書のスキャン⇒pdf化

GoogleでOCR(文字認識)をかける場合、紙文書を一度電子データにする必要があります。

紙文書をスキャンするには、複合機かスマホアプリを使い、pdf化します。

複合機は、紙がまっすぐに伸びるので綺麗にスキャンできます。

スマホアプリでも賢く補正してくれる機能がありますが紙が折れていると中々きれいに撮れません。

スマホアプリでpdf化する場合

Genius scanかCamscannerがおススメです。

‎Genius Scan+ - PDF Scanner
‎Genius Scan is a scanner app in your pocket. Quickly scan your paper documents on the go and export them as multi-page PDF files. *** Apple App of the Week **...
‎CamScanner-Scanner to scan PDF
‎*Scan docs into clear & sharp image/PDF, to email, fax, print or save to cloud * The choice for 400 million users all over the world Features: *Mobile Scanne...

Google drive/ドキュメントでOCRする手順

Step1:Google Chromeでアプリを開く

Google Chromeを立ち上げ、左上にある『アプリ』をクリックして、アプリ選択の画面を立ち上げます。

 

 

 

Step2:Google ドライブを立ち上げる

アプリ選択の画面になったら、Googleドライブというアプリをクリックします。

なにもアプリをインストールしなくてもGoogleドライブは表示されると思います。

Step3:Google ドライブにファイルをupload

Google ドライブが立ち上がるので、OCRしたいpdfファイルをGoogle ドライブのどこでもよいのでUploadします。

Uploadは、ファイルをドラッグアンドドロップすれば、OKです。

Step4:Google documentアプリで開く

Uplodaが終わったら、OCRしたいファイルの上で右クリックします。右クリックメニューのアプリで開く⇒Googleドキュメントを選びます。

Google ドキュメントが立ち上がるのを待ちます。OCRしているので少し時間がかかります。

Googleドキュメントが立ち上がると、めでたくpdfファイルの文字はテキストにOCRされているはずです。

以上の方法で、紙文書をpdf化から、Googleドライブ経由でGoogleドキュメントによるOCR化、テキスト変換まで出来るようになりました。

pdfファイルでなくとも画像ファイルでもGoogleドキュメントで開けばOCRがかかります。ただし、pdfファイルのように見た目そのままで変換されず、体裁が崩れるので、pdfファイルにすることをお勧めします。

OCR(文字認識)済みドキュメントをGoogle翻訳にかける

Googleドキュメントはテキストに変換されています。テキストをGoogle翻訳にコピペすれば、めでたく翻訳がかかります。

文章が大量の場合は、Google翻訳にファイルを読み込ませることができます。

 

これで、読めない言語の紙文書でもGoogle翻訳することができるようになりました。

スマホだけで文書を翻訳する方法

こちらの記事にまとめてあります。

スマホアプリでオランダ語の紙文書を一瞬でGoogle翻訳する裏技
オランダで生活していると役所や電気ガス水道会社から手紙が来ます。 最初は、オランダ語の手紙をもらって読まなければいけない状況がとてもストレスでした。 オランダ語はアルファベットなので、スキャンしてOCRすればGoogle翻訳出来...

まとめ

文字が画像になってしまっているpdfファイルも今回の方法でOCRをかけることができます。Googleの文字認識(OCR)はとても優秀なのでアルファベットだけじゃなく、日本語でも正しくテキストに変換してくれますから、とても使えると思います。

 

タイトルとURLをコピーしました