書籍などの長文の英語pdfを日本語に翻訳しようと思いました。
Google翻訳にpdfをアップロードするとそのまま翻訳してくれるので便利です。
でも、なんか日本語が変になって上手く翻訳されません。
翻訳がおかしくなる部分は翻訳時に文字の区切りを間違えているようでした。
しかし、文章を見ても変な改行も無く、間違えて翻訳するような見た目ではない。
恐らく、pdfに1文字づつ書式が付いているのでそれが影響してそうでした。
でも、pdfから書式を取るのは難しそう。
なので、いちどテキストファイルに変換して書式をすべて無い状態にしたらいけるかも?
ということで、オンラインでpdf⇒TXTに変換するサイトがあるので、それを使うことにしました。
pdfがTXTファイルになったら、TXTファイルをエディタで開き、文字をすべて選択し、コピー、Google翻訳に貼り付けます。
その時点で、翻訳が上手く動くか確認します。
Google翻訳は対話形式だと5000文字が限界と言われています。しかし、これは一度の表示できる翻訳結果の制限であって、翻訳自体の文字数制限はほぼないので、翻訳結果のページを切り替えればいくらでも翻訳できます。
翻訳が上手く動くことが確認できたら、ファイルでアップロードした方が効率が良いです。
しかし、Google翻訳が対応しているファイル形式はpdfやdocxなどのみで、テキストファイルは対応していません。
WordがあればTXTファイルをそこに張り付けます。
もし、Wordが無い場合は、TXTファイルをGoogleドキュメントに貼り付けてdocx形式で保存します。
docxファイルをGoogle翻訳にアップロードすると、すべての文字が日本語にキレイに翻訳されます。
この方法を使うと書籍のpdfなども簡単に丸ごとキレイに翻訳できました。