Bag of ML Words

ML = Machine Learning, Music Love, and Miscellaneous things in daily Livings

PDFのワードカウント (word counting of PDF files)

論文を英文添削に出す際など、word countで値段が決まる業者が多数あるのですが、

PDFってword countないんですよね。

かといってtexソースファイルはたくさんコマンドがあるので正しくカウントできないことは明白です。

 

じゃあどうするかなんですが、

PDFを.rtf (Rich Text Format)に吐き出してMicrosoft Wordでカウント!

これがたぶん現状の最良解です。

 

数式とかは壊れますし、真に正しい文字数にはならないと思いますが、

手でPDFテキストのコピペするよりは良いでしょう・・・

 

手順

  • 目的の論文PDFをAdobe Acrobatで開く(Adobe Readerでもできるかは不明)
  • 名前を付けて保存 --> その他のオプション --> リッチテキストフォーマットで保存
  • 生成されたRTFをMicrosoft Wordで開く
  • 画像の扱いとかが壊れすぎていないか確認
  • Microsoft Wordのワードカウント機能を利用する

 

別の手段:OCRソフトを使う

PDF、あるいは印刷したものをOCRソフトあるいはスキャナでOCRさせるという手段です。やったことはないです。