読者です 読者をやめる 読者になる 読者になる

pdftotext して持ってる論文の文字列検索をできるようにしておく

本文の通りのやつのメモです

1. pdftotext を入れる
2. 論文の pdf が大量に入っているディレクトリで
$ for i in *; do pdftotext $i; done
みたいなことをすると .txt が大量に吐き出される(ls でやろうとすると空白混じりのファイル名の読み取りで困ったのですが、単に * でいいみたいです(shell によるかも))(エラーが出るけど気にしない)
3. 必要なら専用のディレクトリを作って txt ファイルたちを移動
4. 検索は例えば自分は .zshrc に
alias dirsearch='function hoge(){grep --color -r -i $1 .;}; hoge'
のように書いて、
$ dirsearch 'this is a pen'
をしています
5. 今のままだと段落ごと出てきて微妙に不便なので、必要なら出力をパーサに食わせて整形してから出すみたいなこともアリかも(面倒なのでやってない)

「自分が持っている論文を対象にする」というのは意外と大事で、「興味がある分野の論文から検索できる」とか「ある程度信頼できる文章から検索できる」とか良いことがあるっぽいです
(pdftotext の日本語抽出はたぶんできると思うので必要ならやってみてください)

蛇足ですが、英語であれこれ書くときは
springerexempler (Springer Exemplar - Scientific Terms in Context) や oxford collocations dictionary あたりを使うのが良いっぽいというのが最近の感想です(他におすすめがあったら教えてください)