pdftotext して持ってる論文の文字列検索をできるようにしておく

本文の通りのやつのメモです

1. pdftotext を入れる
2. 論文の pdf が大量に入っているディレクトリで
$ for i in *; do pdftotext $i; done
みたいなことをすると .txt が大量に吐き出される(ls でやろうとすると空白混じりのファイル名の読み取りで困ったのですが、単に * でいいみたいです(shell によるかも))(エラーが出るけど気にしない)
3. 必要なら専用のディレクトリを作って txt ファイルたちを移動
4. 検索は例えば自分は .zshrc に
alias dirsearch='function hoge(){grep --color -r -i $1 .;}; hoge'
のように書いて、
$ dirsearch 'this is a pen'
をしています
5. 今のままだと段落ごと出てきて微妙に不便なので、必要なら出力をパーサに食わせて整形してから出すみたいなこともアリかも(面倒なのでやってない)

「自分が持っている論文を対象にする」というのは意外と大事で、「興味がある分野の論文から検索できる」とか「ある程度信頼できる文章から検索できる」とか良いことがあるっぽいです
(pdftotext の日本語抽出はたぶんできると思うので必要ならやってみてください)

蛇足ですが、英語であれこれ書くときは
springerexempler (Springer Exemplar - Scientific Terms in Context) や oxford collocations dictionary あたりを使うのが良いっぽいというのが最近の感想です(他におすすめがあったら教えてください)

tikz, node, text, graphicx

%% \usepackage[dvipdfmx]{graphicx}
\usepackage[pdftex]{graphicx}

dvipdfmx を入れっぱなしで、 tikz の node 内の text の centering がおかしいことになっていた。
graphicx 自体をコメントアウトするか、 option を pdftex にする。
出力の仕方に応じてちゃんとオプション変えましょうとかそういう話。

参考
graphicx - TeX Wiki

JSAI2016 のしおり

気になるリンク集です

2016-06-06

latex, itemize, 項目内の行間

  • itemize における同一項目内での行間の設定の仕方がよくわかっていなかった
  • \parskip とかではない
  • たとえば \fontsize{12pt}{15pt}\selectfont をするとフォントサイズが 12pt へ変わってくれるわけだけど、15pt の部分が行送り(行の最上部から次の行の最上部、フォントサイズ+行間のこと)を担っていて、\parskip をいくら変えてもこちらは変わらない
  • 長いときは(?){\fontsize... \par} にしないと機能しないっぽい http://texblog.org/2012/08/29/changing-the-font-size-in-latex/
  • 物理的に大きくしたいときはここやら \baselineskip を変えるとよい
  • beamer poster の原稿内でころころ fontsize を変えていたのだけど、その都度 \baselineskip もリセットされてしまう?らしい。一行で収まる item がほとんどだったから、折り返しのある item の行間が突然狭くなってしまって驚いた。ちゃんと設定しておく必要がある
  • 未だに latex の細かいことをよくわかっていないのだけど出力が良ければまあ良いという感じで諦めている
参考

Subordinating conjunctions vs. Conjunctive prepositions について

Subordinating conjunctions vs. Conjunctive prepositions

  • Aarts 2011, Oxford Modern English Grammar における文法について
  • 一般的に従属接続詞 (subordinating conjunctions) と呼ばれている語が Aarts の文法では接続前置詞 (conjunctive prepositions) として定義されるという話

Conjunctions 接続詞の分類 (3.9)

  • Coordinating conj. と subordinating conj. に区別する
  • すなわち、等位接続詞と従属接続詞
  • Coodinating conjunctions:
    • and, or, and but
  • Subordinating conjunctions:
    • that, if (interrogative), whether, and for
    • if は疑問として使われる場合のみ
    • for は "There is nothing I want for you to say anyway." のように non-finite (節内の動詞が時制を示さないような性質) な従属節を導く
    • Subordinate clauses を matrix clauses (main clauses) に埋め込ませるものだけを subordinating conjunctions と呼ぶ
    • ここでの埋め込みは Subject, Object, Complement を指している(と思う)
    • Subordinating conjunctions に導かれるものだけが subordinat clauses というわけではない(部分集合)

Prepositions 前置詞の分類 (3.7)

  • Transitive prep., intransitive prep., complex prep., postpositions and deverbal prep.
  • 順に 他前置詞, 自前置詞, 複合前置詞, 後置詞, 脱動詞前置詞(分詞前置詞?) くらいの訳だろうか(定訳があるのかもしれないですが調べきれてないです、注意)
  • Transitive prepositions:
    • 補語をとる前置詞
    • さらに regular prepositions と conjunctive prepositions に区別する
    • Regular prep. は名詞句、形容詞句、副詞句、前置詞句を補語にとる
      • いわば普通の前置詞
      • 前置詞句を取る例は "Wait until after tomorrow tonight." のような文
    • Conjunctive prep. は節を補語にとる (5.5.1.5)
  • Intransitive prepositions:
    • 補語をとらない前置詞
    • 典型的には動詞の補語となる、例えば look in や go out など
  • Complex prepositions:
    • 複合的な前置詞
    • next to, out of, and by means of etc.
  • Postpositions
    • 主に名詞句にたいして後置されて全体として前置詞句となるもの
    • ago, apart, aside, notwithstanding, and through
    • 例は "twn years ago" や "our aloofness from the eurozone notwithstanding" など
  • Deverbal prepositions
    • Transitive prep. の機能を持つ分詞
    • according, concerning, given, and granted, etc.
    • 例は "including some of stars gathered here tonight" や "Regarding the issue of diagnosis, ..." など

Clauses functioning as Complement in prepositional phrases (5.5.1.5)

  • 前置詞句における補語として機能する節
  • 一般的には従属接続詞と呼ばれるものが Aarts の文法では前置詞として扱われる
  • 例えば although, because, since, when, where, and while は前置詞
    • 複合形も同様に前置詞扱い
  • Functions:
    • Time, Reason, Concession, Condition, Contrast, Purpose, and Result etc.
  • List of conjunctive prepositions: P157 Table 5.14

The classification of finite subordinate clauses (7.3)

  • Content clauses, comparative clauses, relative clauses に分類される
  • Content clauses:
    • finite かつ比較や関係詞がない従属節
    • 前置詞の補語になるような節も該当する
      • つまり前置詞句の中に従属節がある、という構造
    • 下位分類として次の3つがある:
      • declarative content clauses
      • interrogative content clauses
      • exclamative content clauses
    • Subject, Object, Complement になるのが中心
    • Adjunct の場合は接続詞を伴わない
      • "Had I spent my time in some other hostelry, ..." のような倒置条件節の場合のみ該当
  • Comparative clauses:
    • 比較級の文
    • ただし原級の as や比較の than は前置詞
      • それに続く節が comparative clauses
  • Relative clauses:
    • 関係詞節
    • ただし when, where, and whlie etc. は前置詞
    • 例は "In the period when he was writing in the fifties, ..."

2016-04-13

  • 明らかに接続詞として扱われるものを「節を導く前置詞」として扱うのはどう考えても変だと思ったのだけど、こうすると接続詞が何であるかを明確に規定できるので良いのかもしれない
    • この記事にまとめたときの感想
  • 最初はスマートだなと思っていたのだが、いざ「これが良いのですよ!」と説明するための整理を考えようとすると全然ダメという気がしてくる
    • 論文に「Aartsはこんな感じに整理していて、便利だから使います」という議論を書きたかった
  • 機能的な分類ではなく語的な分類を優先しているような印象
    • e.g. I know what you said. という文の what は subordinate clause を導いているものの、conjunction ではなく conjunctive preposition
    • 手元に本を置いてない状態で書いているのであとで確定します
  • 結局のところ、接続詞はどのように分類するのがスマートなのか?
    • 名詞節を導く接続詞はこれで〜
    • 形容詞節を導くのはこれで〜
    • 副詞節を導くのはこれ……
    • という感じの分類をすべきでは?
  • 「ひとつの語が複数の機能/役割を持つことがある」という前提があると考えると、語よりも PoS や Grammatical function を優先したほうがよい
  • 端から端まで読んだらどうしてこんな分類をしたのかが書いてあるのだろうか……
    • Cambridge grammar などと比較してみます

matplotlib, pylab

要は pylab は matplotlib.pyplot だけでなく numpy や matplotlib.mlab の関数も呼べるようになるらしい。

たしかに、

>>> import pylab as pl
>>> len(dir(pl))
948
>>> import numpy as np
>>> len(dir(np))
585
>>> import matplotlib.pyplot as plt
>>> len(dir(plt))
231

多い(その確認の仕方はどうなんだ)。間違っても

>>> from pylab import *

などの操作をインタプリタでなく通常のファイル上でやろうものなら名前空間がひどいことになって大変だと思う。手間を惜しんで打つならこれが一番楽そうだけど。

で、あーだこーだ言いながら捻って出てきた数式のプロットがやりたくて、次のことをした。

>>> from pylab import *
>>> t = linspace(0, 2*pi, 100)
>>> x = sin(2*t)
>>> y = cos(t)
>>> plot(x,y)
(ここで挙動不審になる)
>>> show()
(グラフの窓が出てくる)

係数は面倒なので含めなかった。
電荷は、xy平面内でy軸にそう縦軸を持った対象な8字型の軌道を運動する。運動の周期は、パラメータtの0から2πまでの変化に対応する。」
とのこと。
蛇足ですが8字って聞くとハチの8字ダンスを思い浮かべて「志向的表象じゃん!」みたいな反応をしがちです。志向的表象はいいぞ。