自然言語理解とそのモデリング

はじめに さいきん自然言語処理分野では「自然言語理解」なるものをどう考えるかについて議論があったりします。膨大なパラメータを大量のコーパスで訓練したシステム( GPT-3 とか)を用いると言語理解が関わるようなさまざまなタスクで高い性能が達成でき…

自然言語処理の研究に悩む 卒業編

前置き 2020年3月に博士課程を修了しました。ちょうどよいタイミングなので、自分がここまでやってきたことと・これからやっていったほうがよさそうなことの簡単なまとめを書こうと思います。関心の核心は 自然言語処理の研究に悩む その3 - Reproc.pnz か…

自然言語処理の研究に悩む その3

前置き 最近やっていたことが一段落したので、博論に向けて考えをまとめたいと思います。ここ半年で取り組んでいた論文は投稿中・準備中という感じで今年はまだ結果が出ていないのですが、テーマ的にだんだん思想バトル感が出てきており、あまりすんなり論文…

自然言語処理の研究に悩む その2

前置き 自然言語処理分野の博士課程の学生です。言語理解みたいなものが興味の対象です 自然言語処理の研究に悩む の続きのつもりです(あらすじ参照) まだ悩んでいる あらすじ 自分の研究的なトピックは「機械による読解 machine reading comprehension 」…

自然言語処理の研究に悩む

背景 自然言語処理分野の博士課程の学生です。何もわからないのが得意 研究テーマないし進め方に悩んでいます。その考えごとを書きます 何もわからん ここに何を書きたいか 研究が進められていない気がする。論文が書けない気がする。何も考えていないわけで…

beamer, rowcolor, columncolor, line breaks in cell, and overlay

\documentclass[12pt,xcolor={dvipsnames,table}]{beamer} \usepackage{booktabs} \makeatletter % columncolor > rowcolor https://tex.stackexchange.com/questions/80135 \def\tmpp#1\@addtopreamble#2#3!{% \tmp#2!{#1}{#3}} \def\tmp#1\CT@column@color…

beamer, presenter notes, pgfpages, splitshow

やること beamer で作ったスライドで発表する(環境は OSX) 発表者ノート的なものも使いたい 手順 tex に仕込むコード \usepackage{pgfpages} \setbeamertemplate{note page}[plain] % or [default], [compress] \setbeameroption{show notes on second scr…

Springerexemplar の grep

Springer Exemplar - Scientific Terms in Context と言えば Springer が有するコーパスから指定したフレーズの一致件数・一致例を出してくれるサイトですが、「この表現とあの表現の一致件数を比較したいな〜」というときに一発コマンドを打てると楽だなあ…

UBLP (EMNLP2016WS) の対話セッションのメモ

Uphill Battles in Language Processing Scaling Early Achievements to Robust Methods, Workshop held in conjunction with EMNLP 2016 http://www.coli.uni-saarland.de/~mroth/UphillBattles/ EMNLP 2016 のワークショップ 「現時点までの成果をどうやっ…

Attention-Based Convolutional Neural Network for Machine Comprehension をやる

著者の微妙に動かないコードを動かすだけです paper: [1602.04341] Attention-Based Convolutional Neural Network for Machine Comprehension github: GitHub - yinwenpeng/MachineComprehension cis や word2embedding などのライブラリは Yin さんの別の…

latex で table 書くときにね?

よくアクセスがあるみたいなので情報を整理しておきます。 latex で( tex で?) table のコードをいちいち書くのは面倒だな〜というときは、 Latex Table Generator https://www.tablesgenerator.com/ Latex Tables Editor http://www.latex-tables.com/ …

pdftotext して持ってる論文の文字列検索をできるようにしておく

本文の通りのやつのメモです1. pdftotext を入れる 2. 論文の pdf が大量に入っているディレクトリで $ for i in *; do pdftotext $i; done みたいなことをすると .txt が大量に吐き出される(ls でやろうとすると空白混じりのファイル名の読み取りで困った…

tikz, node, text, graphicx

%% \usepackage[dvipdfmx]{graphicx} \usepackage[pdftex]{graphicx} dvipdfmx を入れっぱなしで、 tikz の node 内の text の centering がおかしいことになっていた。 graphicx 自体をコメントアウトするか、 option を pdftex にする。 出力の仕方に応じ…

JSAI2016 のしおり

気になるリンク集です 2016-06-06 jsai2016:1A4-OS-27b-3 逆畳み込みニューラルネットワークを用いた輪郭検出 jsai2016:1A4-OS-27b-4 キャプションからの画像生成を行うニューラルネットへの対話的修正の導入と検討 jsai2016:1A5-OS-27c-1in1 Deep Neural Ne…

latex, itemize, 項目内の行間

itemize における同一項目内での行間の設定の仕方がよくわかっていなかった \parskip とかではない たとえば \fontsize{12pt}{15pt}\selectfont をするとフォントサイズが 12pt へ変わってくれるわけだけど、15pt の部分が行送り(行の最上部から次の行の最…

dict の key/value を反転させる regexp

$ pbpaste | perl -pe "s/('.*?'): ('.*?')/\2: \1/g" 最短一致がこのように書かれること

Subordinating conjunctions vs. Conjunctive prepositions について

Subordinating conjunctions vs. Conjunctive prepositions Aarts 2011, Oxford Modern English Grammar における文法について 一般的に従属接続詞 (subordinating conjunctions) と呼ばれている語が Aarts の文法では接続前置詞 (conjunctive prepositions)…

matplotlib, pylab

要は pylab は matplotlib.pyplot だけでなく numpy や matplotlib.mlab の関数も呼べるようになるらしい。たしかに、 >>> import pylab as pl >>> len(dir(pl)) 948 >>> import numpy as np >>> len(dir(np)) 585 >>> import matplotlib.pyplot as plt >>> …

virtualenv, zsh, and rprompt

導入したので覚え書きを残す virtualenv 入れないと pip list が荒れたり依存関係で人が死んだりする virtualenv はひとまず ~/.venv のように共通化しておいて、alias ve='source ~/.venv/bin/activate' とする python3は必要になってないからまだ作ってな…

Training, Validation, Development and Test set の区別について曖昧さがあった

ので、検索した結果を貼ります artificial intelligence - whats is the difference between train, validation and test set, in neural networks? - Stack Overflow たぶんわかる(その1) machine learning - What is the difference between test set an…

Show, Attend and Tell の再現をやる

概要 paper: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention arxiv.org/abs/1502.03044 Attention 能力を備えたキャプション生成 CNN で特徴抽出 抽出した特徴からキャプションを生成するように LSTM を学習 論文の著者は2…

mallet CRF の確率出力

状態の番号がよくわからんかったという話。 参考は http://mallet.cs.umass.edu/fst.php // 各クラスの import や crfの宣言は済んでいるということにして... CRFTrainerByLabelLikelihood trainer = new CRFTrainerByLabelLikelihood(crf); trainer.setGaus…

pythonのword2vecがインストールできなかった

でも唸っていたらできたのでメモ 環境はOSX(10.10)でgccは(homebrew gcc47)です$ pip install word2vec すると ValueError: 'word2vec/word2vec_noop.pyx' doesn't match any files Command "python setup.py egg_info" failed with error code 1 in ... な…

Java, jar, javac

ジャバのジャーをクラスファイルから再錬成して実行したいときの話。 さっぱり知らなかったけど関連のコマンドが複数あって「(全部javaコマンドに適切なオプションつけて投げたらOK、ってわけじゃないのか……)」という気持ちになった。 # class ファイルを…

python, json, unicode

なんでうまくいったのかよくわからないけど、unicodeでいろいろ書いてあるjsonファイルを読み込んでまた書き込みたいときの処理。 import json, codecs ## 読み込み fin = codecs.open(fin_name,'r','utf-8') jdata = json.load(fin) fin.close() ## jdata …

scikit-learn の RandomForest

肝心な部分だけ from sklearn.ensemble import RandomForestClassifier # n_estimatorsはtreeの数, random_stateはseed model = RandomForestClassifier(n_estimators=10, random_state=17) # がくしう model.fit(train_data, train_label) # 出来上がったtr…

思考停止pandoc

導入は OSX - MarkdownからWordやPDF生成ができるようにする (またはPandoc環境の構築方法) (2014/09版) - Qiita などを参考にしました。tex環境が整っている場合は飛ばしてpandocのコマンドだけ見ればいいのだと思います。実際に出力してみると、デフォルト…

Stanford Parser について

NLP

Home: http://nlp.stanford.edu/software/lex-parser.shtml FAQ: http://nlp.stanford.edu/software/parser-faq.shtml Tag and Bracket: http://web.mit.edu/6.863/www/PennTreebankTags.html More details: https://catalog.ldc.upenn.edu/docs/LDC99T42/ D…

クロフト「事象構造と言語構造」

トマセロ(編)大堀ほか(訳)『認知・機能言語学』研究社、2011年 (論文集) 3章 ウィリアム・クロフト「事象構造と言語構造」pp.113-145 William Croft, The structure of events and the structure of language, 1998 訳者・編者による前置き 事象の時間的…

theanoでMNISTのnegative log-likelihood

theanoでMNISTを多層パーセプトロンするとき(日本語?)のnegative log-likelihoodをコストとして計算する式であるところの NLL = -T.sum(T.log(p_y_given_x)[T.arange(y.shape[0]), y])]という式について、ただし実用的には、 NLL = -T.mean(T.log(p_y_giv…