AAAI-17 に行きました

AAAI-17 (Feb. 4-9, 2017 @San Francisco) http://www.aaai.org/Conferences/AAAI/aaai17.php という人工知能系の国際会議で発表してきました。国際会議にちゃんと論文を通すのは初めてだったので、記録がてら経緯を書きます。

f:id:liephia:20170206120200j:plain

サンフランシスコの写真。

執筆と投稿

自分は研究らしきことを始めたのが(大学院からこの分野に移ったので)遅く、2015年度末(修士1年の終わり頃)くらいでようやく自分ができそうなことが見えてきて、2016年3月の言語処理学会・6月の人工知能学会でポスター発表などをしました。それを基に4月から7月にかけていろいろ書いたり投稿していたりしたのですが、どうにも国際会議の投稿レベルでは話がまとまらないできないということが続き、7月末〜8月でようやく extended abstract 的なものを書いて EMNLP のワークショップ http://www.coli.uni-saarland.de/~mroth/UphillBattles/ に投稿しました。原稿はこれ http://aclweb.org/anthology/W/W16/W16-6001.pdf です。このワークショップ自体は採択が75%くらいだったと思います(むしろ偉い人の話がいろいろ聞けたのがよかった)。この原稿を本格的に full paper として固めたものを書こうということになったのですが、どうにも時期的にわかりやすい自然言語処理の国際会議がなく、ちょっと(かなり) challenging だけどまあ出してみるのもありでしょうという指導教員の談で AAAI に出すことにしました。自分はこれが通らなかったら(というよりもたぶん通らないだろうと思っていたので)ACLまで温め直しだなあと思いつつ書きました(notification のタイミングのために考慮から外していたのですが、 EACL でもよかったかもしれないです)。

8月は中旬に夏コミがあったり、末には YANS のシンポジウム(でポスター発表)と修論の中間発表があったりとやや忙しかったのですが、合間をぬって書きつつ、9月の頭には結果や議論がちょっと甘い形でおおよそ内容が固まりました。そういえば直前の月曜日は最先端 NLP 勉強会で発表したりもありましたね……。投稿の締め切りは9月14日(日本時間で15日の夕方)でした。草稿の英語があまりにも雑で指導教員いわく「これは英文校正に出してからのほうがさすがに添削しやすい」ということだったので、英文校正に先に出しました。締め切りまでに校正会社と3往復はさせたはずです。英語が得意な同期にも読んでもらいました。そういうのが大事っぽいです(指導教員も共著者もなかなか忙しく、やはりじっくり添削していただくのは難しいので……)。という感じで投稿しました。

Author response, notification と camera ready

10月末くらいにりばったるがありました。ほとんど完全な内容の review comments が来ます。スコアは +++++ (=best) から ----- (=worst) の10段階で与えられ、自分は +++ ++ +++ でした。聞くところによるとそこそこ大丈夫そうな評価らしく(多くの論文はボーダーとなる +- に集中しやすいらしいです)、運が良かったのかなと思います。もちろん査読のコメントは議論や定義の甘いところを突かれていて、こりゃ丁寧に応答しないとあかんなという感じだったので、がんばって書きました。500語(だったかしら)の語数制限があるのが厳しく、ぎりぎりの時間まで練って提出しました(査読コメントで自分の知らなかった論文を紹介してもらえたりもしたので、とくに指導教員と違うテーマをやっている人は勇気を出して投稿してみるのが大事だと思います)。

で採択の通知が来ました。最終的なスコアは ++++ ++ +++ になっていました。通知の時点で投稿数は 2590 、採択は 638 でした。 Camera ready のためにページを買い増しつつ(どうしてお金がかかるのか未だにわからないのですが、紙媒体の冊子を作ってるから?)書き加える内容を考えたりしました。ここでも確認不足で指導教員とかなり揉めて精神的にひどかったのですが、なんとか追加の評価をしたりして、英文校正の再校正サービスを利用しつつ(ちょっと料金がかかった気がする)最終版を仕上げました。

12月大阪の COLING に参加している間に発表形式の通知が来て、自分は口頭発表に割り当てられたとのことでした。スコア的にありえるかもなと思っていたので「あーあ」くらいの気持ちだったのですが、まあ一度も英語の口頭発表やったことないしがんばろうという気持ちになることにしました。プログラムを数えてみると、口頭発表件数は採択された論文の半数よりやや多いくらいで、13%くらいかな?と思います(ポスターと優劣があるわけではないと通知のメールには書かれていましたが)。

会議と発表

会議は2017年2月4-9日で、4-5日はワークショップやチュートリアル・6-9日が本会議ということなのですが、自分の所属する専攻の修論の最終発表が2月の6-7日にあり、おいおい勘弁してくださいよという感じでお願いをして、6日の頭に修論発表・8日午後(一応 commitee にお願いのメールを送ったのですが反応はなかったので後半の日程に配置されたのは偶然かもしれないです)に AAAI 発表という予定で固まりました。ワークショップやチュートリアルや reception に出られなかったのでもったいなかったという気持ちですが、仕方ないです。修論書きつつ、発表の準備しつつという感じで1月後半から会議まで慌ただしく過ごしました。

サンフランシスコはじめじめしていて雨が降ってるのか霧が降っているのかよくわからない天気でした。会場は Hilton で、そこそこたくさん人がいました(稚拙な感想すぎるなこれ)。国別の参加者や投稿数についての細かい統計値は報告してらっしゃる方がいるのでそれを参照くださればと思います。NLP のセッションもそこそこの数がありますがやはり少数派で、そのなかでも言語寄りの関心というよりは機械学習・深層学習の流れに乗った発表が多かったようです。その意味では自分の内容はちょっと浮いていたのですが、かえって良かったかもしれません。

f:id:liephia:20170207121102j:plain

会場の写真を取り忘れたので会場近くにあった「大阪うどん」のお店で食べたカツカレーの写真を貼ります。アメリカでこれを食べられるのはすごいと思った。

自分のセッションは他の発表がすごいという雰囲気ではなかったので、セッションの最後の番であった自分は落ち着いて発表できた気がします(暗記までする暇がなくスクリプトを読みまくりでしたが)。発表15分・質疑3分です。質疑は1件うまく聞き取れず完全に的はずれな回答をしてしまい情けない思いをしたので、やっぱり英語の聞き取りなり会話なりの訓練を事前にもっとやっておくべきだったなと感じました。

論文の内容

書くのを忘れていました。原稿はこれ http://www.aaai.org/Conferences/AAAI/2017/PreliminaryPapers/14-Sugawara-14614.pdf です。スライドは http://penzant.net/files/aaai17_slide.pdf にあります。トピックとしては reading comprehension や machine comprehension (ここでは単に「読解」と呼びます)と呼ばれる話で、国語の文章題のような問題群をいかに計算機に解かせるかというのが課題です。今回の論文では、そうした読解タスクにおける評価手法をもっとしっかり考えたほうがよいのではないかという旨の主張をしました。

読解のタスクは、おおよそ「複数の文からなる課題文を読んで何らかのクエリに答えてもらう」という形をとります。クエリの形式は穴埋め・選択肢・課題文からの抜き出しなどがあり、いろいろデータセットが提案されています(詳しくは論文を参照してください)。これを解くシステムを考えるわけですが、開発にあたってシステムの評価はおおよそ単一の精度でしか行われません(テストセット500問中400問解けたので80%でした、という感じ)。さらにシステムを改善しようとすると実際に解けなかった問題を分析する必要がありますが、どうしても断片的になり、定性的に「これが苦手・得意」という説明を与えることはなかなか難しいという事情があります。

そこで、「あらかじめデータセットにある問題を解くのに必要なスキルセットをメタ的な情報としてラベリングしておいて、システムが解けなかった問題のラベルの傾向を見る」という評価手法を提案します。まずスキルセットを定義(能力は10個)します。定義する能力は既存の自然言語理解のタスクと対応をとり、たとえば照応解析、因果関係、論理推論、常識推論などです。次に、そのスキルセットで既存の読解タスクをアノテーションします。マルチラベルです。おおざっぱな傾向を見るには100-200問くらいでいい気がします(参考: https://arxiv.org/abs/1606.02858)。そしてそのアノテーション結果に基づいて既存のシステムの分析を行う、という流れです(スライドを見ていただければ図表があります)。

f:id:liephia:20170217183059p:plain

雰囲気の画像です。また、(おそらく)面白い結果として、「ひとつの問題を解くのに必要な能力が多くなればなるほど、正答率が下がる」という傾向があることがわかりました。これは「読解問題の難易度とはいったい何か」というやや漠然とした問いに対するヒントになると考えています(修論ではこの話題を掘り下げました)。一方で「結局それぞれのスキルについてアノテーションされた問題が十分な数なければ精度の精緻な分析には不向き」という課題があります。また、アノテーションが揺れないように(とくに知識推論)するのも大変で労力がかかります。これらはかなりの穴だと思うのですが、その旨を丁寧に書き、それっぽく分析を書き、最終的にアイディアが評価されて運良く査読を通ったのかなと感じています。

今後

年度末なのでついでに今後のことを書きます。自分は修士2年の後期になってようやくちゃんとした業績が作れたので、それより以前に応募したもろもろの生存戦略にだいたい失敗してしまい、わりかしつらい思いをしています。現在はとりあえず来年度を生き抜くのが目標です。とくに大学院から専門を変えた人は、学部から始めている人と1年分くらいの差があるので、どうしても出遅れがちになってしまうと思います。悲しい話ですが、じっくりやるよりもなるべく早くわかりやすい業績を作るのを優先すべきなのかなと感じます(生存戦略が立ってからようやくじっくりやるという雰囲気で)。ちなみに私は研究っぽいことができるアルバイト生活をさせていただきつつやっていくつもりですが(楽しくやっています)、長期的に考えるとやはり自分の研究の時間を増やしたくもあるので(というか今年度なんとかなったことを考えると来年度も意外となんとかなるのかもしれないのですが)、スポンサー募集中という感じです……。そんなに甘くないか。

自然言語処理・計算言語学に関わる年度末的な考えごとは別の記事に書こうと思います。