Googleが発表した 'Towards a Conversational Agent that Can Chat About... Anything' を読んで

先日Googleが Towards a Conversational Agent that Can Chat About… Anything というタイトルで、 オープンドメインドメイン型のチャットボットに関する研究結果を公表しました。

要点

  • オープンドメイン型チャットボットの多くは、返事の内容に一貫性がない、一般常識が欠如している、差し障りのない返事が多い(「わかりません」)、という観点で返答に意味をなさない、という問題を指摘しています。
  • それに対し、2.6Bのパラメータからなるニューラルネットワークベースの対話モデル(Meena)を開発し、「返事の内容に一貫性がない、一般常識が欠如している」という課題(Sensibleness)と、「差し障りのない返事が多い」という課題(Specificity)をどれだけ解決できているかを、 Sensibleness and Specificity Average (SSA)というスコアで評価することを提案しました。
  • 他の多くのチャットボットのモデルと比べて、MeenaはSSAのスコア上で意味のある返事ができることを実証しました。

所感

オープンドメイン型のチャットボットのタスクを難しくしている一つの要因に、 システムをどう評価するか、が挙げられます。 文字や単語の一致率、含有率など機械的な指標でシステムを評価をすることはできますが、 こうした指標は人間にとって快適な対話であることと相関はあるものの、必ずしも一致するとは限りません。

今回は、一貫性がある・常識があるといったSensiblenessと、 特定の話題に対する返事ができるといったSpecificityに焦点をおいて クラウドソーシングで直接評価しているところが大きなポイントだと思います。 また、人間が会話しても話の流れを読み違えたり、背景知識がなく差し障りのない返答をする、などが理由で、 人間のSSAのスコアですら想定よりも低かった、というのは面白い知見です。

一方で、課題が多いのも事実です。 この研究ではチャットボットを学習させるのに341GBのテキストデータを用いています。 学習させるマシンの環境含めて、これだけのリソースを手にするのは並大抵なことではありません。 応用することを考えますと、これほどの学習データ・パラメータが本当に必要なのか、 あるいはこうしたモデルをある種の汎用モデルとして、 汎用モデルから目的特化型のチャットボットを如何に効率よく作れるか、などが課題と感じます。

また、公式ブログでも言及していますが、 チャットボットの人格のモデリングや、 事実に則した返答、 学習したモデルの公平性やバイアス、などは この研究の対象外としており今後の課題としています。 どれも応用を視野にいれると重要な課題であると認識しています。

オープンドメインのチャットボット、対話システムにはまだまだチャレンジングな課題が多く、 また1つ1つの課題も大きい印象があります。 少しずつでも課題を整理しどういう技術に応用可能性があるか、 今後も動向のチェックをしていきたいと思います。

参考

  1. Towards a Conversational Agent that Can Chat About… Anything, official blog, Jan. 28, 2020
  2. Towards a Human-like Open-Domain Chatbot, arXiv, Mon. 27, 2020