日本語に特化した大規模言語モデルがもたらすAIサービスの進化

~ 高精度化する新聞記事「見出し」の自動生成~

お知らせ
ニュースレター - 2022.07.20
     

近年、人間の言語(自然言語)をコンピュータで処理し内容を抽出する自然言語処理の分野において、汎用的な大規模言語モデルの開発が世界中で活発に行われています。言語モデルとは、自然言語による質問応答や文章生成などができるAIで、米OpenAIが開発した「GPT-3」が代表的ですが、2022年5月には、米Metaが「GPT-3」に匹敵する大規模言語モデル「Open Pretrained Transformer(OPT-175B)」を研究者向けに公開するなど、英語圏を中心に開発競争を繰り広げています。こうしたなか、日本語に特化した大規模言語モデルの開発も盛んになってきており、今後の動向が注目されています。

言語モデルの大規模化が性能向上に直結

2020年5月の「GPT-3」リリース以降、言語モデルの大規模化は加速しています。言語モデルの性能を表す一つの指標であるパラメータ数は「GPT-3」で1750億個に上り、前バージョン「GPT-2」の約117倍以上となりました。また2021年6月には、中国政府による資金援助を受けている北京智源人工知能研究院が1兆7500億ものパラメータを持つ「悟道2.0」を発表するなど、言語モデルの大規模化は引き続き効果的だと判断されています。日本語に特化した大規模言語モデルは、LINE社がNAVER社と共同開発を進めている「HyperCLOVA」や、rinna社が開発した「日本語GPT言語モデル」などがありますが、現時点では、先述した英語圏などの言語モデルに比べると規模が小さいと言えます。

表1:代表的な言語モデルとパラメータ数

開発元 モデル名 パラメータ数
OpenAI GPT-3 1750億
Google GShard 6000億
Google Brain Switch Transformer 1兆6000億
北京智源人工知能研究院 悟道2.0 1兆7500億
DeepMind社 Gopher 2800億
rinna社 日本語GPT言語モデル 13億
LINE社、NAVER社 HyperCLOVA 820億(2022年1月時点)

日本語に特化した大規模言語モデルの開発が加速

英語圏の言語モデルで日本語を使用する際、コーパス(言語資源データ)が少なく、さらにノイズが多いため、上手く除去しなければならないという課題があり、またインターネット上のテキストは、ウィキペディアのコピーが多いことから適切な教師データも少ないという状況でした。さらに日本語は、語順の自由度が高いことや日常における必須語が多いこと、様々な表記や同じ音で異なる言葉が存在すること、方言の多様性から同じ意味の単語でも異なる単語の組み合わせになること、また、話し言葉では文中の主語や目的語を省略したりしがちなので、テキストを読む際に文中の単語の省略を考慮しながら意味を解釈していく必要あることなど、独自の難しさがあります。それゆえに、これらの課題を解消しようと日本語に特化した言語モデルの進化が期待されているのです。

こうしたなか、LINE社とNAVER社が日本語に特化した言語モデルを「GPT-3」レベルで開発すると力を注いでいるのが「HyperCLOVA」です。「HyperCLOVA」は、膨大なデータを学習させたモデルにより、少量の言語をインプットすることで文脈にあった言語処理を可能とし、人間との自然でスムーズな対話を実現しています。現在、パラメータ数が67億・130億・390億の3つのモデルがあり、390億モデルでは、会話の滑らかさ、そしてトピックの追従度は98パーセントの性能を誇っています。また、2022年1月時点で820億モデルの開発が進んでおり、さらに2022年中には、2040億以上のモデルが活用されていくということです。これらのモデル構築に使われているコーパス「LINE LM Corpus」は、2019年以降「BERT(言語モデル)」のモデル構築のために作られたコーパスをベースにしており、現在、約100億サンプル・約1.8テラバイト・約5000億トークンに達し、徐々にサイズと品質が向上しているそうです。現在、「HyperCLOVA」以外にも、日本語に特化した大規模言語モデルの開発は活発に行われており、フリーで使用できるモデルの公開からコミュニティ形成が広がりつつあります。

表2:フリーで利用可能な日本語に特化した大規模言語モデル

開発元 日本語モデル名 モデル名 学習データ
rinna社 japanese-gpt-1b GPT Japanese C-4
Japanese CC-100
日本語Wikipedia
rinna社 japanese-gpt2-medium GPT-2(medium) Japanese CC-100
日本語Wikipedia
rinna社 japanese-gpt2-small GPT-2(small) Japanese CC-100
日本語Wikipedia
rinna社 japanese-gpt2-xsmall GPT-2(xsmall) Japanese CC-100
日本語Wikipedia
早稲田大学
河原研究室
早大GPT-2 GPT-2(small) Japanese CC-100
日本語Wikipedia
京都大学
黒橋研究室
日本語BART BART(base/large) 日本語Wikipedia
(約1800万文)
Megagon Labs 日本語T5 T5(base) mc4データセット内の日本語
wiki40bデータセット内の日本語

新聞記事本文から高精度な「見出し」を自動生成

自然言語処理を活用したAIサービスのビジネス適用が様々な業界で進むなか、NTTデータ先端技術は河北新報社と、新聞記事の「本文」を読み込ませることで自動的に「見出し」を生成させる実証実験を行っています。これには、「GPT-3」と同様のテキスト生成を得意とする言語モデル「日本語版MASS」が活用されており、過去の新聞記事6万件を学習していることから、生成された見出しは日本語として自然で、人間が書いたものと見分けがつかないぐらい高精度です。

例1

【本文】
三陸沖を震源とするマグニチュード9.0の地震が発生し、沿岸部に10メートル以上の大津波警報が発令されたとの想定。午前9時すぎ、市内約140カ所の防災無線から「大至急避難せよ」と命令口調のアナウンスが流れると、住民らは近くの高台を目指した。イオン気仙沼店では地震発生を伝える店内放送が流れると、店員が買い物客らに揺れに備えてしゃがみ込むよう指示。約120人が、高台の県気仙沼合同庁舎に列をつくって避難した。近くに住む主婦斉藤紀美江さん(38)は長女(10)と長男(5)と一緒に駆け上がった。「3人で避難訓練するのは初めて。大人になると訓練に参加する機会が少ないので、貴重な体験になった」と語った。同市下八瀬の五右衛門ケ原運動場仮設住宅(170世帯)では約70人が火災訓練に臨みバケツリレーで初期消火を体験した。自治会副会長の吉田澄子さん(64)は「高齢者が多いので、サポート体制の確立が課題と感じた」と述べた。震災で孤立した離島・大島でヘリコプターを使ってけが人を搬送したり、気仙沼湾内の漂流者を救助したりする訓練もあった。菅原茂市長は「堤防が崩れていることもあり、危険度は震災前より増している。今回の訓練を検証し、来年度に改定する地域防災計画に反映させたい」と話した。

【見出し】いのちと地域を守る。震災後初、3100人が防災訓練。気仙沼

例2

【本文】
石巻高や石巻好文館高など8校の高校生が石巻市役所1階で運営する「いしのまきカフェ」が、地域の食材を生かした新メニュー開発を進めている。3月から提供している「いしのまきカレー」は、大手食品メーカーが商品化する見通しとなった。カレーは石巻産のムール貝でだしを取り、地元の水産加工会社が製造したアナゴのつみれを具材に取り入れた。開発のきっかけは1月、自分たちの夢を発表し趣旨に賛同した企業から支援を受けられるイベントに、カフェの高校生が参加。海の幸を使ったカレーを作り、多くの人に食べてもらうためレトルト化したいと訴え、ハウス食品(東京)の支援をつかんだ。

【見出し】石巻の食材、カレーに変身。「いしのまきカフェ」が新メニュー。大手メーカーが商品化へ

またNTTデータ先端技術では、ナレッジマネジメントの分野でも自然言語処理の活用に取り組んでいます。社内情報共有サイトにアップロードされている資料の検索性向上や内容理解の効率化を目的に、アップロードされた資料の内容を「日本語版MASS」が認識して3行に要約する実験を行い、実用的な要約品質が得られることを確認しました。

NTTデータ先端技術は、バックオフィス業務の自動化・効率化に向けた自然言語処理ソリューション「INTELLILINKバックオフィスNLP」を提供しています。「INTELLILINKバックオフィスNLP」は、バックオフィス業務に必要となる文書分類・知識読解・自動要約など様々な言語理解が可能な各種AI機能を具備し、必要に応じた機能のみを組み合わせて活用できることで、コストを抑えながら業務への迅速なAI適用を実現します。

参考情報

ソリューション:INTELLILINK バックオフィスNLP
https://www.intellilink.co.jp/business/software/backofficenlp.aspx

コラム:世界で開発が進む大規模言語モデルとは(前編)
https://www.intellilink.co.jp/column/ai/2022/070800.aspx

コラム:自然言語処理モデル「GPT-3」の紹介
https://www.intellilink.co.jp/column/ai/2021/031700.aspx

本件に関するお問い合わせ先

NTTデータ先端技術株式会社

ソフトウェアソリューション事業本部
デジタルソリューション事業部 AIソリューション担当
E-Mail:aid-sales@intellilink.co.jp