Helpfeelでの質問文の半自動生成の取り組み後編

Helpfeelでの質問文の半自動生成の取り組み 後編Kyoto Tech Talk #2での発表資料です


ChatGPT API登場前から研究していた話
	目標: このあたりを共有する
		自然言語の良質な言い換えの難しさ
		非MLエンジニアとしての挑戦過程で得たもの


これまでに試した手法
	古典的なNLP手法いろいろ
		 実践・自然言語処理シリーズ2 形態素解析の理論と実装
		文脈解析- 述語項構造・照応・談話構造の解析

	BERT
		文章を文頭と文末の双方向から学習可能な自然言語処理モデル
		文脈を理解できる

	T5 (Text-to-Text Transfer Transformer)
		
		NLPの研究室を訪問して教えてもらった
		テキスト生成モデル



BERTでの言い換えタスク
	基本的な穴埋め問題
		 BERTによる自然言語処理入門
	類義語を用いた質問文の機械展開
		言い換えたい部分を [MASK] にする
		わずかに文脈を与える

	例
		
		

	課題
		単語レベルでの言い換えしかできない
		文脈情報と言い換え対象の単語を人間が指定する必要がある


T5での言い換えタスク
	https://huggingface.co/sonoisa/t5-base-japanese
		事前学習済みのモデル
		100GBほどの日本語テキストで訓練されている
	転移学習のためのサンプルコード
		https://github.com/sonoisa/t5-japanese が参考になる

	例: Input: 料理に入っているアレルギー物質が知りたい
		
	課題
		期待したほどバリエーションがない
		本質的でない箇所の言い換えが多い
		出力される日本語が安定していない


T5モデルをfine tuning
	テクニカルライターによる既存の言い換えデータを使ってfine tuning
		理想とする入出力のペアを与える
	生成結果の精度が明らかによくなった
		初代のプロトタイプができた
		

	成果例: Before / After
		Input: 商品が壊れていた。返金してほしい。
			 
		Input: フリーローンの繰り上げ返済をしたい
			 

	課題
		業界ごとにfine tuningするの？
		クリエイティビティが足りない


ChatGPT API 登場
	障壁となっていた問題がほぼ解決
		生成される文章の調整と精度保証
			→ プロンプト調整
		題材ごとのファインチューニング
			→ 基盤モデルが優秀なので当面は不要
	さらに、使いやすい！
		→ REST API呼び出しだけでよい
	チャンス到来


もどる
	Helpfeelでの質問文の半自動生成の取り組み
Helpfeelでの質問文の半自動生成の取り組み 後編

関連ページ

Helpfeelでの質問文の半自動生成の取り組み後編