言語処理

機械翻訳

同時機械翻訳の遅延と精度の関係

研究のポイント

  • 語順が似ている日本語と韓国語の間の高速な同時機械翻訳
  • データから同時翻訳において待つタイミングを自動学習するBS-SiMTを使用
  • 語順が似ていても精度を保つためにはある程度待つ必要があることを確認
  • 今後の課題: 高速化のための言い換え等訳出戦略の高度化

読み情報を追加で与える日英機械翻訳

研究のポイント

  • 万葉歌碑解説文を対象に大規模言語モデルを用いて機械翻訳
  • 解説文中の人名・地名に頻出する難読語の読み情報を与え機械翻訳を改善
  • 難読語を大規模言語モデルに抽出させ、人手で読み情報を付与
  • 今後の課題: 難読語の読み情報資源の自動作成と拡張

言語解析

日本語固有表現抽出のためのデータ拡張

研究のポイント

  • 文章中のキーワードとなる固有表現(固有名詞や数量等)を見つける
  • 固有表現を同種の別のものに言い換えたデータを自動作成し追加学習
  • 大規模言語モデルを用いて効果的に言い換えデータを作成できる
  • 今後の課題: 文体や文脈を踏まえたデータ拡張の高度化

自然言語処理応用

メンタルヘルス不調者のSNS投稿分析

研究のポイント

  • SNS投稿から精神的不調に関わることばの表現を抽出
  • 大規模言語モデルを用い精神的不調を持つ人に特徴的と思われるキーワードを抽出
  • 大規模なSNS投稿データからの抽出結果を分析
  • 今後の課題: より長い表現の抽出と投稿全体の意味推定
※静岡大学 狩野芳伸先生との共同研究

文章の推敲提案

研究のポイント

  • 大規模言語モデルを用いて人が書く文章の推敲を支援
  • 日本語の学術論文の概要を対象に修正すべき点を大規模言語モデルが提案
  • 3種類のプロンプトと100件弱の論文概要を用いて検証
  • 今後の課題: 学術論文以外の文章を対象にした推敲