nlp2012

0

No comments posted yet

Comments

Slide 1

超語彙パターンに基づく 連辞型響鳴連鎖の 自動発見手法の提案 2012年3月14日 言語処理学会第18回年次大会 於 広島市立大学

Slide 2

まずはお聞きください。 Santa Barbara Corpus of Spoken American English より DARRYL: I've never seen those movies. PAMELA: ... You've never seen Betty Davis movie? (SBC005: 412.30–415.89) DARRYL: Because you wouldn't bicycling? PAMELA: Because I wouldn't go bicycling with my father. (SBC005: 453.34–457.75) NLP18@広島市立大学 2

Slide 3

響鳴 Resonance 散見される話者を跨いだ類似発話の反復 発話間の類似性を活性化させる営み (Du Bois 2001) [質問-応答] のような慣習化された連鎖ではない 響鳴の効能 会話参与者の認知負荷の軽減 (﨑田 2010) 断片化, プランニング, 適切性判断, etc. 対話を通しての文法知識の構築・蓄積に貢献 認知科学的・言語学的に興味深い性質を持つ NLP18@広島市立大学 3

Slide 4

研究の概要 本研究の目的 会話コーパスから響鳴を自動発見する手法を提案 ただし: 言語分析の補助ツールとして 発話から自動獲得された超語彙パターンを利用 I ’ve never seen __ movie, Because I would n’t bicycling, etc. 定義と取得方法は後述 自動発見手法を会話コーパスに適用 Santa Barbara Corpus of Spoken American English を使用 人手で付した「響鳴タグ」との一致度で精度評価 NLP18@広島市立大学 4

Slide 5

対話統語論とダイアグラフ 理論的背景: 対話統語論 (e.g., Du Bois 2001) 発話の連携の関係性から言語の構造を議論する 中心的な分析対象が響鳴 対話統語論の方法 ダイアグラフ diagraph ヨコの配列関係 = 連辞関係をタテの対応関係で明示 NLP18@広島市立大学 5

Slide 6

パターン束モデル 連辞関係をとらえるためのツール 構文解析は会話データには適用しにくい Cf. 発話の「断片性」  より「穏当」な配列パターンを利用 パターン束モデル PLM (e.g., 黒田・長谷部 2009) 分節化された事例 (e.g., 文) からパターンを生成 分節モデル (e.g., 単語分節) 以外の入れ知恵は無し NLP18@広島市立大学 6

Slide 7

パターンとパターン束 I miss you のパターン束とその生成 NLP18@広島市立大学 7 miss you I miss you __ __ you I miss __ I パターン __ you __ miss __ __ __ __ I __ __ __ is-a 関係 変項の縮約 ランク Rank = 定項数

Slide 8

アルゴリズム NLP18@広島市立大学 8 PAMELA: I don't know. (ui) DARRYL: you don‘t know? (uj) 𝑠 𝑢 𝑖 , 𝑢 𝑗 = log 𝑟𝑎𝑛𝑘𝑚𝑎𝑥 log 𝑙 𝑢 𝑖 = log 3 log 4 ≈0.792 >0.5 Syntagmatic Resonance

Slide 9

付則 ( 手順 b' ) A: He is not shy. B: He is shy. NLP18@広島市立大学 9 He is not shy __ is not shy He __ not shy He is __ shy He __ __ is __ __ not __ __ He is not __ __ not shy __ is __ shy __ is not __ He __ not __ He __ shy He is __ __ shy He is shy __ is shy He __ shy He is __ He __ __ is __ __ __ shy 𝑟𝑎𝑛𝑘𝑚𝑎𝑥= 2 3

Slide 10

会話コーパスへの適用 Santa Barbara Corpus of Spoken American English 約25万語規模・対面会話中心に 60 会話を収録 (詳細は論文集 p. 107) NLP18@広島市立大学 10 *SETH: *ENV: *LARR: how are you guy ? *SETH: (..) Excuse me . (..) &=DOG_BARKING_BEGINS . (..) Hey (..) Are you Larry ? *SETH: (..) Are you Larry ? 発話 Utterance 韻律単位 Intonation Unit 話者 Speaker

Slide 11

自動発見の手順 隣接発話対  ターン交代対  韻律単位対 詳細は論文集 p. 107 基本的に 2人による対話のみを選定 (19 / 60 会話) NLP18@広島市立大学 11 *SETH: *LARR: how are you guy ? *SETH: (..) Excuse me . (..) Hey (..) Are you Larry ? *SETH: (..) Are you Larry ? =/= = *ENV: (..) &=DOG_BARKING_BEGINS . =/= PLM PLM PLM PLM

Slide 12

Pythonスクリプトによる自動収集 第二著者による人手タグ付け 全体の流れ NLP18@広島市立大学 12 一致度の評価

Slide 13

結果 概要 4211組の韻律単位対を取得 そこそこの再現率!? 適合率はイマイチ  言語分析の補助ツール = 再現率が重要 以降検出漏れの例 (41例) について考察 NLP18@広島市立大学 13

Slide 14

考察 [1] 「先行発話が長すぎる」パターン (27例) 対処法なし (7例) (12) 1 PAME: (..) I haven’t read the book so I don’t know. 2 DARR: Yeah but I do know (SBC005:230.790–232.290) 後続発話が先行発話に包含されるパターン (13例) (13) 1 KARE: I’m so tired . 2 SCOT: (..) Ti:red . (SBC034:13.158–15.155) 包含される場合はSRSN? (部分的復唱発話 [小磯・伝 2011] ) NLP18@広島市立大学 14

Slide 15

考察 [2] つづき 単語認識 (e.g., <does hurt, hurts>) の問題 (7例) (14) 1 DARR: (..) That [ does hurt ] . 2 REED: [ y- (.) it ] it hurts . (SBC046:538.604–540.530) 簡単な形態素解析を組み合わせる? 上記 2 パターンが解決された場合の再現率  147/168 ≈ 0.875 NLP18@広島市立大学 15

Slide 16

考察[3] (時間があれば) 過剰適応の例 (68) の検討 慣習的な同一形式の反復パターン (数例) (15) 1 JEFF: Oh honey 2 I miss you . 3 JILL: I miss you too . (SBC028: 746.415–751.040) 慣習パターンのリスト作成である程度排除可能 ただし この種の連鎖も周辺的な響鳴連鎖!? NLP18@広島市立大学 16

Slide 17

まとめと課題 本発表では 興味深い性質を持つ連辞型の響鳴連鎖について PLM を応用した自動発見手法を考案し 会話コーパスに適用し精度を評価した 課題 精度向上 人手タグ付の際の基準・定義の精緻化 おまけ: 応用可能性 感情・評価の推定, 教育的応用など NLP18@広島市立大学 17

Slide 18

18 NLP18@広島市立大学 ご清聴有難うございました

URL:
More by this User
Most Viewed
Previous Page Next Page
This user hasn't uploaded any other presenations yet.
Previous Page Next Page