Yi-Hsiang Kao
2 min readJun 3, 2018

--

Hello 你好,在NLP領域我也算是初學者,這些問題並沒有一定的解法,但我盡量提供我的想法:

  1. 有很大的機會是Overfitting。LSTM和GRU是Representation power很強大的Model,也很容易overfitting — — 直接把input data整個背起來。Evaluation要依據task的類型選用不同的metrics,例如Language Model在訓練時可以使用Perplexity來evaluate。範例可以參考https://github.com/spro/practical-pytorch/tree/master/char-rnn-generation
  2. 要先明確定義好Task的流程,如果是給定文章A,生成文章B,那麼你的training data應該要是一堆pair(doc A, doc B),這時就可以嘗試用Seq2seq做訓練。實作上,Seq2seq包含encoder (f) — decoder (g) 兩個可以自行定義的model,f 和 g 可以是任何model:RNN、LSTM、GRU、Char-RNN……不同model的效果要自行實驗,但大部分都是使用GRU或LSTM。
  3. 這個問題目前沒有答案,也是Neural model在NLP的難題之一。Attention機制或許可以幫助model的訓練,但並無法保證句法的正確性;關於文法的modeling,也許可以參考https://arxiv.org/pdf/1503.00075.pdf 嘗試從句法樹切入的方法。

還有任何問題歡迎再提出來一起討論!

--

--

Yi-Hsiang Kao
Yi-Hsiang Kao

Written by Yi-Hsiang Kao

Risk@Uber 沒事多寫字,多寫字沒事

No responses yet