Bag of words模型
這種假設雖然對自然語言進行了簡化,便於模型化,但是其假定在有些情況下是不合理的,例如在新聞個性化推薦中,採用Bag of words的模型就會出現問題。例如用戶甲對“南京醉酒駕車事故”這個短語很感興趣,採用bag of words忽略了順序和句法,則認為用戶甲對“南京”、“醉酒”、“駕車”和“事故”感興趣,因此可能推薦出和“南京”,“公車”,“事故”相關的新聞,這顯然是不合理的。
解決的方法可以採用SCPCD的方法抽取出整個短語,或者採用高階(2階以上)統計語言模型,例如bigram,trigram來將詞序保留下來,相當於bag of bigram和bag of trigram,這樣能在一定程度上解決這種問題。
簡言之,bag of words模型是否適用需要根據實際情況來確定。對於那些不可以忽視詞序,語法和句法的場合均不能採用bag of words的方法。
