跟着Web 2.0的兴起和社会媒体的赶紧发展, 情感分析(亦称主张挖掘)已成为天然讲话处理斟酌的一个热门, 并在连年得到快速发展, 各式情感分析系统层见错出。由于机器学习样貌性能的不断普及, 使得情感分类简略得到效率较好的基线系统, 机器学习框架简略从登科的特征中学习不同类别的指向信息, 其参数、特搜集和权重的详情对分类性能起决定性作用。因此, 本文将特征的聘用和示意手脚重心探索的内容。跟着基于神经收罗的讲话模子的发展, 基于词袋(bag-of-words)的模子缓缓受到摈弃, 神经收罗模子不再仅仅对词语的排列而更多地磨真金不怕火了词序臆测, 在大范畴的无监督老师下时时能得到更多的语义信息, 因此在抽取、语音识别、翻译、校平等责任中阐述了上风。同期, 很厚情感分析责任已将词语、段落的向量示意手脚特征权重应用于分类框架[1-4], 但通过对比发现, 这类样貌在情感分类问题的贬责上依然有很大的校正空间。天然N-grams讲话模子斟酌了词语的窗口内高下文, 但很少畸形据简略知足多窗口的高下文短语概率狡计自慰 白虎, N-grams存在数据稀少和高维度的端正, 关于词语间的语义距离的权衡依然拖沓。与N-grams相对的递归神经收罗(recurrent neural networks, RNNs)讲话模子[2], 其里面结构简略更好地进行平滑预测, 从而放宽了高下文的窗口端正, 在好多应用中优于传统的N-grams。因此, 咱们欺诈RNNs手脚本文的一组基线样貌。可是, 在新样貌不断显现的今天, 词袋模子仍然存在上风, 某些语料数据在传统的朴素贝叶斯(Naïve Bayes, NB)、复旧向量机(Support Vector Machine, SVM)分类框架下, 连接优化的特征、权重集, 依然简略取得更好的分类收尾[5]。
本文从优化特征及权重的角度动身, 在仍是取得很好效率的NB-SVM基础上, 进一步探索更佳的SVM应用样貌。咱们针对家具辩论语料, 应用递归神经收罗讲话模子[2](recurrent neural network based language model, RNNLM), 通过贝叶斯法规判定正负极性, 应用Paragraph Embedding生成的句子向量手脚特征, 通过SVM分类器判定极性[3]。应用NB-SVM[5]连接N-grams特征判定极性手脚本文的基线样貌。受到情感抒发外沿拖沓性的启发, 咱们尝试用拖沓王人集表面挖掘词语的正负情感间的微小永别, 连接拖沓推理的词汇拖沓王人集的情感附庸度详情样貌, 将正负情感极性附庸度灵验会通手脚特征示意样貌, 提倡基于词语情感附庸度特征的分类框架, 并完成与上述各式分类样貌的比对, 实践收尾证明了本文提倡的分类样貌关于情感极性分类的灵验性。
1 臆测斟酌情感分析问题常常分为两大贬责清亮, 分辨是基于辞书的情感分类样貌[6-7]和基于语料库的情感分类样貌[5, 8-9]。由于通用辞书关于各种型、领域的文本隐敝度不及, 基于辞书的样貌的遵循缓缓弱化, 而基于对语料库中信息进行统计的机器学习样貌越来越受到深爱。Yang等[9]将句子级情感分类看作念序列标注问题, 将多情感标签的句子手脚输入, 通过条目当场场和后序正规化(posterior regul-arization)来学习参数, 欺诈高下文短句的语境和评价对象, 对不含多情感词语的短句进行情感倾向预测, 对各种特征进行整合, 包括辞书模板、逶迤贯串、主张共指等。跟着情感分析斟酌的不断深远以及基于讲话模子的新式语义示意样貌[2, 10]的出现, 各式基于神经收罗模子的向量示意样貌[10-13]也应用到情感分析领域。由于这些基于神经收罗的讲话模子简略在无监督的条目下挖掘一定的语义信息, 这些向量示意的获取也成为面前的斟酌热门。Le等[3]通过词语的向量抒发预测高下文的词向量, 将句子向量看作念一个特殊的主题词向量, 应用当场梯度下落老师词语语义向量示意, 用这些词向量进一步推断句子向量, 将得到的向量示意手脚复旧向量机分类器的特征完成句子情感分类。Bespalov等[13]通过浅层语义分析得到词的向量示意, 进一步将文本示意为N-grams特征向量对应的线性权重向量用于情感分析。Tang等[14]在大范畴微博语料库中, 以微博颜料记号手脚弱情感标签, 通过3种神经收罗模子有监督的老师, 得到面向情感语义的词向量示意, 将词向量示意手脚特征放入SVM分类器中, 得到可以的效率。Wang等[5]分辨对朴素贝叶斯和SVM这两种常用的分类模子的适用情况进行分析, 提倡应用朴素贝叶斯对数频次比手脚SVM特征权重的分类模子, 通过实考据明这种浅薄的模子关于情感分类任务相等灵验。本文在Wang等[5]责任的基础上, 以臆测表面为依据, 进一步对特征权重优化, 以得到更佳的分类性能。
2 情感分类样貌 2.1 情感词语拖沓王人集正向词语拖沓王人集:设论域X为悉数词语的王人集, 则论域X上的正向情感词语拖沓王人集POS是X到[0,1]的一个映射μPOS: X→[0,1]。关于x∈X, μPOS称为正向词语拖沓王人集POS的附庸度函数, μPOS(x)称为x属于词语拖沓王人集POS的附庸度。
负向词语拖沓王人集:设论域X为悉数词语的王人集, 则论域X上的负向情感词语拖沓王人集NEG是X到[0,1]的一个映射μNEG: X→[0,1]。关于x∈X, μNEG称为负向词语拖沓王人集NEG的附庸度函数, μNEG(x)称为x属于词语拖沓王人集NEG的附庸度。
由上述界说可知, 这些附庸度函数的详情是拖沓王人集表面能否灵验干与应用的关键。
2.2 情感分类的TF-IDF 2.2.1 情感词语频率TF界说f(i)∈R|V|是老师样例i的特征的频数, 即f(i)代表特征Vj在样例i中出现的次数。关于悉数的老师样例, 可以界说正负两类特征频数向量如:
$ {\rm{T}}{{\rm{F}}_{{\rm{POS}}}} = \alpha + \sum\nolimits_{i:{y^{(i)}} = 1} {{f^{(i)}}}, $ (1) $ {\rm{T}}{{\rm{F}}_{{\rm{NEG}}}} = \alpha + \sum\nolimits_{i:{y^{(i)}} =-1} {{f^{(i)}}} 。 $ (2)其中α是为了数据平滑建设的参数。
凭证上头得到特征频数向量, 对TFPOS和TFNEG分辨除以其本身向量的频数总数进行归一化处理, 进一步狡计其对数比, 如式(3)所示:
$r = {\rm{log}}\left( {\frac{{{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}}}{{{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}}}} \right)。$ (3) 学生萝莉2.2.2 情感词语的逆文档频率IDFNB-SVM是将文档词频信息的归一化对数比手脚特征权重, 其样貌如式(3)所示。受到基于拖沓推理的词语附庸度构建样貌[15]的启发, 咱们通过分析合计, 在归一化频数的基础上, 会通特征对应各个类别的逆文档频率(IDF)信息, 简略使特征具有更好的类别指向性, 从而松开在各种极性的情感句中大批出现的无关特征对分类性能的影响, 可以手脚词语的拖沓情感极性附庸度的一种示意样貌。因此, 为词语狡计对应的正负两类的IDFPOS和IDFNEG, 如式(4)和(5)所示:
$ {\rm{ID}}{{\rm{F}}^i}_{{\rm{POS}}} = \log \left( {\frac{{{s_{{\rm{pos}}}} + {s_{{\rm{neg}}}}}}{{{\rm{Coun}}{{\rm{t}}^i}_{{\rm{pos}}}}}} \right), $ (4) $ {\rm{ID}}{{\rm{F}}^i}_{{\rm{NEG}}} = \log \left( {\frac{{{s_{{\rm{pos}}}} + {s_{{\rm{neg}}}}}}{{{\rm{Coun}}{{\rm{t}}^i}_{{\rm{neg}}}}}} \right), $ (5)其中, Countipos示意含有特征i且极性为正向的样例的数目, 反之为负向, 狡计时一样使用加1平滑。Spos和Sneg分辨示意老师数据中正向极性样例和负向极性样例的数目。
2.3 词语情感附庸度常见的附庸度函数详情样貌包括拖沓统计法、例证法、各人教化法等。为了幸免在聘用时受到主不雅因素的过多影响, 本文吸收拖沓统计法狡计每个词语的正、负情感附庸度。拖沓统计法是通过n次叠加孤苦统计实践来详情某个特征词对正、负情感词语拖沓王人集的附庸度, 其样貌上与概率统计法比较近似, 但二者分辨属于不同的数学模子。
咱们以TF-IDF示意法为原型自慰 白虎, 通过对频数向量的归一化, 均衡词频对极性类别的影响。归一化向量对应的与相易极性的IDF的积作念为每个特征关于正负情感极性的最终附庸度, 正负情感附庸度狡计如式(6)和(7)所示:
$ {M_{{\rm{POS}}}} = \left( {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}} \right){\rm{ID}}{{\rm{F}}_{{\rm{POS}}}}, $ (6) ${M_{{\rm{NEG}}}} = \left( {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}} \right){\rm{ID}}{{\rm{F}}_{{\rm{NEG}}}}。$ (7) 2.4 词语情感附庸度特征示意2.3节界说了基于TF-IDF的词语情感附庸度函数, 简略给每个特征详情它附庸于两个情感极性拖沓王人集的进程。为了量化正负情感附庸度大小对特征的情感指向的作用, 咱们将两类附庸度函数值进行会通, 把正负情感附庸度的对数比手脚特征权重值, 特征i的权重狡计样貌如式(8)所示:
${r_i} = {\rm{log}}\left( {\frac{{\left( {{\rm{TF}}_{_{{\rm{POS}}}}^i/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{POS}}}}} \right\|}_1}} \right){\rm{IDF}}_{_{{\rm{POS}}}}^i}}{{\left( {{\rm{TF}}_{{\rm{NEG}}}^i/{{\left\| {{\rm{T}}{{\rm{F}}_{{\rm{NEG}}}}} \right\|}_1}} \right){\rm{IDF}}_{{\rm{NEG}}}^i}}} \right)。$ (8) 2.5 复旧向量机SVM复旧向量机的基甘愿趣是通过对有类记号的老师数据构造相应的模子, 继而应用模子通过测试数据中的属性特征来预测其对应的类记号。老师数据样貌是成对的样例和标签(xi, yi), i=1, … r, 其中xi∈Rn, y∈{-1, +1}。为了贬责某些样本点线性不成分, 引入大意变量ξi≥0, 改革敛迹条目为yi(w· xi+b)≥1-ξi, 地点函数由原本的 $\frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2}$ 变为
$ \mathop {\min }\limits_w \frac{1}{2}{w^{\rm{T}}}w + C\sum\limits_{i = 1}^l {\xi (w;{x_{i, }}{y_i})}, $ (9)其中, C > 0是刑事职守悉数, 它决定了关于误分类的刑事职守的大小, 一般凭证骨子问题详情。由于Linear①是应答大范畴老师任务的快捷灵验的SVM分类器, 且Linear简略复旧L2-regularized逻辑追念(LR)和L2-loss, L1-loss线性复旧向量机, 因此聘用Linear手脚本文的SVM器具, 可选老师参数s为0, 即应用L2正规化逻辑追念, 对应的式(9)中 $\xi \;{\rm{ = log}}(1 + {{\rm{e}}^{ - {y_i}{w^{\rm{T}}}{x_i}}})$ 。
①~cjlin/liblinear
3 实践收尾与分析为了对上述样貌进行全面的考据, 分辨对汽车领域家具辩论、NLPCC 2014评测②的数据和英文影评IMDB①数据进行情感极性分类。底下给出相应的实践建设、收尾过甚分析。
② _eva.html
① ~amaas/data/sentiment/
3.1 实践建设如表 1所示, 咱们给出三类实践数据的统计信息, 语料分辨是从汽车之家②爬取的汽车领域的多品牌收罗用户评价、NLPCC2014评测中的情感分类任务数据(多领域家具辩论)和IMDB (大范畴英文公开影评)。其中IMDB数据共有影评10万句, 使用样貌与Le等[3]相易, 包含有标注的25000条老师语句、25000条测试语句, 其余5万句是无标注的语句, 仅在无监督地老师词向量时使用, 标注的语句分为正向极性、负向极性两类标签。实践的评测盘算为准确率(accuracy, Acc)、精准率(Precision, P)、调回率(Recall, R)和F-测度(F)。
②
为了进一步考据基于情感附庸度的特征示意的灵验性, 本文还斟酌用以下4种样貌手脚实践的基线样貌。
1) RNNLM + Na veBayes: Mikolov等[2]提倡的基于递归神经收罗的讲话模子(RNNLM), 在语音识别实践的收尾中考据了RNNLM彰着优于N-gram讲话模子。此处RNNLM基于浅薄的Elman神经收罗[16], 它是一个包含输入层、避讳气象层和输出层的神经收罗, 简略允许应用更大窗口的高下文来完成对序列中其他词的预测, 在老师时能作念到更好的数据平滑。但在骨子老师中, 高下文的窗口大小还会受梯度下落效率的端正。本文欺诈RNN讲话模子, 借助贝叶斯法规狡计每个测试样例属于正负极性类别的概率, 从而完身分类。本文RNNLM臆测实践应用RNNLM Toolkit③完成, 具体老师参数设定为-hidden (50), -direct-order (3), -direct (200), -class (100), -debug (2), -bptt (4), -bptt-block (10)。
③ ~imikolov/rnnlm/
2) Paragraph Vector + SVM: Le等[3]提倡的无监督的对句子、段落或文本预测得到定长的向量示意, 可以手脚特征用于有监督的分类框架。具体地, 将句子向量看作念一个特殊的主题词向量, 应用当场梯度下落老师词语语义向量示意, 再用这些词向量进一步推断句子向量示意, 将得到的向量示意手脚复旧向量机分类器的特征完成句子情感分类。其中, 句子向量合成的臆测实践借助word2vec④完成。在老师句子向量阶段, 咱们聘用的讲话模子为Skip-Gram, 向量维度设定了不同的大小(100, 200和300), 老师的窗口大小设定为10, 同期使用HS和NEG样貌, 其他参数为默许值。
④ https://code.google.com/p/word2vec/
3) Bool + SVM:最传统的布尔权重复旧向量机应用, 一样手脚本文的基线系统实践, 分辨磨真金不怕火不同特搜荟萃合布尔权重的分类效率。
4) NB-SVM:由Wang等[5]提倡的线性分类器, 是由归一化特征频数的对数比手脚特征权重的、基于复旧向量机的分类框架。
为了全濒临比特征与特征权重的连接对分类效率的影响, 聘用在臆测斟酌中常用且灵验的类别指向信息[3, 5]手脚本文的特搜集: 1)基于N-grams的特搜集, 包含一元语法词组(uni-gram)、二元语法词组(bigram)和三元语法词组(trigram); 2)基于词性信息的特搜集, 包括名词、动词、形容词、代词、数词、量词等实词。由于辩论副词和一些进程副词亦然对情感抒发有指向作用的词汇, 本文将副词特征也加入实词特征中。
3.2 实践收尾与分析 3.2.1 汽车辩论语料情感极性分类收尾针对汽车家具辩论建设的实践过甚收尾如表 2所示, 在Paragraph Vector臆测实践中, 鉴于对生成的语义向量示意准确性的斟酌, 在无监督的向量老师阶段, 咱们在老师语料中加入26729句爬取得到的收罗汽车辩论手脚配景语料, 匡助得到更为灵验的embedding向量示意。在生成句子向量示意时, 分辨磨真金不怕火了不同维度大小对收尾的影响, 表 2第一列括号内的数字示意生成的向量的维数。本文提倡的将词语情感附庸度对数比手脚特征权重的样貌, 在实践收尾中以Fuzzy + SVM手脚记号。
从表 2可以看出, 在特征聘用方面, 常常三元语法特征优于二元语法特征, 二元语法特征优于一元语法特征, 但在SVM连接布尔权重和应用NB-SVM时却不适宜咱们的表面推断。分析其原因为语料范畴较小, 数据稀少形成收尾的不踏实性; 另外, 浅薄的布尔权重使得大部分三元特征的权重为1, 无法很好地权衡这些多词组特征的情感指向比重。在句子向量(Paragraph vector)和情感附庸度对数比特征的SVM (Fuzzy + SVM)实践收尾中, 特征不同期呈现的分类性能都适宜通例的表面推断, 在一定进程证明三元语法特征较二元、一元特征具有更好的舍弃性, 简略更准确地获取句中的词序臆测。同期, 从准确率方面来看, 天然实词特征较一元的词语特征更为灵验, 但依然不如二元、三元短语特征, 证明高阶的短语特征使组合的词语具有更准确的舍弃性, 更全面涵盖句子情感信息。在分类效率方面, 可以看出原有样貌中的NB-SVM具有较好的分类性能, 跟着特征的优化, 简略得到更佳的收尾, 同期其收尾优于基于RNN讲话模子和句子向量合成的样貌, 说翌日然语义向量信息的获取简略促进抽取、相似度权衡等责任的发展, 但何如从语义信息中有针对性的挖掘情感信息, 仍有待斟酌。本文提倡的fuzzy+SVM在同等特搜集作用时, 取得优于NB-SVM的分类效率, 进一步证明在详情特征权重时, 在特征频数归一化的基础上, 会通IDF信息后, 去除了在正负极性中都大批出现的特征对附庸度的影响, 使得到的特征情感附庸度能更全面描画各个特征关于类别的指向作用。
3.2.2 NLPCC2014评测数据情感极性分类收尾为了进一步考据样貌的性能, 使用NLPCC评测的公开数据进行实践, 本轮实践主要磨真金不怕火性能较好且比较接近的三类基于复旧向量机的样貌。由于数据范畴的端正会在很猛进程上影响无监督老师的历程, 本轮实践莫得吸收老师句子向量手脚特征, 表 3列出一样使用NLPCC数据的Wang等[17]的收尾用于比对。
从表 3可以看出: 1)同类样貌不同特征相对比, 呈现出三元语法特征优于二元语法特征, 而二元语法特征也好于一元语法特征的景色, 这齐全适宜高阶语法模子简略更准确地舍弃高下文的特质, 同期响应出语料范畴较小(如汽车辩论)时, 对表面的考据可能存在偏差, 容易对斟酌样貌的走向形成诞妄教导; 2)在NLPCC数据集上的实践收尾标明, 基于情感附庸度对数比特征的系统在悉数评测盘算中均取得最佳性能。表 3中, Wang等[17]吸收的是通过深度学习得到的词语向量特征示意连接逻辑追念分类器的样貌。NLPCC2014评测数据集上的对比实践收尾标明了本文提倡的基于附庸度的特征示意样貌的灵验性。
3.2.3 IMDB情感极性分类收尾除中语家具辩论和NLPCC2014评测数据集除外, 咱们还聘用了常用于情感分类任务的英文语料IMDB数据, 而且应用各种样貌的最佳参数进行情感分类, 包含代表性最强的trigram特征以及语义示意效率最佳的300维向量特征。在完成句子向量特征的实践Paragraph Vector时, 咱们在无监督老师阶段莫得借助其他数据, 而是使用完好的IMDB数据(共100000句)老师得到对应的句子向量。实践收尾如表 4所示。
从表 4可以看出, 在IMDB数据集上的实践收尾中, 本文样貌得到的轮廓准确率和F值都弘扬出最大上风, 精准率和调回率均处于较好位置, 证明本文详情的情感附庸度是对词语极性和强度的灵验度量。Wang等[5]针对IMDB数据得到91.22%的准确率, 比较之下, 本文提倡的基于词语情感附庸度的特征值示意样貌更具有骨子兴味兴味。由于本文样貌齐全是基于语料库的统计样貌, 分歧讲话种类、领域作念任何舍弃, 上述收尾中的英文数据实践就形成了本文样貌灵验性的完好印证。
4 论断与预计凭证情感极性分类斟酌近况, 在现存思情的基础上, 本文以TF-IDF为原型, 会通拖沓推理的附庸度详情样貌, 进一步为词语设定了情感极性附庸度, 从而得到基于词语情感附庸度的特征值示意样貌。分辨对汽车领域辩论、NLPCC评测数据和IMDB数据集进行实践, 收尾夸耀, 通过优化特征和权重, 在传统的机器学习分类框架下依然简略取得很好的分类性能。
天然本文实践取得了预期收尾, 证明了会通的情感附庸度特征值关于情感分类问题的灵验性, 但没能在全体框架下达周全面立异, 仅取得小幅度的提高。后续责任应该全面深化对问题的斟酌, 扩大数据范畴自慰 白虎, 并挖掘更灵验的有指向性的特征。