中文情感分析 (Sentiment Analysis) 的难点在哪？现在做得比较好的有哪几家？

cstghitpku · 2018-10-3 21:36:25

　　目前国内公司的话，中文情感分析做的最好的肯定是百度了。
　　我认为的文本情感分析包括如下几个方面：情感极性分析（情感分类、情感倾向性分析）、情感标签抽取（属性+评价词：待机时间很长、特殊标签：特别水润）、观点挖掘、观点聚类、评论主体识别、意图识别（需求识别）、评论摘要的生成、主观分析等。
　　个人认为情感分析目前的难题包括：１.反讽问题，比如“你牛逼你上啊”；２.领域相关的问题，“我的电脑散热声音很大”、“我家洗衣机声音很大”这些很可能是差评，而“我家音响声音很大”很可能就是好评；3.网络流行语也会影响情感分析，比如“给力”、“不明觉厉”、“累觉不爱”、“细思极恐”等，这些词利用传统的分词一般都会被切开，而且会影响词性标注，如果想避免只能加入人工干预，修改分词的粒度和词性标注的结果；4.文本比较短，省略较严重，导致出现歧义或指代错误等，比如“咬死猎人的狗”。
　　鉴于目前这些难题，单纯用统计方法很难达到比较好的效果，一般都是规则+统计。比如评论主体的识别这个任务，可以用基于CRF、基于规则、基于entity_link三种方式来召回候选集，然后再用一定的策略来排序。基于CRF的泛化能力强，基于entity_link的质量较高，基于规则的话能增加召回率。情感倾向性分析因为有很多领域问题，一般基于规则的效果更好一点，当然融合规则和统计的话效果更好，一般可以用PMI+一些优化策略达到比较好的效果。情感标签的抽取因为属性、评价词之前可能距离较远，一般需要句法依存分析，这个是利器，效果很显著。观点挖掘一般需要融合规则和统计，一般用规则挖取种子，然后再用规则+统计的去挖掘（统计的目的是泛化能力好，规则的话是过滤不好的case、提高准确率）。观点聚类的话一般多层次聚类比较好，一步到位的聚类效果比较差。意图识别的话比较复杂，影响因素也比较多，比如同样是“iPhone6s怎么样？”这句话，如果在产品发布前提问很可能是想购买，而在产品开始销售后提问很可能就是关注售后居多，因此在此不做赘述。摘要生成主要是根据评论代表句和评论上下文，自动生成一段关于某实体的描述，至于评论代表句可以通过观点聚类然后选取中心句来完成。主观分析的话，一般设计观点挖掘、主体识别、观点聚类、中心句确定等。

　　总结一下：1、文本情感分析，大多任务目前规则相对统计更胜一筹；2、长距离依赖任务引入句法分析能明显提升效果；2、极性分析相关任务在用PMI时最好对互信息进行归一化，对不均衡问题计算PMI时对正负极性分开计算，这一类任务一般不需要句法分析；4、深层次的情感分析，一般还需要语义角色标注。

陈岳峰 · 2018-10-3 21:36:26

硕士就是研究这个课题的。
其实倾向性分析没有什么难得，就是文本挖掘的范畴，有自己的特点，更依赖语言和语法，但是确实本质上西方语言东方语言差别不大。

什么叫做得好的有哪几家？哪几家公司？哪几家大学？大学的话，只听说过NLP出名，没有人说自己倾向性分析出名，因为，讲真，这个是文本一个小方向。

为什么是小方向呢？因为！
你分析的工具再牛逼，都比不上用户直接打分来的靠谱！！！！！！
你分析的工具再牛逼，都比不上用户直接打分来的靠谱！！！！！！
你分析的工具再牛逼，都比不上用户直接打分来的靠谱！！！！！！

现在的分析还是很初级的，积极，消极，再加个中立，能把这三个分出来就很不错了，还要做到5分制？10分制？请看楼上那堆感叹号。我说”现在“，其实是比较多余的，发展那么多年了，从来都是这么初级的不骗你。

对于描述对象的具体分析，涉及到命名主体识别和倾向性分析两个领域，然而！
你分析的工具再牛逼，都比不上用户贴的标签！！！！！！
你分析的工具再牛逼，都比不上用户贴的标签！！！！！！
你分析的工具再牛逼，都比不上用户贴的标签！！！！！！

以上两点可能是大家很少看到倾向分分析成果出现在各大网站的原因。不过它也不是完全没有应用场景的，呵呵，具体不表

宸风 · 2018-10-3 21:36:27

我只说商业解决方案的难点在哪。

最大的难点是这是一个自定义需求的问题。我们可以看到很多paper提供了各种分类算法解决方案，我们曾经也努力做到过微博正负面九成准确率，后来发现并没什么卵用。有的企业要中性，这好说；有的企业还要中性偏负面，什么鬼。。；有的认为广告宣传是正面，有的觉得是垃圾信息要过滤；有的部分广告认为正面部分认为负面；有的做电商的一点负面听不得，不管后面夸得多好，只要提到负面的都要提取出来；有的情感词或表述在不同领域或不同数据源可能情感极性是不一样的。

每个都做监督训练的话还要不要活了，二分类还好说，多分类的话通常几千条监督标注还是不够准的，就不说电商和微博还得分开做了。

另一个问题是相关性，比如我说[宝马很差，但奔驰很好，外形漂亮，logo大气，blahblah]，可能整条文本整体偏正面，毕竟绝大多数都在赞美奔驰。但如果要监测的企业是宝马，那就不好玩了。因此又转化成一些三元组类抽取、句法分析、词搭配等问题。

其他比较常见的问题还有中文的博大精深导致的，比如反话等，这些就更不能局限于单条文本自身了，有条件的还要考虑上下文，又可能涉及到一些消岐、上下文分类等问题。

因此学术与实际应用还是有距离的。。。除非你就是做通用的或只在某个特定范围做（比如大公司自己特定的需求)，那可能比较幸福

大唐 · 2018-10-3 21:36:28

可以转化为针对特定领域的分类问题。
比如手机，认为确定几个评价对象，例如：外观、待机时间、屏幕等等。
1. 判断主客观
2. 判断属于哪个评价对象
3. 判断极性（消极还是积极）
4. 针对每个评价对象，分别人工总结消极和积极的描述语句。

比如：“这款手机的屏幕很大”
可以输出：“屏幕给力”

“手机屏幕有点小”
输出：“屏幕一般”

语忆情感研究所 · 2018-10-3 21:36:29

难点在于多维情绪解析。
目前在中文环境下的文本理解技术，主要可以做到判断文本的情感极性（积极/消极）。然而这只是文本情绪理解领域内的第一步，技术完善性很低。只有极少数企业能做到基于中文文本的多维情绪能力。这里拿我们举个栗子~ 语忆科技是由一位哥伦比亚大学人工智能硕士所创建的，我们专注于中文文本的多维情感解析技术，能对12种细节情绪（如兴奋、喜悦、悲伤、愤怒等）作深度解析，并同时能够对长文本中的具体关键词（如长篇小说中的某个人物）进行情绪判断，实现了从第一步到第三步的跨越。

如上图所示，目前最新的情感解析引擎可以通过某一句语句，如“今天是个好日子，心情不错” 先进行常规的二维正负极判断——情感极性值。然而还提供了情感浓度判断，告诉你其感情激烈程度。接下来是最核心的多维细节情绪提炼，如上图所示。
下面再举几个栗子：

从上图可以看到，最新的情感解析引擎不仅可以提取关键词（观点）还可以对关键词进行情绪解析。如“我对套餐挺满意，就是价格有些贵”这句话，对“套餐”和“价格”两个关键词分别求取的情感值是不同的。
然而最终有一个问题是逃不掉的，那边是准确率。这里可以提一下，语忆科技所提供的的情绪解析引擎经过某985/211大学认证，准确率高达90%
任何细节问题欢迎联系我，也可以访问我们的官网 http://yuyidata.com ~ 我们鼓励任何形式的沟通

恒家地产 · 2018-10-3 21:36:31

我对这个题目其实很感兴趣，可惜我没有学过专业知识。
我肤浅的思考，其中一个难点是不是中文的语法不严密，省略和指代不明的情况比较多。

袁俊 · 2018-10-3 21:36:32

难得很呢

匿名用户 · 2018-10-3 21:36:33

提示: 作者被禁止或删除内容自动屏蔽

中文情感分析 (Sentiment Analysis) 的难点在哪？现在做得比较好的有哪几家？

8 个回复