论文解读: 2018-Detection of spam reviews: a sentiment analysis approach
Title: Detection of spam reviews: a sentiment analysis approach
URL: link.springer.com/ar...
产品和服务的在线评论对于制造商和消费者都发挥着重要作用,因为它们拥有大量的用户意见和体验。正面评价比例高的产品会吸引更多的顾客,从而增加产品业务。与此同时,任何产品收到的负面评论比例较高,都会损害产品的声誉并导致财务损失 。一些冒牌货脚注1将此视为通过发布垃圾评论来误导系统或客户的机会,以提升某些不受欢迎的产品或企业的排名,或者降低某些受欢迎的优质产品或企业的排名。为了实现这一目标,他们任命了一些个人(也称为垃圾邮件发送者),不仅为自己的产品创建综合正面评论,还为其竞争产品创建具有破坏性的负面评论。客户经常会选择具有更积极评价的产品,因此会因这些不真实的评论而受到误导。这会影响产品以及电子商务网站的声誉,因为客户可能会避免从网站购买产品。
1. Motivation
由于产品评论的外观相同,人们很难将评论分类为垃圾文本或非垃圾文本,故论文研究对评论进行自动标注的问题。
2. Contribution
-
创建垃圾评论数据集,训练机器学习模型,将其他未标记数据分类为垃圾文本和非垃圾文本
-
使用两种过采样技术(SMOTE, ADASYN)缓解数据集的不平衡
-
采用多种机器学习算法来设计垃圾评论检测模型
3. Method
论文提出的方法主要包括五个阶段,分别是数据收集、数据预处理、特征提取、数据标注、分类。
3.1 数据收集
使用python从亚马逊收集 39,382 条在线产品评论,来自手机、耳机、移动电源等电子产品类别。数据收集时间为 2017 年 6 月至 2017 年 7 月。