当前位置：首页 > ops >正文

带货视频评论洞察 Baseline 学习笔记 (Datawhale Al夏令营)

ops 2025/7/13 7:48:55

一、项目认识

背景：

电商直播/短视频已积累大量「视频 + 评论」数据，蕴含了消费者的真实反馈。

目标：

通过「商品识别 → 情感分析 → 评论聚类」三步，辅助品牌洞察、网红投放评估。

二、 Baseline 代码流程

1. 读取和预处理

video_data  = pd.read_csv("origin_videos_data.csv")
comments_data = pd.read_csv("origin_comments_data.csv")
video_data["text"] = video_desc + " " + video_tags  # 拼接文本

2. 商品识别

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut, max_features=50),SGDClassifier()
)
pipeline.fit(labeled_text, labeled_product)
video_data["product_name"] = pipeline.predict(video_data["text"])

实现思路： TF-IDF + 线性分类器（SGD）做二分类

简化点：仅用了 50 个特征，无额外的清洗。

3. 意图分类（四个模型）

for col in ["sentiment_category", "user_scenario", "user_question", "user_suggestion"]:pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), SGDClassifier())pipeline.fit(train_text, train_label)comments_data[col] = pipeline.predict(all_text)

4. 评论聚类 & 主题词抽取（5个维度进行执行）

pipeline = make_pipeline(TfidfVectorizer(tokenizer=jieba.lcut), KMeans(n_clusters=2))
pipeline.fit(subset_text)
labels = pipeline.predict(subset_text)
top_words = (" ".join(前 10 重要词))  # 每簇
comments_data[target_theme_col] = [top_words[label] for label in labels]

大赛要求：要求 5 - 8 个簇，目前项目仅用了 n_clusters = 2。

调整策略：将 n_clusters 进行优化调整，让其等于 5-8 之间，进行优化。

5. 结果导出

video_data[["video_id", "product_name"]].to_csv("submit/submit_videos.csv", index=False)
comments_data[导出列].to_csv("submit/submit_comments.csv", index=False)
!zip -r submit.zip submit/

三、技术分析

1. 分词 & 特征

jieba + TfidfVectorizer：适配中英文及 emoji/特殊符号。

2. 商品识别

SGDClassifier：快速迭代、可在线学习。

3. 意图分类

多个 SGDClassifier：训练速度快，支持稀疏特征。

4. 聚类

KMeans：易解释、效率高。

5. 主题词抽取

中心向量前 N 词：简单直观。

四、Baseline 局限 & 提升方向

1. 文本预处理缺失：大小写、URL、表情、停用词均未处理。

2. 模型简单：全部采用线性/常规模型，难以捕捉深层语义。

3. 聚类数量不合规：固定 2 簇，势必影响 100 分聚类子任务。

4. 未利用多语言特性：数据包含中/英/日/韩等多语，分词器不统一。

5. 评价指标未在本地计算：无法提前验证得分。

五、学习收获

1. 端到端管线思维：一个 Notebook 覆盖读取→标注数据利用→预测→聚类→提交文件的完整链路，是参赛 Baseline 的典型范式。

2. 快速原型：Scikit-learn + jieba 几行代码即可跑通 baseline，利于早期验证。

3. 实验可重复：全部步骤在 Notebook 内显式记录，方便 debug / 复现。

4. 评测视角：先满足格式与流程正确，再逐步优化指标 —— 典型竞赛节奏。

5. 改进空间评估：通过阅读代码可迅速定位性能瓶颈，为后续升级指明方向。

http://www.xdnf.cn/news/15182.html

相关文章：

Ntfs!LfsFlushLfcb函数分析之while的循环条件NextLbcb的确定和FirstLbcb-＞LbcbFlags的几种情况

OpenVela之模拟器调试

vite如何生成gzip，并在服务器上如何设置开启

如何在 Windows 10 上安装 RabbitMQ

如何在 Visual Studio Code 中使用 Cursor AI

【嵌入式硬件实例】-555定时器实现倍压电路

C语言：20250712笔记

系统学习Python——并发模型和异步编程：基础实例-[使用线程实现旋转指针]

Ruby如何采集直播数据源地址

tiktok 弹幕逆向分析

后端定时过期方案选型

Linux/Ubuntu安装go

Windows API 介绍及核心函数分类表

MySQL 5.7.29升5.7.42实战：等保三漏洞修复+主从同步避坑指南

一分钟快速了解Apache

【android bluetooth 协议分析 07】【SDP详解 2】【SDP 初始化】

详解缓存淘汰策略：LRU

python数据分析及可视化课程介绍（01）以及统计学的应用、介绍、分类、基本概念及描述性统计

闲庭信步使用图像验证平台加速FPGA的开发：第十一课——图像均值滤波的FPGA实现

闲庭信步使用图像验证平台加速FPGA的开发：第十课——图像gamma矫正的FPGA实现

C++11的整理笔记

【LeetCode 热题 100】25. K 个一组翻转链表——迭代+哨兵

【YOLOv8-obb部署至RK3588】模型训练→转换RKNN→开发板部署

Jenkins+Gitee+Docker容器化部署

super task 事件驱动框架

用AI做带货视频评论分析【Datawhale AI 夏令营】

冒泡排序和快速排序

「Linux命令基础」文本模式系统关闭与重启