当前位置：首页 > ds >正文

Datawhale AI夏令营大模型 task2.1

ds 2025/7/15 14:07:10

Datawhale AI夏令营第一期：带货视频评论用户洞察挑战赛笔记

本次「基于带货视频评论的用户洞察挑战赛」的核心是将电商直播带货的碎片化用户评论转化为可量化的商业洞察，最终服务于品牌方的三大业务需求：

项目强调“理解业务逻辑的重要性”——避免AI模型沦为“准确但没用”的工具，需从商业价值出发设计技术方案（如“吐槽”可能隐藏真实需求，需精准提取而非简单分类）。

电商直播的爆发式增长积累了海量视频及评论数据，这些数据是消费者体验的直接反馈。通过挖掘视频内容与评论的关联，可构建消费者偏好画像，为选品、网红合作提供数据支撑。

输入：两类脱敏数据
- origin_videos_data.csv：85条带货视频数据（需识别对应商品）
- origin_comments_data.csv：6477条用户评论文本数据（需情感分析与聚类）
- 数据包含少量人工标注的训练集（商品识别、情感分析）和未标注的测试集。
输出：提交submit.zip压缩包，内含submit文件夹，包含两个CSV文件：
- submit_videos.csv：需包含video_id（视频标识）和product_name（识别的商品名）
- submit_comments.csv：需包含评论标识、情感分类结果、聚类主题词等字段（具体字段见下表）

字段类别	核心要求
情感分类结果	`sentiment_category`（1-正面/2-负面/3-混合/4-中性/5-不相关）
场景/疑问/建议标识	`user_scenario`/`user_question`/`user_suggestion`（0-否/1-是）
聚类主题词	按正面/负面/场景/疑问/建议分别聚类的主题词（如`positive_cluster_theme`）

项目包含三个递进式技术任务，前序任务结果直接影响后续任务有效性，需按优先级处理：

Baseline采用“分阶段处理”思路，针对三个任务分别设计简单高效的技术方案，核心逻辑如下：

Baseline方案虽基础，但可从以下角度提升效果：

聚类参数优化：
聚类数量（n_clusters）需在5-8之间迭代测试，选择轮廓系数最高的数值（轮廓系数越高，聚类效果越优），且不同聚类类型（正面/负面/场景等）可单独调整。
提升前序任务准确性：
- 商品识别和情感分析是核心输入，需优先优化（如使用更优的文本表示方法替代TF-IDF）。
- 错误的商品识别会导致后续分析“张冠李戴”；错误的情感分类会向聚类输入噪音数据。
引入语义向量表示：
用大模型嵌入（如BGE-m3）替代TF-IDF，捕捉文本语义信息（如区分“苹果手机”和“吃苹果”中的“苹果”），提升分类和聚类的精度。
大模型应用：
利用大模型的语义理解能力，直接进行商品识别、情感分析或主题词提炼（尤其适合小样本场景，弥补训练集不足的问题）。

文本编码（Text Encoding）：将非结构化文本转化为结构化向量的过程（如TF-IDF、大模型Embedding），是后续任务的基础。
文本分类（Text Classification）：有监督学习，基于标注数据将文本分配到预定义类别（如情感倾向、是否为用户建议）。
文本聚类（Text Clustering）：无监督学习，基于文本相似性自动分组，使同一组内文本相似、不同组文本差异大。
大模型在项目中的作用：通过生成高质量语义向量（Embedding）提升文本表示能力，或直接通过提示词（Prompt）完成分类、聚类等任务，尤其适合小样本场景。