当前位置：首页 > news >正文

藏文情感分析器入门学习实践

news 2025/7/4 17:33:55

🎯 项目目标：

输入一段藏文短句。
自动分析这句话的情感倾向：积极（正面）/消极（负面）/中立。

🔍 技术原理简介

情感分析是什么？

情感分析（Sentiment Analysis）是自然语言处理的一个重要应用，目的是自动识别和提取文本中的情感倾向。

常用的情感分析方法：

基于规则的方法：
使用情感词典，对句子进行简单判断（适合初学）。
基于传统机器学习的方法：
使用分类算法，如支持向量机（SVM），通过特征工程进行分类。
基于深度学习的方法：
使用神经网络模型（如BERT、LSTM），自动学习文本的深层次语义，准确度更高。

我们本次项目使用简单易上手的规则词典方法进行演示，适合初学者理解和操作。

🛠️ 一、项目环境准备

1️⃣ Python安装（已安装可跳过）

推荐安装Python 3.8以上版本。

2️⃣ 安装所需库

在命令行输入：

pip install pybo

📂 二、创建项目文件结构

创建项目文件夹sentiment_analysis，并准备以下文件：

sentiment_analysis/
│
├── sentiment_analyzer.py
├── sentiment_dict.txt
└── test_sentences.txt

📝 三、准备数据与情感词典

1️⃣ 创建藏文情感词典（sentiment_dict.txt）

藏文情感词典示例如下：

# 积极词 Positive（每行：词 空格 正面）
དགའ་པོ་ positive
སྐྱིད་པོ་ positive
བདེ་པོ་ positive# 消极词 Negative（每行：词 空格 负面）
ཁོག་ negative
དཀྲོལ་ negative
སྡུག་པོ་ negative
ངན་པ་ negative

说明：

文件用UTF-8格式保存。
每行一个藏文词汇，后面跟情感标签（positive 或 negative）。

中文释义对应如下：

# 积极词 Positive  
喜欢
快乐 
舒服# 消极词 Negative 
坏的
坏人 
坏的 
歪曲

2️⃣ 创建测试短句（test_sentences.txt）

例如：

ང་དགའ་པོ་ཡོད།
ཁོང་གི་སྐྱིད་པོ་མི་འདུག
དེ་ག་རང་ཡིན།

中文分别为：

我愛快乐。
他不高兴。
就这样。

💻 四、编写情感分析代码（sentiment_analyzer.py）

打开sentiment_analyzer.py，输入以下代码：

from pybo import WordTokenizer# 步骤1：加载情感词典
def load_sentiment_dict(filepath):sentiment_dict = {}with open(filepath, "r", encoding="utf-8") as f:for line in f:line = line.strip()if line and not line.startswith("#"):word, sentiment = line.split()sentiment_dict[word] = sentimentreturn sentiment_dict# 步骤2：分析句子情感
def analyze_sentiment(sentence, sentiment_dict, tokenizer):tokens = tokenizer.tokenize(sentence)print("调试：分词结果 =", [token.text for token in tokens])positive_count = 0negative_count = 0for token in tokens:sentiment = sentiment_dict.get(token.text, "neutral")if sentiment == "positive":positive_count += 1elif sentiment == "negative":negative_count += 1# 判断整体情感if positive_count > negative_count:return "积极 (positive)"elif negative_count > positive_count:return "消极 (negative)"else:return "中立 (neutral)"# 主程序运行
if __name__ == "__main__":tokenizer = WordTokenizer()sentiment_dict = load_sentiment_dict("sentiment_dict.txt")# 读取测试句子with open("test_sentences.txt", "r", encoding="utf-8") as f:sentences = f.readlines()print("藏文情感分析结果：")for sentence in sentences:sentence = sentence.strip()sentiment_result = analyze_sentiment(sentence, sentiment_dict, tokenizer)print(f"句子：{sentence}")print(f"情感倾向：{sentiment_result}\n")

▶️ 五、运行程序，查看结果

在命令行中进入你的项目目录并运行：

python sentiment_analyzer.py

输出示例：

藏文情感分析结果：
调试：分词结果 = ['ང་', 'དགའ་པོ་', 'ཡོད', '།']
句子：ང་དགའ་པོ་ཡོད། #中文：我快乐。
情感倾向：积极 (positive)调试：分词结果 = ['ཁོག་', 'དཀྲོལ་', 'གྱི་', 'ཡོད', '།']
句子：ཁོག་དཀྲོལ་གྱི་ཡོད། #中文：他不高兴。
情感倾向：消极 (negative)调试：分词结果 = ['དེ་ག་', 'རང་', 'ཡིན', '།']
句子：དེ་ག་རང་ཡིན། #中文：就这样。
情感倾向：中立 (neutral)

🧠 原理讲解

情感分析步骤（完整流程）：

数据标注：
人工或半自动对文本数据进行标注情感类别（积极、消极、中立）。
文本特征提取：
对文本进行分词，提取词汇、语法或语义特征。
模型训练与评估：
- 传统机器学习模型（如SVM）：
  - 基于标注数据训练模型，预测情感类别。
- 深度学习模型（如BERT）：
  - 利用预训练模型微调，获得更精准预测能力。

本文采用词典方法，简单直观，适合零基础快速理解并掌握情感分析的概念。

📌 常见问题与解决办法

问题	原因	解决方法
未识别情感	情感词典覆盖不足	扩充情感词典，增加积极和消极词汇
中文乱码或文件读取错误	文件未用UTF-8编码保存	用记事本或其他编辑器重开并以UTF-8格式保存