当前位置：首页 > web >正文

计算机大数据毕业设计选题：基于Spark+hadoop的全球香水市场趋势分析系统

web 2025/9/4 9:32:36

精彩专栏推荐订阅：在下方主页👇🏻👇🏻👇🏻👇🏻

💖🔥作者主页：计算机毕设木哥🔥 💖

文章目录

一、项目介绍
二、视频展示
三、开发环境
四、系统展示
五、代码展示
六、项目文档展示
七、项目总结
<font color=#fe2c24 >大家可以帮忙点赞、收藏、关注、评论啦 👇🏻

一、项目介绍

基于Spark的全球香水市场趋势分析系统是一个运用大数据技术深度挖掘香水行业市场规律的综合性分析平台。该系统采用Hadoop分布式存储架构和Spark大数据处理引擎作为核心技术底座，通过Django框架构建稳定的后端服务体系，前端运用Vue框架配合ECharts可视化组件实现数据的直观展示。系统基于包含全球1005条香水产品记录的真实数据集，从品牌、产品特征、性别市场、产品定位和竞争格局五个维度进行深度分析，能够实现全球香水品牌市场份额统计、香调流行趋势识别、性别市场细分洞察、产品持久度偏好分析等25项核心分析功能。通过Spark的分布式计算能力，系统能够快速处理大规模香水市场数据，生成品牌竞争力评估报告、细分市场机会识别分析、香调与持久度关联性研究等专业分析结果，为香水行业从业者、投资决策者和市场研究人员提供科学的数据支撑和决策参考。

选题背景
香水作为全球奢侈品和快消品市场的重要组成部分，其市场规模在近年来持续稳定增长，消费者对香水产品的需求日趋多元化和个性化。随着全球化进程的深入，香水品牌竞争格局日益复杂，传统欧美品牌与新兴市场品牌并存，产品线覆盖从大众市场到奢侈品牌的各个层次。消费者购买行为受到品牌知名度、香调偏好、持久度要求、性别定位等多重因素影响，形成了复杂的市场需求模式。传统的市场分析方法往往局限于小规模样本调研或简单的销售数据统计，难以全面捕捉全球香水市场的整体趋势和深层规律。大数据技术的成熟为香水市场分析提供了新的技术路径，通过收集和处理大规模香水产品数据，能够从品牌战略、产品特征、消费偏好等多个维度深入分析市场现状，识别潜在商业机会和发展趋势。

选题意义
本课题的研究意义主要体现在技术应用和行业实践两个层面。从技术角度来看，将Hadoop和Spark等大数据处理技术应用于香水市场分析领域，为大数据技术在细分行业的落地应用提供了具体的实践案例，验证了分布式计算在处理多维度商业数据方面的有效性，同时探索了Django+Vue技术栈与大数据平台集成的可行性方案。从行业应用角度分析，该系统能够为香水企业的产品规划、品牌定位和市场策略制定提供一定的数据参考，帮助识别市场空白点和消费趋势变化，虽然作为毕业设计项目在数据规模和分析深度上存在局限性，但仍可为行业从业者提供基础的市场洞察工具。该研究还体现了跨学科融合的特点，将计算机大数据技术与市场营销分析相结合，为其他消费品行业的数据分析应用提供了参考思路，同时也为计算机专业学生提供了一个将理论知识与实际商业场景相结合的实践机会。

二、视频展示

计算机大数据毕业设计选题：基于Spark的全球香水市场趋势分析系统

三、开发环境

大数据技术：Hadoop、Spark、Hive
开发技术：Python、Django框架、Vue、Echarts
软件工具：Pycharm、DataGrip、Anaconda
可视化工具 Echarts

四、系统展示

登录模块：

在这里插入图片描述

管理模块展示：
在这里插入图片描述

五、代码展示

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, desc, when, regexp_replace, initcap, sum as spark_sum, round as spark_round
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType
import pandas as pdspark = SparkSession.builder.appName("PerfumeMarketAnalysis").config("spark.sql.adaptive.enabled", "true").config("spark.sql.adaptive.coalescePartitions.enabled", "true").getOrCreate()def brand_market_share_analysis():df = spark.read.csv("hdfs://localhost:9000/perfume_data/Perfumes_dataset.csv", header=True, inferSchema=True)df = df.filter(col("brand").isNotNull() & (col("brand") != ""))df = df.withColumn("brand", initcap(col("brand")))df = df.withColumn("brand", regexp_replace(col("brand"), "^([a-z])", lambda m: m.group(1).upper()))brand_counts = df.groupBy("brand").agg(count("*").alias("product_count"))total_products = df.count()brand_analysis = brand_counts.withColumn("market_share", spark_round((col("product_count") / total_products) * 100, 2))brand_analysis = brand_analysis.orderBy(desc("market_share"))brand_analysis = brand_analysis.withColumn("cumulative_share", spark_sum("market_share").over(Window.orderBy(desc("market_share")).rowsBetween(Window.unboundedPreceding, Window.currentRow)))brand_analysis = brand_analysis.withColumn("market_position", when(col("cumulative_share") <= 20, "市场领导者").when(col("cumulative_share") <= 50, "主要竞争者").when(col("cumulative_share") <= 80, "一般竞争者").otherwise("小众品牌"))brand_analysis = brand_analysis.select("brand", "product_count", "market_share", "market_position")result_pandas = brand_analysis.toPandas()result_pandas.columns = ["品牌名称", "产品数量", "市场份额", "市场地位"]result_pandas.to_csv("brand_market_share_analysis.csv", index=False, encoding='utf-8')return result_pandasdef fragrance_category_trend_analysis():df = spark.read.csv("hdfs://localhost:9000/perfume_data/Perfumes_dataset.csv", header=True, inferSchema=True)df = df.filter(col("category").isNotNull() & (col("category") != "") & (col("category") != "Unknown"))df = df.withColumn("category", regexp_replace(col("category"), ":contentReference[^,]*", ""))df = df.withColumn("category", regexp_replace(col("category"), "\\s+", " "))category_counts = df.groupBy("category").agg(count("*").alias("category_count"))total_categories = df.count()category_analysis = category_counts.withColumn("popularity_percentage", spark_round((col("category_count") / total_categories) * 100, 2))category_analysis = category_analysis.orderBy(desc("popularity_percentage"))category_analysis = category_analysis.withColumn("trend_level", when(col("popularity_percentage") >= 10, "热门香调").when(col("popularity_percentage") >= 5, "流行香调").when(col("popularity_percentage") >= 2, "常见香调").otherwise("小众香调"))category_analysis = category_analysis.withColumn("complexity_score", when(col("category").contains(" "), 2).otherwise(1))category_analysis = category_analysis.withColumn("market_potential", when((col("popularity_percentage") >= 5) & (col("complexity_score") == 2), "高潜力").when(col("popularity_percentage") >= 8, "稳定市场").when(col("popularity_percentage") <= 1, "新兴机会").otherwise("一般市场"))category_analysis = category_analysis.select("category", "category_count", "popularity_percentage", "trend_level", "market_potential")result_pandas = category_analysis.toPandas()result_pandas.columns = ["香调分类", "产品数量", "流行度", "趋势等级", "市场潜力"]result_pandas.to_csv("fragrance_category_trend_analysis.csv", index=False, encoding='utf-8')return result_pandasdef gender_market_segmentation_analysis():df = spark.read.csv("hdfs://localhost:9000/perfume_data/Perfumes_dataset.csv", header=True, inferSchema=True)df = df.filter(col("target_audience").isNotNull() & (col("target_audience") != ""))df = df.withColumn("target_audience", when(col("target_audience") == "Men", "Male").when(col("target_audience") == "Women", "Female").otherwise(col("target_audience")))gender_counts = df.groupBy("target_audience").agg(count("*").alias("segment_count"))total_gender = df.count()gender_analysis = gender_counts.withColumn("market_proportion", spark_round((col("segment_count") / total_gender) * 100, 2))gender_analysis = gender_analysis.orderBy(desc("market_proportion"))gender_longevity = df.groupBy("target_audience", "longevity").agg(count("*").alias("longevity_count"))gender_longevity = gender_longevity.withColumn("longevity", regexp_replace(col("longevity"), "Medium–Strong|Medium-Strong", "Medium-Strong"))gender_longevity = gender_longevity.withColumn("longevity", regexp_replace(col("longevity"), "Light–Medium|Light-Medium", "Light-Medium"))gender_longevity = gender_longevity.withColumn("longevity", regexp_replace(col("longevity"), "\\d+–\\d+\\s*hours?", "Medium"))gender_preference = gender_longevity.groupBy("target_audience").agg(spark_sum("longevity_count").alias("total_count"))gender_analysis = gender_analysis.join(gender_preference, "target_audience", "left")gender_analysis = gender_analysis.withColumn("market_maturity", when(col("market_proportion") >= 40, "成熟市场").when(col("market_proportion") >= 20, "发展市场").otherwise("新兴市场"))gender_analysis = gender_analysis.withColumn("growth_potential", when(col("target_audience") == "Unisex", "高增长").when(col("market_proportion") <= 30, "中增长").otherwise("稳定增长"))gender_analysis = gender_analysis.select("target_audience", "segment_count", "market_proportion", "market_maturity", "growth_potential")result_pandas = gender_analysis.toPandas()result_pandas.columns = ["目标用户", "产品数量", "市场占比", "市场成熟度", "增长潜力"]result_pandas.to_csv("gender_market_segmentation_analysis.csv", index=False, encoding='utf-8')return result_pandas

六、项目文档展示

在这里插入图片描述

七、项目总结

基于Spark的全球香水市场趋势分析系统作为一个大数据技术在垂直行业应用的毕业设计项目，体现了现代信息技术与传统商业分析相结合的实践价值。该系统通过Hadoop分布式存储和Spark大数据处理引擎的技术组合，实现了对全球香水市场数据的深度挖掘和多维度分析，从品牌竞争格局、产品特征趋势、性别市场细分等角度提供了相对完整的市场洞察视角。Django后端框架与Vue前端技术的配合使用，确保了系统的稳定性和用户体验，而ECharts可视化组件的集成则让复杂的数据分析结果能够以直观的图表形式呈现。虽然作为学生毕业设计在数据规模和分析深度方面存在一定局限性，但该项目成功验证了大数据技术在细分市场分析中的可行性，为计算机专业学生提供了将理论知识转化为实际应用的良好实践平台。通过这个项目的完成，不仅能够展现学生对大数据核心技术栈的掌握程度，还体现了跨领域知识融合和解决实际问题的综合能力。