当前位置: 首页 > ai >正文

招行数字金融挑战赛数据分析赛带赛题二

赛题描述:根据提供的脱敏资讯新闻数据,选手需要对提供的训练集进行特征工程,构建资讯分类模型,对与测试集进行准确的新闻分类。
最终得分:0.8120。十二点关榜没看到排名,估算100+?
训练集很小,只有八千条数据,痛苦了三天,调参加模型效果不升反降。

训练集只有三列:新闻ID,文字,标签,一共四类标签。
标签分布
根据文本列中的数字个数加入了文本长度特征,能够反映出文本的复杂性或信息量。

X_train['length'] = X_train['文本'].apply(lambda x: len(str(x).split()))
X_test['length'] = X_test['文本'].apply(lambda x: len(str(x).split()))

文本列使用TfidfVectorizer:将文本数据转换为 TF-IDF 特征。
length列使用StandardScaler:将其转换为均值为 0,标准差为 1 的数值范围。

preprocessor = ColumnTransformer(transformers=[('text_tfidf', TfidfVectorizer(), '文本'),('length_scaler', StandardScaler(), ['length'])],remainder='passthrough'
)

选择线性支持向量机作为分类器:

classifier = LinearSVC(class_weight='balanced', random_state=42, dual=False)

使用 GridSearchCV 来进行超参数调优。

param_grid = {'preprocessor__text_tfidf__ngram_range': [(1, 2)],'preprocessor__text_tfidf__max_features': [50000, 70000, 90000],'preprocessor__text_tfidf__min_df': [1, 2, 3],'preprocessor__text_tfidf__max_df': [0.85, 0.9, 0.95],'classifier__C': [0.5, 1.0, 2.0, 5.0, 8.0, 10.0],
}

ngram_range: 设置为 (1, 2),表示我们使用 1-gram 和 2-gram(单词和双词组合)来表示文本特征。

max_features: 控制 TfidfVectorizer 中考虑的最大特征数量。尝试不同的值可以帮助我们找到最佳的特征数量。

min_df 和 max_df: 这些参数控制了 TfidfVectorizer 在选择特征时的文档频率范围,有助于排除低频和高频的噪声词汇。

C: 正则化参数,控制模型的复杂度和对训练数据的拟合程度。

对模型进行了多次交叉验证,以选择最佳参数组合。

grid_search = GridSearchCV(pipeline, param_grid, cv=cv_strategy,scoring='f1_macro',n_jobs=-1,verbose=2)
best_model = grid_search.best_estimator_
predictions = best_model.predict(X_test)

小白第一次参加类似比赛,大佬轻喷。

http://www.xdnf.cn/news/5316.html

相关文章:

  • CSS Layer 详解
  • SAP学习笔记 - 开发08 - Eclipse连接到 BTP Cockpit实例
  • 20242817-李臻-课下作业:Qt和Sqlite
  • 【vue】计算属性和属性传值以及监听属性
  • 【数据结构】线性表
  • Linux 常用命令集合
  • 开源字体设计工具字玩 FontPlayer
  • 【Bluedroid】HID DEVICE 连接的源码分析
  • MIT XV6 - 1.5 Lab: Xv6 and Unix utilities - xargs
  • Qt—多线程基础
  • 医药研发加速器!AI如何助力新药问世?
  • Unity中AssetBundle使用整理(一)
  • 模型过拟合是什么?
  • 【东枫科技】使用LabVIEW进行NVIDIA CUDA GPU 开发
  • AI智慧公园管理方案:用科技重塑市民的“夜游体验”
  • 【C++】内存管理 —— new 和 delete
  • Lora原理及实现浅析
  • 【C++】特殊类设计
  • 支持向量机与逻辑回归的区别及 SVM 在图像分类中的应用
  • matlab中的积分函数
  • 【Java学习日记34】:this关键字和成员变量
  • armv7 backtrace
  • LoRA(Low-Rank Adaptation)原理详解
  • 【ajax基础】
  • 深入理解深度Q网络DQN:基于python从零实现
  • OB Cloud 云数据库V4.3:SQL +AI全新体验
  • redis主从同步于对象模型
  • 【基于 LangChain 的异步天气查询2】GeoNames实现地区实时气温查询
  • EDITPLUS配置CTags实现函数跳转
  • 技术方案模型需要兼顾战略规划、技术实现与落地可行性