当前位置: 首页 > ai >正文

关于多类型数据划分清洗的整理

一.将字符串不同类型拆分

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 删除中文和数字,保留英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 删除英文和数字,保留中文s3 = re.sub(r'[\u4e00-\u9fffa-zA-Z]', '', s).strip()  # 删除中文和英文,保留数字return s1, s2, s3# 测试
s = "     sdd dsd   新的谁 说的   12515 "
s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'")
print(f"s2 = '{s2}'")
print(f"s3 = '{s3}'")

二.将长字符串各类型拆分

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 中文s3 = re.sub(r'[a-zA-Z\u4e00-\u9fff]', '', s).strip()  # 数字return s1, s2, s3s = ''' Activity  发现问题的活动Trigger  触发因素Impact  结果影响Phase Found  问题发现阶段Severity  严重程度Target  问题根源对象Defect Type  缺陷类型Content Type  缺陷内容类型Qualifier  缺陷界定Source  问题责任来源Age  缺陷年龄Location  问题位置
'''print(s)s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'")
print(f"s2 = '{s2}'")
print(f"s3 = '{s3}'")

三.将长字符串各类型拆分再整理

import redef split_string(s):# 去除多余空格s = re.sub(r'\s+', ' ', s).strip()# 拆分字符串s1 = re.sub(r'[\u4e00-\u9fff0-9]', '', s).strip()  # 英文s2 = re.sub(r'[a-zA-Z0-9]', '', s).strip()  # 中文s3 = re.sub(r'[a-zA-Z\u4e00-\u9fff]', '', s).strip()  # 数字return s1, s2, s3def chaihuan(s1,s2,s3):# 去除多余空格s1 = ' '.join(s1.split())s2 = ' '.join(s2.split())s3 = ' '.join(s3.split())# 按照空格拆分字符串s1,生成列表c1c1 = s1.split(' ')c2 = s2.split(' ')c3 = s3.split(' ')# 将字符串s1中的空格替换为换行符,生成字符串t1t1 = s1.replace(' ', '\n')t2 = s2.replace(' ', '\n')t3 = s3.replace(' ', '\n')# 输出结果print("c1:", c1)print("c2:", c2)print("c3:", c3)print("t1:\n", t1)print("t2:\n", t2)print("t3:\n", t3)return c1,c2,c3,t1,t2,t3s = ''' Activity  发现问题的活动Trigger  触发因素Impact  结果影响Phase Found  问题发现阶段Severity  严重程度Target  问题根源对象Defect Type  缺陷类型Content Type  缺陷内容类型Qualifier  缺陷界定Source  问题责任来源Age  缺陷年龄Location  问题位置
'''print(f'{s}\n')
print('--------------------------------')
s1, s2, s3 = split_string(s)
print(f"s1 = '{s1}'\n")
print(f"s2 = '{s2}'\n")
print(f"s3 = '{s3}'\n")
print("------------拆换开始----------------------")
c1, c2, c3, t1, t2, t3 = chaihuan(s1, s2, s3)
print("------------各自明细----------------------")
print(f"c1 = '{c1}'\n")
print(f"c2 = '{c2}'\n")
print(f"c3 = '{c3}'\n")
print(f"t1 = '{t1}'\n")
print(f"t2 = '{t2}'\n")
print(f"t3 = '{t3}'\n")

整理不易,诚望各位看官点赞 收藏 评论 予以支持,这将成为我持续更新的动力源泉。若您在阅览时存有异议或建议,敬请留言指正批评,让我们携手共同学习,共同进取,吾辈自当相互勉励!

http://www.xdnf.cn/news/8815.html

相关文章:

  • 09_模型训练篇-卷积(上):如何用卷积为计算机“开天眼”?
  • 【C语言】指针全局变量
  • PostGIS使用小结
  • 微雪墨水屏 如何 控制绘制图形(如点、线、矩形等)线条粗细或点的大小
  • ChatGPT+知网,AI如何辅助真实科研写作流程?
  • 以太坊的基本理解
  • 2025年- H47-Lc155 --102. 二叉树的层序遍历(队列、广搜)--Java版
  • STL-从list节点创建和释放展开(内存管理)
  • Claude Code Agent 模式深度解读(一)!Anthropic提出的下一代Code CLI工具
  • 第四章 面向对象(基础)
  • ​​UniBoard:私有化部署,导航笔记文件一站式管理
  • JavaScript 中的 structuredClone() 如何彻底改变你的对象复制方式
  • 几个直觉泵问题
  • 线程池优雅关闭的哲学
  • java基础知识回顾3(可用于Java基础速通)考前,面试前均可用!
  • 空间计算的未来:在通用芯片上构建高可靠系统
  • 沙井SMT贴片加工核心工艺解析
  • JVM 的垃圾回收机制
  • Linux线程互斥与同步(下)(30)
  • 软件质量保证与测试实验
  • 历年北京师范大学保研上机真题
  • 数据库设计核心流程
  • 探索智能仓颉
  • 软件设计师-错题笔记-面向对象技术
  • 继电器相关梳理
  • pytorch基础
  • LabVIEW开发FPGA磁声发射应力检测系统
  • C++与Python中除法运算的区别(易错)
  • Linux路径解析指南:逻辑路径 vs 实际路径详解
  • Linux 文件系统