当前位置: 首页 > news >正文

TomatoSCI分析日记:数据分析为什么用csv不用excel

        其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。

1.csv更干净

csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。

2.csv结构更简单

excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。

3.csv文件可以用记事本打开

这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。

4.excel文件转csv文件

很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在“文件”-“另存为”中导出为csv格式。

TomatoSCI欢迎大家来访!

http://www.xdnf.cn/news/741007.html

相关文章:

  • JVM 基础 - JVM 内存结构
  • 【harbor】--介绍
  • AI集群运维的常见操作
  • 华为云Flexus+DeepSeek征文|华为云 Flexus X 加速 Dify 平台落地:高性能、低成本、强可靠性的云上选择
  • Leetcode 2819. 购买巧克力后的最小相对损失
  • leetcode17.电话号码的字母组合:字符串映射与回溯的巧妙联动
  • 力扣HOT100之动态规划:152. 乘积最大子数组
  • leetcode hot100刷题日记——34.将有序数组转换为二叉搜索树
  • 【基于SpringBoot的图书购买系统】Redis中的数据以分页的形式展示:从配置到前后端交互的完整实现
  • Spring Boot启动慢?Redis缓存击穿?Kafka消费堆积?——Java后端常见问题排查实战
  • 【R语言编程绘图-plotly】
  • 华为OD机试真题——生成哈夫曼树(2025A卷:100分)Java/python/JavaScript/C/C++/GO六种最佳实现
  • 《江西棒球资讯》棒球运动发展·棒球1号位
  • RLHF奖励模型的训练
  • 【C#】一个简单的http服务器项目开发过程详解
  • 前端八股HTTP和https大全套
  • Java研学-MongoDB(一)
  • 用JS实现植物大战僵尸(前端作业)
  • 【Oracle】TCL语言
  • Flutter - 原生交互 - 相机Camera - 01
  • 在Windows本地部署Dify详细操作
  • 线程(上)【Linux操作系统】
  • 【Kotlin】简介变量类接口
  • Express中使用MySQL数据库的完整示例
  • python批量解析提取word内容到excel
  • Python趣学篇:交互式词云生成器(jieba + Tkinter + WordCloud等)
  • Microsoft Word使用技巧分享(本科毕业论文版)
  • #AI短视频制作完整教程
  • Acrobat DC v25.001 最新专业版已破,像word一样编辑PDF!
  • VR/AR 视网膜级显示破局:10000PPI 如何终结颗粒感时代?