数据的获取与读取篇---常见的数据格式CSV
数据分析师最喜欢的数据格式是CSV,与JSON一样,CSV也是纯文本文件,也就是说文字内容不存在粗体、下划线、字号、颜色等特征。
CSV的概念
CSV,全称是Comma-Separated Values,表示逗号分隔值,如果把逗号对齐,CSV的结构基本上就是一个表格。想要看逗号对齐的效果,可以用Excel等表格软件打开CSV文件,就能直接看到CSV以表格形式的样子
CSV的内容结构
CSV文件的第一行通常作为表头(列名),但也可以没有表头,直接从数据开始。表格头下面每一条数据都是独占一行,因此将CSV文件内容直接转换成DataFrame后,CSV的行和DataFrame的行之间能够直接对应上,而且每行数据里所包含的值的数量是相同的,即逗号分隔符的数量也必须一样。
若哪一行多了或少了说明那不是一个合格有效的CSV。若某个数据值里面正好包含英文逗号怎么办?这种情况下,可以用引号把那整个值包围起来,里面的逗号就不会被当成充当分隔符的逗号了。若值内包含引号,需用双引号转义(如""内部引号""
),且外层引号需闭合。若某个值为空缺,空缺值可用相邻逗号(,,
)、空字符串(""
)或特定标记(如NULL)表示,具体取决于解析工具。
CSV概念总结
总之,CSV本身是一个非常规整的二维结构,