当前位置: 首页 > java >正文

某连锁酒店泄露数据的分析

声明

不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。

 

前言

这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。

 

源文件

源文件是一个SQL Server数据库备份文件,从数据库“shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49  备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。

 

基本信息

1. 字段

数据库只有一个表,叫cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。

而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。

 

2. 记录

里面有20050144条记录(2005万)。

3. 姓

取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(数学里面的pi)。。。相信是乱写的。

10大姓里面已经占了821万用户。

 

 

4. 性别

男性比女性多一倍。

 

5. 年龄段

剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。

 

5. 省份

省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。

 

 

6. 更多

其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。

 

后言

互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。

我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。

 

 

 

http://www.xdnf.cn/news/11036.html

相关文章:

  • 大学生个人网页设计 HTML个人网页制作 web个人网站模板 简单静态HTML个人网页作品
  • 能免费能发新闻软文外链的网站部分汇总
  • CMake中target_link_libraries的使用
  • tftp协议服务器IP地址,TFTP服务器的搭建
  • robots.txt 详解
  • Win7系统提示找不到autochk.exe文件的解决办法
  • 禁止鼠标右键的几种方法
  • 国企面试题:如果有第八号当铺,你愿意拿什么换这个offer?
  • 国内知名站长网站 ChinaZ 论坛宣布关闭
  • Android的HTTP方式网络通信----HttpClient
  • 基于MATLAB的CT直接反投影算法的实验研究
  • 蓝牙技术
  • Hibernate初学者教程
  • 【小松教你手游开发】【unity实用技能】 unity 接WP8 sdk的一些心得
  • suse日常操作(含suse/rhel内核与发行版对应关系)
  • 手把手教你如何破解无线网络密码(蹭网教程)
  • Ubuntu 7.10 Server 安装 Desktop
  • 软件破解脱壳法
  • Jolicloud试用记——网络、游戏和总结
  • 软件问题定义及可行性分析——数据字典
  • 仅需 5 步,用 JavaScript 直接通过前端发送电子邮件
  • 【探花交友】day05—圈子互动
  • vbs无限循环代码_vbs整人代码
  • Web挖掘技术
  • 【值得收藏的种子搜索引擎】
  • VC开发指南--Visual C++/MFC入门教程
  • 老司机是怎么找到资源的,掌握这些搜索技巧,全网资源都是你的
  • 10款精选的后台管理系统
  • 分享88个NET源码,总有一款适合您
  • kali无线渗透之WEP加密模式与破解13_wep加密过程详解,2024年最新被面试官问的网络安全-Framework难倒了