抽样数据nosql,抽样数据分析显示非数据型数据

HIVE数据抽样

hive 提供数据抽样功能，根据一定的规则进行数据抽样，目前支持三种抽样：

水磨沟网站建设公司成都创新互联公司,水磨沟网站设计制作，有大型网站制作公司丰富经验。已为水磨沟上千提供企业网站建设服务。企业网站搭建\成都外贸网站建设要多少钱，请找那个售后服务好的水磨沟做网站的公司定做！

1、数据块抽样 tablesample()函数（hive0.8版本及以上支持）

tablesample(n percent) : 按照hive表的数据量比例抽样数据

select * from table_name tablesample(0.1 percent) s

tablesample(n M) ：指定抽样数据的大小，单位为M

tablesample(n rows)：指定抽样数据的行数，n表示每个map task均取n行数据

2、分桶抽样

hive分桶是根据分桶字段做hash取模，放入指定的数据的桶中，比如表a的字段id分成10个桶，那hash(id)%10=0的数据放在第一个桶，hash(id)%10=1的数据放在第二个桶中

语法：tablesample(bucket x out of y [on colname]) :x 是要抽样的桶编号，桶编号从1开始，colname表示要抽样的列，y表示桶的数量，例如：

select * from tb tablesample(bucket 1 out of 10 on rand()) -- 表随机分成10桶，抽取第一个桶的数据做为样本

hive中分桶其实就是根据某一个字段Hash取模，放入指定数据的桶中，比如将表table_1按照ID分成100个桶，其算法是hash(id) % 100，这样，hash(id) % 100 = 0的数据被放到第一个桶中，hash(id) % 100 = 1的记录被放到第二个桶中。创建分桶表的关键语句为：CLUSTER BY语句。

3、随机抽样 rand()函数

使用rand()函数进行随机抽样，limit限制抽样返回的数据

比如：一百万的行数据中，有10万客户，随机抽取1%的客户作为样本

select * from tb where cust_no is not null distribute by rand() sort by rand() limit 10000;

select * from tb where cust_no is not null order by rand() limit 10000;

select * from

( select *,cast(rand()*10000 as bigint) as rownum from tb where cust_no is not null ) t

order by rownum limit 10000;

互联网大数据现关心的是什么？

楼主您好：

首先，我认为大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

其次，想要系统的认知大数据，必须要全面而细致的分解它，我着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性；从对大数据价值的探讨来深入解析大数据的珍贵所在；从对大数据的现在和未来去洞悉大数据的发展趋势；从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。我将分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

? 特征定义

最早提出大数据时代到来的是麦肯锡：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界（IBM 最早定义）将大数据的特征归纳为4个“V”（量Volume，多样Variety，价值Value，速Velocity），或者说特点有四个层面：第一，数据体量巨大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）；第二，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等。第三，价值密度低，商业价值高。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征，下面这张图对大数据的一些相关特性做出了有效的说明。

36大数据

古语云：三分技术，七分数据，得数据者得天下。先不论谁说的，但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证，都是为了说明一个道理：在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中，作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值，比如预测某地流感爆发的趋势；Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐，以此有效提升销售量；Farecast如何利用过去十年所有的航线机票价格打折数据，来预测用户购买机票的时机是否合适。

那么，什么是大数据思维？维克托·迈尔-舍恩伯格认为，1-需要全部数据样本而不是抽样；2-关注效率而不是精确度；3-关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解，比如，

“今天的数据不是大，真正有意思的是数据变得在线了，这个恰恰是互联网的特点。”

“非互联网时期的产品，功能一定是它的价值，今天互联网的产品，数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务，这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点，我是非常认同的，大数据的真正价值在于创造，在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。

? 价值探讨

大数据是什么？投资者眼里是金光闪闪的两个字：资产。比如，Facebook上市时，评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础，将所有用户的购买记录作为数据来源，通过构建模型分析购买者的行为相关性，能准确的推断出孕妇的具体临盆时间，这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例，这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点：通过找出一个关联物并监控它，就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期，这就是对数据的二次利用的典型案例。如果，我们通过采集驾驶员手机的GPS数据，就可以分析出当前哪些道路正在堵车，并可以及时发布道路交通提醒；通过采集汽车的GPS位置数据，就可以分析城市的哪些区域停车较多，这也代表该区域有着较为活跃的人群，这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测，但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析，存在三种模式：

1- 手握大数据，但是没有利用好；比较典型的是金融机构，电信行业，政府机构等。

2- 没有数据，但是知道如何帮助有数据的人利用它；比较典型的是IT咨询和服务企业，比如，埃森哲，IBM，Oracle等。

3- 既有数据，又有大数据思维；比较典型的是Google，Amazon，Mastercard等。

未来在大数据领域最具有价值的是两种事物：1-拥有大数据思维的人，这种人可以将大数据的潜在价值转化为实际利益；2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井，金矿，是所谓的蓝海。

Wal-Mart作为零售行业的巨头，他们的分析人员会对每个阶段的销售记录进行了全面的分析，有一次他们无意中发现虽不相关但很有价值的数据，在美国的飓风来临季节，超市的蛋挞和抵御飓风物品竟然销量都有大幅增加，于是他们做了一个明智决策，就是将蛋挞的销售位置移到了飓风物品销售区域旁边，看起来是为了方便用户挑选，但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子，1948年辽沈战役期间，司令员林彪要求每天要进行例常的“每日军情汇报”，由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据：每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少，枪支、物资多少……有一天，参谋照例汇报当日的战况，林彪突然打断他：“刚才念的在胡家窝棚那个战斗的缴获，你们听到了吗?”大家都很茫然，因为如此战斗每天都有几十起，不都是差不多一模一样的枯燥数字吗?林彪扫视一周，见无人回答，便接连问了三句：“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁，指着地图上的那个点说：“我猜想，不，我断定!敌人的指挥所就在这里!”果然，部队很快就抓住了敌方的指挥官廖耀湘，并取得这场重要战役的胜利。

这些例子真实的反映在各行各业，探求数据价值取决于把握数据的人，关键是人的数据思维；与其说是大数据创造了价值，不如说是大数据思维触发了新的价值增长。

? 现在和未来

我们先看看大数据在当下有怎样的杰出表现：

大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督；

大数据帮助城市预防犯罪，实现智慧交通，提升紧急应急能力；

大数据帮助医疗机构建立患者的疾病风险跟踪机制，帮助医药企业提升药品的临床使用效果，帮助艾滋病研究机构为患者提供定制的药物；

大数据帮助航空公司节省运营成本，帮助电信企业实现售后服务质量提升，帮助保险企业识别欺诈骗保行为，帮助快递公司监测分析运输车辆的故障险情以提前预警维修，帮助电力公司有效识别预警即将发生故障的设备；

大数据帮助电商公司向用户推荐商品和服务，帮助旅游网站为旅游者提供心仪的旅游路线，帮助二手市场的买卖双方找到最合适的交易目标，帮助用户找到最合适的商品购买时期、商家和最优惠价格；

大数据帮助企业提升营销的针对性，降低物流和库存的成本，减少投资的风险，以及帮助企业提升广告投放精准度；

大数据帮助娱乐行业预测歌手，歌曲，电影，电视剧的受欢迎程度，并为投资者分析评估拍一部电影需要投入多少钱才最合适，否则就有可能收不回成本；

大数据帮助社交网站提供更准确的好友推荐，为用户提供更精准的企业招聘信息，向用户推荐可能喜欢的游戏以及适合购买的商品。

其实，这些还远远不够，未来大数据的身影应该无处不在，就算无法准确预测大数据终会将人类社会带往到哪种最终形态，但我相信只要发展脚步在继续，因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

比如，Amazon的最终期望是：“最成功的书籍推荐应该只有一本书，就是用户要买的下一本书。”

Google也希望当用户在搜索时，最好的体验是搜索结果只包含用户所需要的内容，而这并不需要用户给予Google太多的提示。

而当物联网发展到达一定规模时，借助条形码、二维码、RFID等能够唯一标识产品，传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析，这些数据能够支撑智慧城市，智慧交通，智慧能源，智慧医疗，智慧环保的理念需要，这些都所谓的智慧将是大数据的采集数据来源和服务范围。

未来的大数据除了将更好的解决社会问题，商业营销问题，科学技术问题，还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰，大部分的数据都与人类有关，要通过大数据解决人的问题。

比如，建立个人的数据中心，将每个人的日常生活习惯，身体体征，社会网络，知识能力，爱好性情，疾病嗜好，情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒，将除了思维外的一切都储存下来，这些数据可以被充分的利用：

医疗机构将实时的监测用户的身体健康状况；

教育机构更有针对的制定用户喜欢的教育培训计划；

服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务；

社交网络能为你提供合适的交友对象，并为志同道合的人群组织各种聚会活动；

政府能在用户的心理健康出现问题时有效的干预，防范自杀，刑事案件的发生；

金融机构能帮助用户进行有效的理财管理，为用户的资金提供更有效的使用建议和规划；

道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排；

……

当然，上面的一切看起来都很美好，但是否是以牺牲了用户的自由为前提呢？只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如，在手机未普及前，大家喜欢聚在一起聊天，自从手机普及后特别是有了互联网，大家不用聚在一起也可以随时随地的聊天，只是“病菌”滋生了另外一种情形，大家慢慢习惯了和手机共渡时光，人与人之间情感交流仿佛永远隔着一张“网”。

? 大数据隐私

你或许并不敏感，当你在不同的网站上注册了个人信息后，可能这些信息已经被扩散出去了，当你莫名其妙的接到各种邮件，电话，短信的滋扰时，你不会想到自己的电话号码，邮箱，生日，购买记录，收入水平，家庭住址，亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。

更可怕的是，这些信息你永远无法删除，它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息，但是这代价太大了。

用户隐私问题一直是大数据应用难以绕开的一个问题，如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前，中国并没有专门的法律法规来界定用户隐私，处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强，合法合规地获取数据、分析数据和应用数据，是进行大数据分析时必须遵循的原则。

说到隐私被侵犯，爱德华?斯诺登应该占据一席之地，这位前美国中央情报局（CIA）雇员一手引爆了美国“棱镜计划”（PRISM）的内幕消息。“棱镜”项目是一项由美国国家安全局（NSA）自2007年起开始实施的绝密电子监听计划，年耗资近2000亿美元，用于监听全美电话通话记录，据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器，包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。

再看看我们身边，当微博，微信，QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时，你就不要指望你还有隐私权了，就算你在某个地方删除了，但也许这些信息已经被其他人转载或保存了，更有可能已经被百度或Google存为快照，早就提供给任意用户搜索了。

因此在大数据的背景下，很多人都在积极的抵制无底线的数字化，这种大数据和个体之间的博弈还会一直继续下去……

专家给予了我们一些如何有效保护大数据背景下隐私权的建议：1-减少信息的数字化；2-隐私权立法；3-数字隐私权基础设施（类似DRM数字版权管理）；4-人类改变认知（接受忽略过去）；5-创造良性的信息生态；6-语境化。

但是这些都很难立即见效或者有实质性的改善。

比如，现在有一种职业叫删帖人，专门负责帮人到各大网站删帖，删除评论。其实这些人就是通过黑客技术侵入各大网站，破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私，而大多是丑闻。还有一种职业叫人肉专家，他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情，也就是说，如果有人想找到你，只需要两个条件：1-你上过网，留下过痕迹；2-你的亲朋好友或仅仅是认识你的人上过网，留下过你的痕迹。这两个条件满足其一，人肉专家就可以很轻松的找到你，可能还知道你现在正在某个餐厅和谁一起共进晚餐。

当很多互联网企业意识到隐私对于用户的重要性时，为了继续得到用户的信任，他们采取了很多办法，比如google承诺仅保留用户的搜索记录9个月，浏览器厂商提供了无痕冲浪模式，社交网站拒绝公共搜索引擎的爬虫进入，并将提供出去的数据全部采取匿名方式处理等。

在这种复杂的环境里面，很多人依然没有建立对于信息隐私的保护意识，让自己一直处于被滋扰，被精心设计，被利用，被监视的处境中。可是，我们能做的几乎微乎其微，因为个人隐私数据已经无法由我们自己掌控了，就像一首诗里说到的：“如果你现在继续麻木，那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”

和大数据相关的技术

? 云技术

大数据常和云计算联系到一起，因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说，云计算充当了工业革命时期的发动机的角色，而大数据则是电。

云计算思想的起源是麦卡锡在上世纪60年代提出的：把计算能力作为一种像水和电一样的公用事业提供给用户。

如今，在Google、Amazon、Facebook等一批互联网企业引领下，一种行之有效的模式出现了：云计算提供基础架构平台，大数据应用运行在这个平台上。

业内是这么形容两者的关系：没有大数据的信息积淀，则云计算的计算能力再强大，也难以找到用武之地；没有云计算的处理能力，则大数据的信息积淀再丰富，也终究只是镜花水月。

那么大数据到底需要哪些云计算技术呢？

这里暂且列举一些，比如虚拟化技术，分布式处理技术，海量数据的存储和管理技术，NoSQL、实时流数据处理、智能分析技术（类似模式识别以及自然语言理解）等。

云计算和大数据之间的关系可以用下面的一张图来说明，两者之间结合后会产生如下效应：可以提供更多基于海量业务数据的创新型服务；通过云计算技术的不断发展降低大数据业务的创新成本。

36大数据

如果将云计算与大数据进行一些比较，最明显的区分在两个方面：

第一，在概念上两者有所不同，云计算改变了IT，而大数据则改变了业务。然而大数据必须有云作为基础架构，才能得以顺畅运营。

第二，大数据和云计算的目标受众不同，云计算是CIO等关心的技术层，是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品，而大数据的决策者是业务层。

详情：

大数据处理的五大关键技术及其应用

作者 | 网络大数据

来源 | 产业智能官

数据处理是对纷繁复杂的海量数据价值的提炼，而其中最有价值的地方在于预测性分析，即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据，根据数据挖掘的结果得出预测性决策。其中主要工作环节包括：

大数据采集大数据预处理大数据存储及管理大数据分析及挖掘大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

大数据采集一般分为：

大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

完成对已接收数据的辨析、抽取、清洗等操作。

抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术：改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术：改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中，可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

数据挖掘主要过程是：根据分析挖掘目标，从数据库中把数据提取出来，然后经过ETL组织成适合分析挖掘算法使用宽表，然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件，一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。

数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性，导致数据挖掘会涉及大量衍生变量计算，衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂，计算量就很大，特别是大量机器学习算法，都是迭代计算，需要通过多次迭代来求最优解，例如K-means聚类算法、PageRank算法等。

从挖掘任务和挖掘方法的角度，着重突破：

可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

预测分析成功的7个秘诀

预测未来一直是一个冒险的命题。幸运的是，预测分析技术的出现使得用户能够基于历史数据和分析技术(如统计建模和机器学习)预测未来的结果，这使得预测结果和趋势变得比过去几年更加可靠。

尽管如此，与任何新兴技术一样，想要充分发挥预测分析的潜力也是很难的。而可能使挑战变得更加复杂的是，由不完善的策略或预测分析工具的误用导致的不准确或误导性的结果可能在几周、几个月甚至几年内才会显现出来。

预测分析有可能彻底改变许多的行业和业务，包括零售、制造、供应链、网络管理、金融服务和医疗保健。AI网络技术公司Mist Systems的联合创始人、首席技术官Bob fridy预测:“深度学习和预测性AI分析技术将会改变我们社会的所有部分，就像十年来互联网和蜂窝技术所带来的转变一样。”。

这里有七个建议，旨在帮助您的组织充分利用其预测分析计划。

1.能够访问高质量、易于理解的数据

预测分析应用程序需要大量数据，并依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商Infotech的首席数据和分析官Soumendra Mohanty评论道:“数据和预测分析之间是相互促进的关系。”

了解流入预测分析模型的数据类型非常重要。“一个人身上会有什么样的数据?” Eric Feigl - Ding问道，他是流行病学家、营养学家和健康经济学家，目前是哈佛陈氏公共卫生学院的访问科学家。“是每天都在Facebook和谷歌上收集的实时数据，还是难以访问的医疗记录所需的医疗数据?”为了做出准确的预测，模型需要被设计成能够处理它所吸收的特定类型的数据。

简单地将大量数据扔向计算资源的预测建模工作注定会失败。“由于存在大量数据，而其中大部分数据可能与特定问题无关，只是在给定样本中可能存在相关关系，”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道，FactSet是一家金融数据和软件公司。“如果不了解产生数据的过程，一个在有偏见的数据上训练的模型可能是完全错误的。”

2.找到合适的模式

SAP高级分析产品经理Richard Mooney指出，每个人都痴迷于算法，但是算法必须和输入到算法中的数据一样好。“如果找不到适合的模式，那么他们就毫无用处，”他写道。“大多数数据集都有其隐藏的模式。”

模式通常以两种方式隐藏:

模式位于两列之间的关系中。例如，可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式。Mooney说:“如果交易即将结束，电子邮件的公开率应该会大幅提高，因为买方会有很多人需要阅读并审查合同。”

模式显示了变量随时间变化的关系。“以上面的例子为例，了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用，”Mooney说。

3 .专注于可管理的任务，这些任务可能会带来积极的投资回报

纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今，人们很想把机器学习算法应用到海量数据上，以期获得更深刻的见解。”他说，这种方法的问题在于，它就像试图一次治愈所有形式的癌症一样。Urmeneta解释说:“这会导致问题太大，数据太乱——没有足够的资金和足够的支持。这样是不可能获得成功的。”

而当任务相对集中时，成功的可能性就会大得多。Urmeneta指出:“如果有问题的话，我们很可能会接触到那些能够理解复杂关系的专家” 。“这样，我们就很可能会有更清晰或更好理解的数据来进行处理。”

4.使用正确的方法来完成工作

好消息是，几乎有无数的方法可以用来生成精确的预测分析。然而，这也是个坏消息。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现，使用新方法很容易让人兴奋”。“然而，根据我的经验，最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法。”

罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法”。“必须拥有一种高效且可解释的技术，一种可以利用序列数据、时间数据的统计特性，然后将其外推到最有可能的未来，”Yang说。

5.用精确定义的目标构建模型

这似乎是显而易见的，但许多预测分析项目开始时的目标是构建一个宏伟的模型，却没有一个明确的最终使用计划。“有很多很棒的模型从来没有被人使用过，因为没有人知道如何使用这些模型来实现或提供价值，”汽车、保险和碰撞修复行业的SaaS提供商CCC信息服务公司的产品管理高级副总裁Jason Verlen评论道。

对此，Fontes也表示同意。“使用正确的工具肯定会确保我们从分析中得到想要的结果……”因为这迫使我们必须对自己的目标非常清楚，”她解释道。“如果我们不清楚分析的目标，就永远也不可能真正得到我们想要的东西。”

6.在IT和相关业务部门之间建立密切的合作关系

在业务和技术组织之间建立牢固的合作伙伴关系是至关重要的。客户体验技术提供商Genesys的人工智能产品管理副总裁Paul lasserr说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。”然后，一旦设置了目标，就可以在一个限定范围的应用程序中测试模型，以确定解决方案是否真正提供了所需的价值。

7.不要被设计不良的模型误导

模型是由人设计的，所以它们经常包含着潜在的缺陷。错误的模型或使用不正确或不当的数据构建的模型很容易产生误导，在极端情况下，甚至会产生完全错误的预测。

没有实现适当随机化的选择偏差会混淆预测。例如，在一项假设的减肥研究中，可能有50%的参与者选择退出后续的体重测量。然而，那些中途退出的人与留下来的人有着不同的体重轨迹。这使得分析变得复杂，因为在这样的研究中，那些坚持参加这个项目的人通常是那些真正减肥的人。另一方面，戒烟者通常是那些很少或根本没有减肥经历的人。因此，虽然减肥在整个世界都是具有因果性和可预测性的，但在一个有50%退出率的有限数据库中，实际的减肥结果可能会被隐藏起来。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

外行人的大数据五问带你了解大数据

大数据是什么？是一种运营模式，是一种能力，还是一种技术，或是一种数据集合的统称？今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里？大数据有什么特点？来源有哪些？又应用于哪些方面等等。接下来小编带您一起了解大数据。

大数据概念

"大数据"是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大，指代大型数据集，一般在10TB?规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理。最后一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。

百度知道—大数据概念

大数据(bigdata)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点：Volume、Velocity、Variety、Veracity。

互联网周刊—大数据概念

"大数据"的概念远不止大量的数据（TB）和处理大量数据的技术，或者所谓的"4个V"之类的简单概念，而是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力

研究机构Gartner—大数据概念

"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看，"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务（AWS）、大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义："大数据是最大的宣传技术、是最时髦的技术，当这种现象出现时，定义就变得很混乱。" Kelly说："大数据是可能不包含所有的信息，但我觉得大部分是正确的。对大数据的一部分认知在于，它是如此之大，分析它需要多个工作负载，这是AWS的定义。当你的技术达到极限时，也就是数据的极限"。大数据不是关于如何定义，最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比，开源的大数据分析工具的如Hadoop的崛起，这些非结构化的数据服务的价值在哪里。

大数据分析

众所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大数据不断增长的复杂性，所以大数据的分析方法在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。基于如此的认识，大数据分析普遍存在的方法理论有哪些呢？

大数据技术

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据特点

要理解大数据这一概念，首先要从"大"入手，"大"是指数据规模，大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别，其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity)，即体量大、多样性、价值密度低、速度快。

第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中，快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模，也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域，通过解决巨量数据处理问题促进其突破性发展。因此，大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息，也体现在如何加强大数据技术研发，抢占时代发展的前沿。

当下我国大数据研发建设应在以下四个方面着力

一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程，必须建立良好的运行机制，以促进建设过程中各个环节的正规有序，实现统合，搞好顶层设计。

二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准，为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享，才有生命力。应在各专用数据库建设的基础上，通过数据集成，实现各级各类指挥信息系统的数据交换和数据共享。

四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成，因此，必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

大数据作用

大数据时代到来，认同这一判断的人越来越多。那么大数据意味着什么，他到底会改变什么？仅仅从技术角度回答，已不足以解惑。大数据只是宾语，离开了人这个主语，它再大也没有意义。我们需要把大数据放在人的背景中加以透视，理解它作为时代变革力量的所以然。

变革价值的力量

未来十年，决定中国是不是有大智慧的核心意义标准（那个"思想者"），就是国民幸福。一体现在民生上，通过大数据让有意义的事变得澄明，看我们在人与人关系上，做得是否比以前更有意义；二体现在生态上，通过大数据让有意义的事变得澄明，看我们在天与人关系上，做得是否比以前更有意义。总之，让我们从前10年的意义混沌时代，进入未来10年意义澄明时代。

变革经济的力量

生产者是有价值的，消费者是价值的意义所在。有意义的才有价值，消费者不认同的，就卖不出去，就实现不了价值；只有消费者认同的，才卖得出去，才实现得了价值。大数据帮助我们从消费者这个源头识别意义，从而帮助生产者实现价值。这就是启动内需的原理。

变革组织的力量

随着具有语义网特征的数据基础设施和数据资源发展起来，组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的，是各种各样去中心化的WEB2.0应用，如RSS、维基、博客等。

大数据之所以成为时代变革力量，在于它通过追随意义而获得智慧。

大数据处理

大数据处理数据时代理念的三大转变：要全体不要抽样，要效率不要绝对精确，要相关不要因果。

大数据处理的流程

具体的大数据处理方法确实有很多，但是根据笔者长时间的实践，总结了一个普遍适用的大数据处理流程，并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，最后是数据挖掘。

大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

大数据应用与案例分析

大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。以下是我整理的关于各行各业，不同的组织机构在大数据方面的应用的案例，在此申明，以下案例均来源于网络，本文仅作引用，并在此基础上作简单的梳理和分类。

大数据应用案例之：医疗行业

[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。

[2] 在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

[3] 它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

大数据应用案例之：能源行业

[1] 智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。

[2] 维斯塔斯风力系统，依靠的是BigInsights软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最佳的地点。利用大数据，以往需要数周的分析工作，现在仅需要不足1小时便可完成。

大数据应用案例之：通信行业

[1] XO Communications通过使用IBM SPSS预测分析软件，减少了将近一半的客户流失率。XO现在可以预测客户的行为，发现行为趋势，并找出存在缺陷的环节，从而帮助公司及时采取措施，保留客户。此外，IBM新的Netezza网络分析加速器，将通过提供单个端到端网络、服务、客户分析视图的可扩展平台，帮助通信企业制定更科学、合理决策。

[2] 电信业者透过数以千万计的客户资料，能分析出多种使用者行为和趋势，卖给需要的企业，这是全新的资料经济。

[3] 中国移动通过大数据分析，对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化，再以最快捷的方式推送给指定负责人，使他在最短时间内获知市场行情。

[4] NTT docomo把手机位置信息和互联网上的信息结合起来，为顾客提供附近的餐饮店信息，接近末班车时间时，提供末班车信息服务。

大数据应用案例之：零售业

[1] "我们的某个客户，是一家领先的专业时装零售商，通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务，如何定位公司的差异化，他们通过从 Twitter 和 Facebook 上收集社交信息，更深入的理解化妆品的营销模式，随后他们认识到必须保留两类有价值的客户：高消费者和高影响者。希望通过接受免费化妆服务，让用户进行口碑宣传，这是交易数据与交互数据的完美结合，为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据，使他的业务服务更具有目标性。

[2] 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析，从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见，此类方法已经帮助某领先零售企业减少了17%的存货，同时在保持市场份额的前提下，增加了高利润率自有品牌商品的比例

当前文章：抽样数据nosql,抽样数据分析显示非数据型数据
URL网址：http://azwzsj.com/article/dsedogg.html

抽样数据nosql,抽样数据分析显示非数据型数据

HIVE数据抽样

互联网大数据现关心的是什么？

大数据处理的五大关键技术及其应用

外行人的大数据五问 带你了解大数据

其他资讯

外行人的大数据五问带你了解大数据