大数据时代统计学发展的若干问题

2022-03-23 来源：欧得旅游网

第３４卷第１期　２０１７年１月　统计研究　Ｓｔａｔｉｓｔｉｃａｌ　Ｒｅｓｅａｒｃｈ　Ｖｏ１．３４．Ｎ仉１　Ｊａｎ．２０１７　大数据时代统计学发展的若干问题　“大数据中的统计方法’’课题组①　内容提要：近年来，计算机和互联网的发展使得人类信息的拥有量达到了前所未有的程度，各类信　息被保存流通起来，人类进入了大数据时代。大数据具有规模性、多样性，高速性等特点，给统计学的发　展带来了新的机遇，同时也带来了新的挑战。本文回顾了统计学的发展历史，剖析了统计学的发展特　点，在此基础上讨论了大数据背景下统计学的发展定位；并进～步分析统计学与计算机之间的关系，最　后分析了大数据研究中存在的若干误区。　关键词：大数据计算机；因果关系；抽样；数据质量　ＤＯＩ：１０．１９３４３／ｊ．ｃｎｋｉ．１　１—１３０２／ｃ．２０１７．０１．００１　中图分类号：Ｃ８２９．２　文献标识码：Ａ　文章编号：１００２—４５６５（２０１７）０１—０００５—０７　Ｒｅｆｌｅｃｔｉｏｎｓ　ｏｎ　ｔｈｅ　Ｐｏｓｉｔｉｏｎｉｎｇ　ｏｆ　Ｓｔａｔｉｓｔｉｃｓ　ｉｎ　ｔｈｅ　Ｂｉｇ　Ｄａｔａ　Ｅｒａ　‘‘Ｓｔａｔｉｓｔｉｃａｌ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｂｉｇ　Ｄａｔａ”Ｗｏｒｋｉｎｇ　Ｇｒｏｕｐ　Ａｂｓｔｒａｃｔ：Ｉｎ　ｔｈｅ　ｐａｓｔ　ｄｅｃａｄｅｓ，ｔｈｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｃｏｍｐｕｔｅｒ　ｓｃｉｅｎｃｅ　ａｎｄ　ｉｎｔｅｒｎｅｔ　ｔｅｃｈｎｉｑｕｅｓ　ｈａｓ　ｅｎａｂｌｅｄ　ｒｅｓｅａｒｃｈｅｒｓ　ｔｏ　ｃｏｌｌｅｃｔ，ｓｔｏｒｅ，ａｎｄ　ａｎａｌｙｚｅ　ｄａｔａ　ａｔ　ａｎ　ｕｎｐａｒａｌｌｅｌｅｄ　ｓｐｅｅｄ，ｗｉｔｈ　ｗｈｉｃｈ　ｗｅ　ｈａｖｅ　ｅｎｔｅｒｅｄ　ｔｈｅ　ｅｒａ　ｏｆ　ｂｉｇ　ｄａｔａ．Ｂｉｇ　ｄａｔａ　ｈａｖｅ　ｕｎｉｑｕｅ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ（ｖｏｌｕｍｅ，ｖａｉｒｅｔｙ，ｖｅｌｏｃｉｔｙ，ａｎｄ　ｖｅｒａｃｉｔｙ），ｗｈｉｃｈ　ｂｒｉｎｇ　ｏｐｐｏｒｔｕｎｉｔｉｅｓ　ａｓ　ｗｅｌｌ　ａｓ　ｃｈａｌｌｅｎｇｅｓ　ｔｏ　ｓｔａｔｉｓｔｉｃｓ　ａｎｄ　ｓｔａｔｉｓｔｉｃｉａｎｓ．Ｉｎ　ｔｈｉｓ　ａｒｔｉｃｌｅ，ｗｅ　ｅｘａｍｉｎｅ　ｔｈｅ　ｈｉｓｔｏｒｙ　ｏｆ　ｓｔａｔｉｓｔｉｃａｌ　ｍｅｔｈｏｄｏｌｏｇｉｃａｌ　ｄｅｖｅｌｏｐｍｅｎｔ　ａｎｄ　ａｎａｌｙｚｅ　ｔｈｅ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ　ｏｆ　ｓｔａｔｉｓｔｉｃａｌ　ｄｅｖｅｌｏｐｍｅｎｔ，ｂａｓｅｄ　ＯＨ　ｗｈｉｃｈ　ｗｅ　ｐｒｏｐｏｓｅ　ｔｈｅ　ｐｏｓｉｔｉｏｎｉｎｇ　ｏｆ　ｓｔａｔｉｓｔｉｃｓ　ｉｎ　ｔｈｅ　ｂｉｇ　ｄａｔａ　ｅｒａ　ａｎｄ　ｄｉｓｃｕｓｓ　ｔｈｅ　ｉｎｔｅｒｅｏｎｎｅｅｔｉｏｎｓ　ａｎｄ　ｉｎｔｅｒａｃｔｉｏｎｓ　ｂｅｔｗｅｅｎ　ｓｔａｔｉｓｔｉｃｓ　ａｎｄ　ｃｏｍｐｕｔｅｒ　ｓｅｉｅｎｅｅ／ｉｎｔｅｒｎｅｔ　ｔｅｃｈｎｏｌｏｇｉｅｓ．Ａｔ　ｔｈｅ　ｅｎｄ，ｗｅ　ｃｌａｒｉｆｙ　ａ　ｆｅｗ　ｍｉｓｕｎｄｅｒｓｔａｎｄｉｎｇｓ　ｉｎ　ｂｉｇ　ｄａｔａ　ａｎａｌｙｓｉｓ．　Ｋｅｙ　ｗｏｒｄｓ：Ｂｉｇ　Ｄａｔａ；Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ；Ｃａｕｓａｌｉｔｙ；Ｓａｍｐｌｉｎｇ；Ｄａｔａ　Ｑｕａｌｉｔｙ　一、引言　随着计算机技术，尤其是互联网和多媒体技术的普及与飞速发展，人类社会被呈爆炸性增长的　信息所包围。据国际商业机器公司（ＩＢＭ）资料显示＿ｌｊ，目前数据的生成每日以千万亿字节来计算，　全球近９０％的数据是在过去两年产生的，大数据时代已经到来。　依照美国咨询公司麦肯锡（ＭｃＫｉｎｓｅｙ）　的定义，大数据是指那些规模超出了典型的数据库软　件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比，大数据的大不仅仅是体　量上的扩充，数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更　高的现代信息技术，大数据可以认为是一切可记录的数字化信号集合。从数据特征来看，　本文获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”（批准号１３ＣＴＪ００１）和国家自然科学基金面上　项目“广义线性模型的组变量选择及其在信用评分中的应用”（批准号７１４７１１５２）的资助。　①课题组负责人：马双鸽；课题组成员：刘蒙阕，周峙利，方匡南，朱建平，谢邦昌；课题承担单位：厦门大学经济学院统计系。　・　６・　统计研究　２０１７年１月　Ｇｒｏｂｅｌｉｎｋ．Ｍ（２０１２）Ｌ　３　３提出了著名的“３Ｖ”定义，即多样性（Ｖａｒｉｅｔｙ）、规模性（Ｖｏｌｕｍｅ）、高速性　（Ｖｅｌｏｃｉｔｙ）。在此基础上，国际数据公司（ＩＤＣ）认为大数据还具有价值密度低的特点（Ｖａｌｕｅ），而国　际商业机器公司（ＩＢＭ）则提出大数据的真实性（Ｖｅｒａｃｉｔｙ）。　近年来，ＩＢＭ、Ｏｒａｃｌｅ、Ｍｉｃｒｏｓｏｆｔ、Ｇｏｏｇｌｅ、Ａｍａｚｏｎ、Ｆａｃｅｂｏｏｋ等跨国公司大力推动了大数据处理技　术的发展，在自然科学、金融、医疗、移动通信等领域涌现出了大量大数据应用成果　３］。伴随着大　数据的广泛应用，越来越多的学者开始关注和讨论大数据问题，形成了一些颇具影响力、有代表性　的观点。其中最典型的要属舍恩伯格和库克耶（２０１３）提出的大数据时代三个重要的思维转变：更　多（不是随机样本，而是全体数据）、更杂（不是精确性，而是混杂性）、更好（不是因果关系，而是相　关关系）Ｌ４］。上述观点在业界、学术界引起很多共鸣，同时也存在很多质疑　儿　。此观点对于大数　据时代统计学的发展方向具有一定的指导性作用，然而却很少有文章在探讨统计学科如何发展的　背景下系统地对其进行反思。因此，本文首先回顾了统计学的发展历史，指出统计学的发展总是以　应用为驱动，在此基础上讨论了大数据背景下统计学的发展定位，进一步分析了统计学与计算机之　间的关系，并针对舍氏“三个重要的思维转变”提出看法。　二、统计学与大数据　本部分简略回顾统计学的发展历史，从历史的角度把握大数据时代统计学的发展定位问题。　统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序，通常可以将统计　学的发展史分为三个阶段，分别是古典统计学时期、近代统计学时期和现代统计学时期。古典统计　学的萌芽最早可以追溯到１７世纪中叶，此时的欧洲正处于封建社会解体和资本主义兴起的阶段，　工业、手工业快速增长，社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据　以适应经济发展需要，此时一系列统计学的奠基工作在欧洲各国相继展开。在这一时期，以威廉・　配第和约翰・格朗特为代表的政治算术学派与海尔曼・康令（Ｈｅｒｍａｎｎ　Ｃｏｎｒｉｎｇ）创立的国势学派相　互渗透和借鉴，服务与指导了国家管理和社会福利改善。　１８世纪末至１９世纪末为近代统计学发展时期。这１００年问欧洲各国先后完成了工业革命，　科学技术开始进入全面繁荣时期，天文、气象、社会人口等领域的数据资料达到一定规模的积累，对　统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会　需求，数理统计学派创始人凯特勒（Ａ．Ｊ．Ｑｕｅｔｅｌｅｔ）率先将概率论引进古典统计学，提出了大数定律　思想，使统计学逐步成为揭示事物内在规律、可用于任何科学的一般性研究方法。一些重要的统计　概念也在这一时期提出，误差测定、正态分布曲线、最／］ｘｚ．乘法、大数定律等理论方法的大量运用为　社会、经济、人口、法律等领域的研究提供了指导。　２０世纪科学技术的发展速度远超过之前的时代，以描述性方法为核心的近代统计已无法满足　需求，统计学的重心转为推断　统计，进入了现代统计学阶段。随着２０世纪初细胞学的发展，农业　育种工作全面展开。１９２３年，英国著名统计学家费雪（Ｒ．Ａ．Ｆｉｓｈｅｒ）为满足作物育种的研究需求，　提出了基于概率论和数理统计的随机试验设计技术以及方差分析等一系列推断统计理论和方法。　推断性统计方法的进步对工农业生产和科学研究起到了很大的促进作用。自２０世纪３０年代，随　着社会经济的发展和医学先进理念的吸收融合，人们对于医疗保险和健康管理的需求日益增长，统　计思想渗透到医学领域形成了现代医学统计方法　。例如在生存质量（Ｑｕａｌｉｔｙ　ｏｆ　Ｌｉｆｅ）研究领域，　通过分析横向、纵向资料，逐步形成了重复测量资料的方差分析、质量调整生存年（ＱＡＬＹｓ）法等统　计方法　］。这一阶段，统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用，这　些领域的发展又带动统计方法不断创新，主成分估计、非参数估计、ＭＭＥ算法等方法应运而生。随　３４卷第１期　‘‘大数据中的统计方法’’课题组：大数据时代统计学发展的若干问题　’７・　着现代生物医学的发展，计算机技术的进步，人类对健康的管理和疾病的治疗已进入基因领域，对　基因数据分析产生了大量需求。高维海量的基因数据具有全新的数据特征，由此一系列面向高维　数据的统计分析方法相继产生。　回顾统计学史可以发现，在不同的社会背景下，统计学的发展都是以实际需求为驱动，伴随着　需求和数据的改变逐步向前发展。在以数据信息为核心的大数据时代，各个领域的发展都需要从　大数据中汲取动力，这无疑对统计数据分析产生了大量的需求。而大数据所具有的数据特征使得　部分传统统计方法不再适用。根据学科特点和历史沿革，不难看出，在大数据时代，统计学需要针　对大数据的特征，以服务和满足各领域需求为目标，不断创新和发展数据分析方法与理论。　三、统计学与计算机　自２０世纪以来，计算机技术有了飞跃式发展，计算机技术催生了大数据，并支撑了大数据的处　理与分析。计算机技术可以说是大数据发展的基础。大数据时代对统计学发展的探讨自然离不开　对计算机科学的关注。大数据的价值产生于分析过程，作为大数据分析的主要工具与方法，统计学　与计算机技术共同成为服务于大数据的核心科学。两者关系密切，存在着合作与竞争并存的关系。　计算机为统计学的发展起到了很大的促进作用。从数量、类型等方面考察，计算机使人类所拥　有的数据水平达到了全新的高度。新型的数据或者数据特征催生出新的数据处理方法，例如社交　网络的发展直接促进了基于网络的统计方法的产生；大数据流环境促进了数据流算法的产生等。　计算机技术也融进统计方法中，促进了新的统计方法的诞生。自２０世纪计算机兴起，一系列建立　在计算机基础之上的统计方法被开发出来，ＭＣＭＣ模拟计算、Ｊａｃｋｋｎｉｆｅ、Ｂｏｏｔｓｔｒａｐ等。此类方法不　仅拓展了统计学领域，而且开创了解决问题的新思路。进入大数据时代，以互联网为中心的云计算　技术为大数据提供了保管、访问的场所和渠道。伴随着分布式和并行计算（云计算核心技术）的快　速发展，Ｂａｇ　ｏｆ　Ｌｉｔｔｌｅ　Ｂｏｏｔｓｔｒａｐｓ算法（２０　１　２）、Ｍｅｍｏｒｙ—Ｅｆｉｆｃｉｅｎｔ　Ｔｕｃｋｅｒ　Ｄｅｃｏｍｐｏｓｉｔｉｏｎ（２００８）、基于　ＭａｐＲｅｄｕｃｅ的Ｋ—ｍｅａｎｓ算法（２００９）、基于ＭａｐＲｅｄｕｃｅ的并行Ａｐｒｉｏｒｉ算法（２０１２）等一系列面向大数　据的抽样、分类、聚类、关联分析方法应运而生　～１２］。　在数据统计分析方法蓬勃发展的同时，以数据库技术为关键支撑的计算机信息处理技术在很　多领域上也得到发展。例如，在数据获取方面，ＤＥＥＰ　ＷＥＢ技术可以用于感知数据，以及进行高质　量的数据继承和整合；在数据存储方面，谷歌、ＩＢＭ和百度等公司大量运用的ＧＦＳ技术，能够实现　高效率的分布式数据存储，并且可以给大量用户提供总体性能较高的服务；在数据索引方面，当前　比较主流的索引技术之一是ＢｉｇＴａｂｌｅ，它是一个分布式的、可扩展的、高效的非关系型数据库；在可　视化方面，Ｃｌｕｓｔｅｒｇｒａｍ技术可以进行聚类，从而优化大数据分析结果的形式¨　。大数据时代，统计　学与计算机互相促进，存在着紧密合作关系。　另一方面，由于统计学的发展是以实际需求为驱动，如果要解决的问题随着计算机的发展可以　得到很好地解决，那么相应的统计方法可能就埋没在浩瀚的历史长河里了。ｌ：Ｅ￣ｎ在大数据时代，出　现了超高维数据，ＬＡＳＳＯ、ＳＣＡＤ等方法在处理超高维数据下的计算效率远远不够＿ｌ　。对于超高维　数据，Ｆａｎ和Ｌｖ¨　提出的ＳＩＳ（Ｓｕｒｅ　Ｉｎｄｅｐｅｎｄｅｎｃｅ　Ｓｃｒｅｅｎｉｎｇ）方法可以快速有效地把超高维数据降　维。这是一种基于相关准则的降维方法，相关准则把特征重要性按照它们与因变量的边际相关来　排序，并把与因变量的边际相关弱的那些变量过滤掉。这种统计方法可以有效地降低计算成本，当　计算机的速度和性能得到很大提升后，它的价值却在减小。基于分布式系统的大规模数据软件平　台Ｈａｄｏｏｐ，通过并行处理可以成倍地提高计算机性能，作为显卡核心的图形处理器ＧＰＵ拥有一个　专为同时处理多重任务而设计的由数以千计、小而高效的核心组成的大规模并行计算架构，经过并　・　８　・　统计研究　２０１７年１月　行计算的优化，理论上在ＧＰＵ上的计算速度会比ＣＰＵ快５０～１００倍　，不借助ＳＩＳ方法的“ＧＰＵ　＋Ｈａｄｏｏｐ”就可以直接处理超高维数据。部分统计学方法有可能淹没在计算机技术的发展洪流　中。从学科的发展角度来看，统计学与计算机技术也存在一定的竞争关系。这揭示出统计学所面　临的被替代的危机，而面对这个危机最好的态度是积极地拥抱计算机技术，使计算机技术融人统计　学。在大数据时代，统计学应该与计算机技术更加紧密地结合。　四、大数据分析的若干误区　关于大数据的数据分析理念，学术界展开了很多研究与讨论，一定程度上促进了统计学的发展　和数据分析理念的更新，但是也出现了一些误区。　（一）因果关系　大数据时代一个显著现象是更关注于数据的相关关系。舍恩伯格等在《大数据时代》　中提　到大数据的一个思维转变：“相关关系比因果关系能更好地了解这个世界”。国内外学者也开始更　多地关注大数据时代相关分析方法的研究　７＿ｌＩ　。针对相关分析展开的研究，使人们对于自身和　世界的认识有一个开放的信息系统视角，对事物的认识不再局限于封闭领域　Ｊ　］。例如通过谷歌　ｌ趋势服务，预测股市的涨跌，发现Ｔｗｉｔｔｅｒ用户的情绪有助于预测股市等　。在大数据时代下的相　关关系分析，利用机器分析能力和计算能力来寻找到最优的关联物，相关分析在各个领域都涌现出　了很多很好的应用成果，例如亚马逊的推荐系统、基于数据进行抓取、挖掘和可视化呈现的数据新　闻等，这些应用通过数据挖掘实现了从数据到价值的转变，创造出很好的经济利润和社会效益。　尽管对相关关系的分析颇具价值，但相关分析只是停留在数据表面。相关关系强的对象之间　可能并不存在本质上的关联性。例如在Ｇｏｏｇｌｅ　Ｆｌｕ　Ｔｒｅｎｄｓ（ＧＦＴ）的研究中　，ＧＦＴ预测的流感样　病例门诊数超过了ＣＤＣ（疾病预防控制中心）根据全美各实验室监测报告得出的预测结果的两倍，　其主要原因是搜索的关键词很多只是从数据上看似与流感有关，但实际上无关联。其次相关分析　不能揭示因果关系。基于相关分析得出的结论往往是表面现象，反应它们有某种共同变化的趋势，　但并不必然存在因果关系。如果直接基于相关分析结果做决策，有时可能会对决策造成误导。　大数据时代需要更深层次的分析，而对因果关系的研究一定程度上能满足此需求。１９３４年，　Ｗｒｉｇｈｔ　ｌ２　把路径分析引入统计学，用有向图来表示因果假设开始了因果推断，路径分析逐渐发展　成结构方程模型。近几十年，很多学者致力于因果关系的研究，因果网（ｃａｕｓａｌ　ｎｅｔｗｏｒｋｓ）和虚拟事　实模型（ｃｏｕｎｔｅｒｆａｃｔｕａ１）或潜在反应（ｐｏｔｅｎｔｉａ１．ｏｕｔｃｏｍｅｓ）模型是刻画因果关系的最主要的　模型　。　致力于因果关系研究的分析方法在大数据时代依然有至关重要的地位。人工智能是大数据时　代发展的趋势之一。语音识别、自然语言的理解、图象识别、无人驾驶等的发展正深刻地改变这个　世界，在人工智能的核心领域一机器学习中，回归分析是有监督学习的主要方法之一。Ｐｅａｒｌ提出　的概率和因果推理演算法彻底改变了人工智能最初基于规则和逻辑的方向，为该领域带来了革命　性的影响　。在自然语言处理、计算机视觉、信息抽取和信息检索等领域单使用相关性模型就可　以满足应用需求，然而如果要求在给定情景下提供如何干预或者控制某些因素的决策支持，例如在　医学领域，需要对疾病进行预防和控制，则需要使用因果推断模型。此类决策需求会随着大数据的　深入发展而增多。　至今对于大数据的处理还存在很多挑战与问题，面对开放的大数据系统，统计思维和分析方法　正在经历创新与变革　。目前还缺少面向大数据的因果分析方法，可预见的是复杂而丰富的数据　资源为复杂模型分析提供了更多可能性，因果关系研究可以在大数据时代获得更多的发展。因果　第３４卷第１期　“大数据中的统计方法”课题组：大数据时代统计学发展的若干问题　。９・　关系研究意义深远，是大数据时代发展所需的理论基石，舍恩伯格等认为“相关关系比因果关系更　重要”，这一结论恐怕过于片面，容易造成误导。　（二）抽样　舍恩伯格等在《大数据时代》　中提到大数据的另一个思维转变，就是“要全体不要抽样”。大　数据可提供所有能够用现代信息技术记录的数据，除了可以提供事物之间的共性信息与普遍性规　律之外，还可以提供个性化的特征信息。对少数群体特征及微小规律的揭示是传统抽样数据无法　给予的。然而因此认为抽样在大数据时代不重要、甚至应该退出舞台的观点值得怀疑。　大数据的“大”不仅指的是数据体量的大，更重要的是因为高时空分辨率所带来的多层次数据　信息结构。在一些大数据领域，可依靠高性能计算机使用分布式系统处理数据，然而在很多大数据　环境下，计算机无法满足处理需求。例如在高速网络中，面对瞬息之间涌入的海量数据流，我们无　法将信息完全存储下来。此时一种合理的策略就是基于抽样建立起能够进行事后分析的汇总信息　来保存数据核心内容　Ｊ。针对大数据流环境，耿直（２０１４）提出需要探索如何抽取足以满足统计目　的和精度的样本，需要研究新的适应性、序贯性和动态的抽样方法　。同时从计算成本，便捷性角　度考虑，抽样相比于全数据处理往往是更优的选择。因此即使是在有能力处理全数据的计算环境　下，对抽样依然存在着巨大的需求。　大数据的生成与采集在人为的设计框架之下，可能存在系统性偏差。例如在社交网络数据中，　人群的上网行为习惯、计算机知识、经济地位等都是左右数据生成的因素　Ｊ。大数据与真实总体　之间可能存在差距。其次，大数据存在混杂性，数据误差普遍存在于大型数据库和网络中　，在捕　捉主要趋势信息时，如果进行全数据处理，大量的误差会影响分析结果的有效性　６＿ｌ３　。抽样虽然　受条件、时间、资源、成本等诸多因素限制，然而在设计合理的情况下，在大数据领域抽样仍然具有　价值，可以与大数据起到相互印证的作用。当抽样数据与大数据结果冲突严重时，需要考虑新的数　据设计与采集，此时抽样对大数据系统起到了预警作用。　在大数据环境下，为获取在总体中难于捕捉观测的信息，需要研究案例抽样、不等概率抽样等　方法　。在图像、社交网络等领域的大数据中，抽样方法存在很多需求与挑战，有待研究　。总　之，抽样在大数据时代仍然具有举足轻重的地位。　（三）数据质量　舍恩伯格等认为“执迷于精确性是信息缺乏时代和模拟时代的产物”，因为有限的信息量会使　细微错误被放大。而在大数据时代，对错误的包容和对混杂性的接纳所带来的更为广泛的海量数　据能揭示大致趋势，能提供足够有价值的信息。牺牲精确性常为我们换来信息的时效性与广泛性。　舍恩伯格等指出“允许不精确已成为大数据的一个特点”　ｊ。然而如若因此认为大数据可以忽视　数据质量问题，则进人了一个理解误区。　大数据记录了所有可以记录的数据，然而因为大数据的复杂性与混杂性，充斥着各种可能性误　差的数据整体并不一定能提供有效信息。大数据的生成与采集经过了人为设计，并非完全客观，因　此数据有可能存在本质性偏差。若数据的来源没有经过分析和评估，那么由它得出的任何结论都　可以被质疑＿２９儿　Ｊ。有数据显示，部分公司数据错误率可达到３０％以上。数据误差普遍存在于大　型数据库和网络中　。尽管在大数据时代，为掌握更多数据，容错标准被放松，数据误差不可避　免，但是大数据允许误差，不代表着对误差的无视。误差的界限需要被测评，数据质量需要被管理，　否则信息价值缺乏保障。　大数据分析对数据误差有很高的敏感性。大数据的体量、高维性以及数据生成的速度使得数　据中很小的误差也会如滚雪球一样累积并被放大　。。。在大数据分析中，误差累积效应会掩盖真实　・１０・　统计研究　２０１７年１月　信号，从而得出错误的结论。目前这一问题可部分通过稀疏模型、变量选择来缓解，但同时变量选　择的准确性亦受数据误差的影响。在统计回归模型中，为保证模型估计的一致性，要求解释变量需　要满足外生性。而在大数据情况下，数据来源各异、形态多元化会加剧解释变量数据误差的产生，　由此有可能会出现内生性问题，影响模型的结果　。因此，在大数据环境下不可忽视数据的质量，　反而应该得到更多的关注。　五、待解决的问题　大数据给统计学带来了新的发展机遇，也给传统的统计学带来了一定的挑战，最直接的挑战就　是部分传统经典的统计方法在大数据环境下失效了。那么，大数据时代，统计学科的发展何去何从　呢？有哪些大数据问题亟待统计学去解决呢？这些是统计学者很关心的问题，但是这个命题比较　大，很难给出满意的答案。本课题组从所研究的课题出发，提出大数据时代几个相对比较重要的问　题，由于知识的局限性，所提出的问题不一定完全正确，也不一定全面。我们希望抛砖引玉，吸引更　多统计学者参与探讨大数据时代下的统计学发展方向。　（一）如何在大数据时代发展经典统计　很多传统的经典统计方法，从理论到实践，经过不同领域的长时问检验，表现良好，但在大数据　时代直接应用会产生一些问题。本文认为直接抛弃这些经典统计方法是不恰当的，甚至是一种损　失。如何结合高速计算方法以及相应的软硬件环境进行改进，并将其应用到大数据中，是一个值得　思考的问题。　（二）多源异构大数据的整合分析　在大数据时代，对同一对象或问题的描述常存在多种不同来源的数据，例如为分析城市居民出　行模式可以通过ＧＰＳ定位、社交网络、公交刷卡等不同数据源来获取居民的位置信息等。在大数　据时代搜集数据更为便利，通过对数据进行有效整合一方面可以获取更为丰富的信息，另一方面不　同来源的数据相互印证，可以检验信息的真实性和准确性。但由于不同来源的数据有不同的数据　特征和结构，对于这种多源异构大数据的整合分析和建模也是统计学的重要发展方向之一。　（三）大数据的边际效应问题　大数据时代提供给人们一个开放的信息系统，可以利用各类信息收集设备采集数据，然而在实际　中，数据并不是一味地越多越好。大数据所产生的信息价值存在边际递减效应，即数据体量大到一定　程度，所提供的信息几乎不再增加，但是收集、处理的成本却在不断增加，同时所含有的数据噪声反而　影响信息提取。因此在大数据时代，对于数据的体量并不能盲目追求大，而需要考虑成本与效用之间　的平衡，选择一个最优的数据量。因此有必要从统计角度来讨论大数据在建模中的边际效应问题。　／六、、Ｊ、总结　　百　高维海量的大数据，同时具有多样性、高速性等特点，实际应用和数据驱动着统计学向前发展。　在大数据时代，计算机和统计的结合成为分析和研究大数据的基础，统计学者需要更全面地了解计　算机相关知识。虽然对大数据的数据分析理念，思维变革等都已展开了很多研究与讨论，但是人们　对大数据的认识总是需要一个过程。对一些问题的误解可能会对统计学的发展造成重大损失，例　如相关分析比因果分析更重要，大数据时代不需要抽样了，大数据时代数据质量不重要了。作为统　计学者不能人云亦云，对当前存在的一些认识误区应及时指出并纠正。另外，大数据时代，还有很　多问题需要经过反复的讨论以及时间的检验，比如大数据时代经典统计方法该如何发展？多源异　构大数据如何整合分析？大数据是否越大越好？以上所讨论的问题是关于统计发展方向的几个比　第３４卷第１期　“大数据中的统计方法”课题组：大数据时代统计学发展的若干问题　・１】・　较重要的问题，值得统计学者深人研究。　参考文献　［１］ＩＢＭ．Ｂｉｇ　Ｄａｔａ　ａｎｄ　Ａｎａｌｙｔｉｃｓ［Ｎ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ—Ｏ１．ｉｂｍ．ｃｏｍ／ｓｏｆｉｗａｒｅ／ｄａｔｓ／ｂｉｇｄａｔａ／ｗｈａｔ－ｉｓ—ｂｉｇ－ｄａｔａ．ｈｔｍｌ，２０１６—１０—０５．　［２］Ｍｃｋｉｎｓｅｙ　Ｇｌｏｂａｌ　Ｉｎｓｔｉｔｕｔｅ，Ｂｉｇ　Ｄａｔａ：Ｔｈｅ　ｎｅｘｔ　ｆｒｏｎｔｉｅｒ　ｆｏｒ　ｉｎｎｏｖａｔｉｏｎ，ｃｏｍｐｅｔｉｔｉｏｎ　ａｎｄ　ｐｒｏｄｕｃｔｉｖｉｔｙ，２０１　１—５．　［３］Ｇｒｏｂｅｌｉｎｋ　Ｍ．Ｂｉｇ—ｄａｔａ　ｃｏｍｐｕｔｉｎｇ：Ｃｒｅａｔｉｎｇ　ｒｅｖｏｌｕｔｉｏｎａｒｙ　ｂｒｅａｋｔｈｒｏｕｇｈｓ　ｉｎ　ｃｏｍｍｅｒｃｅ，ｓｃｉｅｎｃｅ　ａｎｄ　ｓｏｃｉｅｔｙ［Ｎ／ＯＬ］．２０１２一ｌＯ一０２．　［４］Ｖｉｋｔｏｒ　Ｍａｙｅｒ—Ｓｃｈｔ￣ｎｂｅｒｇｅｒ．大数据时代［Ｍ］．杭州：浙江人民出版社，２０１２．　［５］Ｈａｒｆｏｒｄ　Ｔ．Ｂｉｇ　ｄａｔａ：Ａ　ｂｉｇ　ｍｉｓｔａｋｅ？［Ｊ］．Ｓｉｇｎｉｉｆｃａｎｃｅ，２０１４，１１（５）：１４—１９．　［６］Ｌａｚｅｒ　Ｄ，ｅｔ　ａ１．Ｂｉｇ　ｄａｔａ．Ｔｈｅ　ｐａｒａｂｌｅ　ｏｆ　Ｇｏｏｇｌｅ　Ｆｌｕ：ｔｒａｐｓ　ｉｎ　ｂｉｇ　ｄａｔａ　ａｎａｌｙｓｉｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１４，３４３（６１７６）：１２０３—１２０５．　［７］Ｏｌｓｅｎ　Ｃ．Ｔｈｅ　Ｌａｄｙ　Ｔａｓｔｉｎｇ　Ｔｅａ：Ｈｏｗ　Ｓｔａｔｉｓｔｉｃｓ　Ｒｅｖｏｌｕｔｉｏｎｉｚｅｄ　Ｓｃｉｅｎｃｅ　ｉｎ　ｔｈｅ　Ｔｗｅｎｔｉｅｔｈ　Ｃｅｎｔｕｒｙ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　ｔｈｅ　Ａｍｅｒｉｃａｎ　Ｓｔａｔｉｓｔｉｃａｌ　Ａｓｓｏｃｉａｔｉｏｎ，２００２，２８６（４５８）：１２３８～１２３９．　［８］Ｅｖｅｒｉｔｔ　Ｂ　Ｓ．Ｍｏｄｅｒｎ　Ｍｅｄｉｃａｌ　Ｓｔａｔｉｓｔｉｃｓ：Ａ　Ｐｒａｃｔｉｃａｌ　Ｇｕｉｄｅ［Ｊ］．Ｂｉｏｍｅｔｉｒｃｓ，２００２，６０（１）：２９１．　［９］ＷａｇｓｔａｆｆＡ．ＱＡＬＹｓ　ａｎｄ　ｔｈｅ　ｅｑｕｉｔｙ－ｅｆｉｆｃｉｅｎｃｙ　ｔｒａｄｅ－ｏｆｆ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆＨｅａｌｔｈ　Ｅｃｏｎｏｍｉｃｓ，１９９１，ｌ０（１）：２１－４１．　［１０］Ｎｉｎｇ　Ｌ，Ｌｉ　Ｚ，Ｈｅ　Ｑ，ｅｔ　ａ１．Ｐａｒａｌｌｅｌ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　Ａｐｒｉｏｆｉ　Ａｌｇｏｒｉｔｈｍ　Ｂａｓｅｄ　ｏｎ　ＭａｐＲｅｄｕｃｅ［Ｊ］．２０１２，１（２）：２３６～２４１．　［１１］Ｚｈａｏ　Ｗ，Ｍａ　Ｈ，Ｈｅ　Ｑ．Ｐａｒａｌｌｅｌ　Ｋ—Ｍｅａｎｓ　Ｃｌｕｓｔｅｒｉｎｇ　Ｂａｓｅｄ　ｏｎ　ＭａｐＲｅｄｕｃｅ［Ｃ］．Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００９．６７４—６７９．　［１２］Ｋｌｅｉｎｅｒ　Ａ，Ｔａｌｗａｌｋａｒ　Ａ，Ｓａｒｋａｒ　Ｐ，ｅｔ　ａ１．Ｔｈｅ　Ｂｉｇ　Ｄａｔａ　Ｂｏｏｔｓｔｒａｐ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，２０１２．１７５９—１７６６．　［１３］Ｍｕｒｎｇｅｓａｎ　Ｓ，Ｂ￣ａｎｏｖａ　Ｉ．４７．Ｃｌｏｕｄ　Ｄａｔａ　Ｍａｎａｇｅｍｅｎｔ［Ｍ］．Ｎｅｗ　Ｙｏｒｋ：Ｊｏｈｎ　Ｗｉｌｅｙ＆Ｓｏｎｓ，Ｌｔｄ，２０１６．５７２—５８１．　［１４］Ｆａｎ　Ｊ，Ｓａｍｗｏｒｔｈ　Ｒ，ｗｕ　Ｙ．Ｕｈｒａｈｉｇｈ　ｄｉｍｅｎｓｉｏｎａｌ　ｖａｒｉａｂｌｅ　ｓｅｌｅｃｔｉｏｎ：ｂｅｙｏｎｄ　ｔｈｅ　ｌｉｎｅａｒ　ｍｏｄｅｌ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　Ｒｅｓｅａｒｃｈ　Ｊｍｌｒ，２００８，１０（５）：２０１３—２０３８．　［１５］Ｆａｎ　Ｊ，Ｒｕｉ　Ｓ．Ｓｕｒｅ　ｉｎｄｅｐｅｎｄｅｎｃｅ　ｓｃｒｅｅｎｉｎｇ　ｉｎ　ｇｅｎｅｒｌａｉｚｅｄ　ｌｉｎｅａｒ　ｍｏｄｅｌｓ　ｗｉｔｈ　ＮＰ－ｄｉｍｅｎｓｉｏｎａｌｉｔｙ［Ｊ］．Ａｎｎａｌｓ　ｏｆ　Ｓｔａｔｉｓｔｉｃｓ，２００９，３８　（６）：３５６７—３６０４．　［１６］Ｙａｄａｖ　Ｒ　Ｋ，Ｂｈａｄｏｒｉａ　Ｒ　Ｓ，Ｓｕｒｉ　Ａ．ＧＰＵ－ａｃｃｅｌｅｒａｔｅｄ　Ｌａｒｇｅ　Ｓｃａｌｅ　Ａｎａｌｙｔｉｃｓ　ｕｓｉｎｇ　ＭａｐＲｅｄｕｃｅ　Ｍｏｄｅｌ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｈｙｂｒｉｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，２０１５，８（６）：３７５—３８０．　［１７］Ｒｅｓｈｅｆ　Ｄ　Ｎ，ＲｅｓｈｅｆＹ　Ａ，Ｆｉｎｕｃａｎｅ　Ｈ　Ｋ，ｅｔ　ａ１．Ｄｅｔｅｃｔｉｎｇ　ｎｏｖｅｌ　ａｓｓｏｃｉａｔｉｏｎｓ　ｉｎ　ｌｒｇｅ　ｄａｔａ　ａｓｅｔｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１１，３３４（６０６２）：１５１８　—１５２４．　［１８］Ｎｇｕｙｅｎ　Ｈ　Ｖ，ｅｔ　ａ１．Ｍｕｌｔｉｖａｒｉａｔｅ　ｍａｘｉｍａｌ　ｃｏｒｒｅｌａｔｉｏｎ　ａｎａｌｙｓｉｓ［Ａ］．３１　ｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ：（ＩＣＭＬ　２０１４）：Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２１—２６　Ｊｕｎｅ　２０１４［Ｍ］．Ｎｅｗ　Ｙｏｒｋ：Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　Ｓｏｃｉｅｔｙ，２０１４．７７５—７８３．　［１９］Ｈｅ￣ｔｔ　Ｃ．Ｏｐｅｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙｓｔｅｍｓ　Ｓｅｍａｎｔｉｃｓ　ｆｏｒ　ｄｉｓｔｒｉｂｕｔｅｄ　ａｒｔｉｉｆｃｉａｌ　ｉｎｔｅｌｌｉｇｅｎｃｅ［Ｊ］．Ａｒｔｉｉｆｃｉｌａ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，１９９１，４７（１／３）：７９—１０６．　［２０］Ｐｒｅｉｓ　Ｔ，Ｍｏａｔ　Ｈ　Ｓ，Ｓｔａｎｌｅｙ　Ｈ　Ｅ．Ｑｕａｎｔｉｆｙｉｎｇ　Ｔｒａｄｉｎｇ　Ｂｅｈａｖｉｏｒ　ｉｎ　Ｆｉｎａｎｃｉｌ　Ｍａｒｋｅｔａｓ　Ｕｓｉｎｇ　Ｇｏｏｇｌｅ　Ｔｒｅｎｄｓ［Ｊ］．Ｓｃｉｅｎｔｉｉｆｃ　Ｒｅｐｏｒｔｓ，　２０１３，３（７４４６）：５４２．　［２１］Ｂｕｔｌｅｒ　Ｄ．Ｗｈｅｎ　Ｇｏｏｇｌｅ　ｇｏｔ　ｆｌｕ　ｗｒｏｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１３，４９４（７４３６）：１５５—１５６．　［２２］ｗｒｉｇｈｔ　Ｓ．Ｔｈｅ　Ｍｅｔｈｏｄ　ｏｆ　Ｐａｔｈ　Ｃｏｅｆｉｆｃｉｅｎｔｓ［Ｊ］．Ａｎｎａｌｓ　ｏｆ　Ｍａｔｈｅｍａｔｉｃｌａ　Ｓｔａｔｉｓｔｉｃｓ，１９３４，５（３）：１６１—２１５．　［２３］Ｋｕｍａｒ　Ｖ　Ｓ，ｅｔ　ａ１．Ｃａｕｓａｌ　Ｍｏｄｅｌｓ　ａｎｄ　Ｂｉｇ　Ｄａｔａ　Ｌｅａｒｎｉｎｇ　Ａｎａｌｙｔｉｃｓ［Ｍ］．Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１５．　［２４］Ｓｐｉｒｔｅｓ　Ｐ，Ｇｌｙｍｏｕｒ　Ｃ，Ｓｃｈｅｉｎｅｓ　Ｒ．Ｃａｕｓａｔｉｏｎ，ｐｒｅｄｉｃｔｉｏｎ，ａｎｄ　ｓｅａｒｃｈ［Ｊ］．Ｌｅｃｔｕｒｅ　Ｎｏｔｅｓ　ｉｎ　Ｓｔａｔｉｓｔｉｃｓ，１９９３，８１（３）：２７２—２７３．　［２５］Ｐｅａｒｌ　Ｊ．Ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｒｅａｓｏｎｉｎｇ　ｉｎ　ｉｎｔｅｌｌｉｇｅｎｔ　ｓｙｓｔｅｍｓ：ｎｅｔｗｏｒｋｓ　ｏｆ　ｐｌａｕｓｉｂｌｅ　ｉｎｆｅｒｅｎｃｅ［Ｊ］．Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　Ａｒｔｉｉｆｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，　１９８８，７０（２）：１０２２—１０２７．　［２６］Ｆａｎ　Ｊ，Ｈａｎ　Ｆ，Ｌｉｕ　Ｈ．Ｃｈａｌｌｅｎｇｅｓ　ｏｆ　Ｂｉｇ　Ｄａｔａ　ａｎａｌｙｓｉｓ［Ｊ］．Ｎａｔｉｏｎａｌ　Ｓｃｉｅｎｃｅ　Ｒｅｖｉｅｗ，２０１４，１（２）：２９３—３１４．　［２７］Ｃｏｈｅｎ　Ｅ，Ｃｏｒｍｏｄｅ　Ｇ，Ｄｕｆｉｅｌｆｄ　Ｎ．Ｓｔｒｕｃｔｕｒｅ－Ａｗａｒｅ　Ｓａｍｐｌｉｎｇ：Ｆｌｅｘｉｂｌｅ　ａｎｄ　Ａｃｃｕｒａｔｅ　Ｓｕｍｍａｒｉｚａｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｖｌｄｂ　Ｅｎｄｏｗｍｅｎｔ，２０１１，４（１１）．　［２８］耿直．大数据时代统计学面临的机遇与挑战［Ｊ］．统计研究，２０１４，３１（１）：５—９．　［２９］Ｃｒａｗｆｏｒｄ　Ｋ．Ｔｈｅ　ｈｉｄｄｅｎ　ｂｉａｓｅｓ　ｉｎ　ｂｉｇ　ｄａｔａ［Ｊ］．ＨＢＲ　Ｂｌｏｇ　Ｎｅｔｗｏｒｋ，２０１３（１）．　［３０］Ｓａｈａ　Ｂ，Ｓｒｉｖａｓｔａｖａ　Ｄ．Ｄａｔａ　ｑｕａｌｉｔｙ：Ｔｈｅ　ｏｔｈｅｒ　ｆａｃｅ　ｏｆ　Ｂｉｇ　Ｄａｔａ［Ａ］．ＩＥＥＥ．ｔｈｅ　３０ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｉｒｎｇ　［ｃ］．Ｎｅｗ　Ｙｏｒｋ：ＩＥＥＥ，２０１４：１９—４６．　［３ｌ　ＪＬｕｋｏｉａｎｏｖａ　Ｔ，Ｒｕｂｉｎ　Ｖ　Ｌ．Ｖｅｒａｃｉｔｙ　Ｒｏａｄｍａｐ：Ｉｓ　Ｂｉｇ　Ｄａｔａ　Ｏｂｊｅｃｔｉｖｅ，Ｔｒｕｔｈｆｕｌ　ａｎｄ　Ｃｒｅｄｉｂｌｅ？［Ｊ］．２０１３，２４（１）．　［３２］Ｓｃｉｅｎｃｅｓ　Ｅ　Ｐ．Ｆｒｏｎｔｉｅｒｓ　ｉｎ　ｍａｓｓｉｖｅ　ｄａｔａ　ａｎａｌｙｓｉｓ［Ｍ］．Ｗａｓｈｉｎｇｔｏｎ，Ｄ．Ｃ：Ｔｈｅ　Ｎａｔｉｏｎａｌ　Ａｃａｄｅｍｉｅｓ　Ｐｒｅｓｓ，２０１３．　（责任编辑：方原）　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

大数据时代统计学发展的若干问题