全国客户服务:4006-054-001 疑难解答:159-9855-7370(7X24合作/咨询),173-0411-9111/155-4267-2990(售前),座机/传真:0411-83767788,微信:543646
上一张 下一张

对大数据统计设计的思考*

赵彦云 内容提要:本文认为大数据统计与三个问题有关:大数据发展趋向极限无穷时,人类社会数据信息将发生什么变化?大数据发展会不会产生危害社会进步的数据垃圾?大数据即是一场革

4006-054-001 立即咨询

对大数据统计设计的思考*

发布时间:2022-10-03 10:56 热度:

对大数据统计设计的思考*

  赵彦云

  内容提要:本文认为大数据统计与三个问题有关:大数据发展趋向极限无穷时,人类社会数据信息将发生什么变化?大数据发展会不会产生危害社会进步的数据垃圾?大数据即是一场革命,那么作为数据科学的统计学脱胎换骨地继承与发展的是什么?本文对此的回答包括,提出了大数据发展的统计设计观点,从理论和实践上做出了论证分析,并联系我国实际,探讨了我国大数据发展中的统计设计理论和内容要点。

  关键词:大数据统计;统计设计;元统计;降维与增维

  中图分类号:C829.2文献标识码:A文章编号:1002-4565(2015)06-0003-08

  ReflectiononStatisticalDesigninBigDataZhaoYanyunAbstract:Wefindthatbigdatastatisticsisrelatedtothreeissues.Bigdatatendstobeaninfinitedatainformation,whatwillhappentohumansocietydevelopmentfortheroleofbigdatainfuture?Willdevelopmentofbigdataproducedatagarbagewhichdoesharmtosocialprogress?Evenifbigdataisarevolution,whatistheinheritanceanddevelopmentofstatisticsasdatascience?Thispaperhasmadein-depthanalysisandputforwardtheviewpointaboutthedevelopmentofbigdatafromthepointofstatisticsdesign.Thescientificargumentandanalysisismadefromtheviewoftheoryandpractice,andtheoryandmaincontentofChina’sstatisticaldesigninthecontextofbigdataarediscussedbasedontherealityofChina.

  Keywords:Bigdatastatistics;StatisticalDesign;Elementstatistics;StatisticalDimensionReductionandDimensionExpanding

  在计算机、互联网、云计算、大数据迅速发展的背景下,探索统计的科学作用至为关键。因为大数据以数据为主体,而统计是关于数据的科学,因此,统计科学应该在大数据发展中起主导作用。然而,现实当中,社会大众和业界人士似乎还没有发现统计科学的重要性。为此,本文提出大数据发展中统计设计这一主题,希望通过探索统计的科学思想和其发展的客观依据,引领大数据统计平台建设,进而更好地聚集能量,推动大数据为社会发展、技术革命和生产力水平提高做出贡献。

  一、大数据统计的挑战

  我们追踪大数据的发展历程,以及大数据头脑风暴的发散思维,从中发现大数据统计与三个问题有关:第一个问题,假设大数据发展趋向极限无穷,人类社会数据信息将发生什么变化?第二个问题,大数据发展会不会产生危害社会进步的数据垃圾?第三个问题,大数据即是一场革命,那么作为数据科学的统计学脱胎换骨地继承与发展的是什么?

  第一个问题,大数据发展,即数字化时代发展的最终目标仍应是使社会资源如何得到最优配置和利用,市场价格包括工资报酬、资本收益率、利率、技术价格、资源价格、产品价格、服务价格等的定价标准,进而保证市场的有效竞争,保证社会公平、公正。按照数据智能化发展的趋势①,货币政策、财政政策等宏观政策、区域政策都能内生系统化、智能自动化,等等,但现实判断的依据是:虽然统计思想和统计工具还未能深入大数据并发挥主导作用,但是个性化推荐、社交化推荐是主流,即大数据发展仍处于计算机思维的主控期,即把所有数据都有序存储起来,并快速提取到,以及局部系统上的一些目标的关系挖掘,但是,更加科学深入的统计分析和实证研究却是空白。

  第二个问题,大数据发展会不会产生危害社会进步的数据垃圾?显然,目前的大数据着重于实时数据和短期历史数据,远期的历史数据是否还有用或部分有用,如果回答是否的话,那么,随时间的推移,大数据之外必然有不用或无用的数据,或在某一个时点之前的数据成为永远都不能用的数据,即使数据可能还有待发掘的价值,但随着时间趋向无穷,其数据使用价值趋向零,显然这些就是数据垃圾。那么大数据是否一定会产生大数据垃圾,如果不产生需要什么样的条件。现实看,大数据不能总是着眼眼前数据,这样的大数据会产生大数据垃圾。当前的大数据发展比较突出个性化和社交网络化,大数据价值的大小取决于个性化的个性单位最小化和社交网络数据上的大数据网络结点有效连接的最大化。然而,个性化与社交网络一体化的大数据,不能缺失时间上的连续性条件,也就是个性单位最小化和社交网络数据上的大数据网络结点有效连接的最大化与个性单位和社交网络的时间连续条件满足的话,那么,大数据发展可以避免大数据垃圾产生。

  第三个问题,大数据统计即是一场革命,那么作为数据科学的统计学脱胎换骨地继承与发展的是什么?谈起数据,人们就会与统计相连,因此大数据也应该如此,但是在计算机、数据库、分布计算新兴技术的大量普及等强势应用下,统计作用优势相对较弱,虽然数据挖掘、统计计算、统计模型与降维技术等都被认可,但是在大数据发展中的统计地位和作用仍需要努力开拓和发展。从思路上讲,统计学应紧跟大数据发展趋向,分析研究在大数据发展过程中,统计科学理论方法在哪些方面被弱化,哪些方面被追捧,重心、核心是什么,新体系如何变革演化等。

  事实上,对于统计科学理论方法,应用是本质特征,其中的学科发展基础和存在的问题是引发学科内在发展的关键。面向大数据挑战,统计学要继承与发展,当今统计必须充分考虑在强大的计算机网络及云计算等能力上的条件,继承样本总体、统计分布、统计描述、统计探索发现、统计推断、统计降维等理论方法,发展宏观与微观一体化、降维与增维并举、最小样本唯一码统计动态标准及智能自动化等新理论和新方法。

  关于大数据应用,比较集中的一个观点是统计数据总体全面化,统计理论方法可能面临从样本推断总体的核心向外扩大发展,统计如何在整体上、过程上发挥作用,本文的观点是大力发展统计设计的理论方法,特别是从微观到宏观及增加时间因素的复杂系统的一体化统计设计,其中元统计基础的统计设计尤为关键和重要,实际上是探索人类社会定量化可持续的标准基础统计理论方法,以及在分析上的降维与增维的革命性思想和理论方法。

  二、大数据统计发展的思路

  互联网、云计算、大数据已发展成为当今的潮流,统计在大数据中具有怎样的地位和作用,是当前统计科学急需探索的重要问题。大数据统计应该按照什么样的思路探索?本文给出公式化解析:大数据=(计算机+互联网)+统计(计算机+互联网)=记录存储无限数据+最大社会网络统计=可无限内部组合的最大统计总体+最小现实样本探索统计大数据中的空间:发展广义统计设计及其统计分析理论方法我们应该深刻认识大数据是统计与计算机相结合发展的过程,即通过对经济社会活动与经济社会关系的定量、定性的观测与实验等过程,引入科学的技术和方法,达到对各种规律的有效把控、利用和管理的目的。在这个过程中,人们发展和利用各门科学知识,包括哲学、人文社会科学和自然科学、工程技术、计算机科学与计算机技术,以及统计学、经济学、管理学等,其中,计算机科学与计算机技术和统计学,成为当前大数据时代的核心科学推动力。

  我们提出大数据统计发展的两个统计思想要点:可无限内部组合的最大统计总体和大数据的最小现实样本。发展广义统计设计及其统计分析理论方法,目的是为了探索统计大数据。所谓广义统计设计是相对于一般统计的微观特点或专门性而言,例如,现实存在的统计实验设计、企业经营统计设计、产业统计设计、部门统计设计、国民经济综合统计设计,以及各种专题的统计设计,在这些统计设计统一层面需要的是针对大数据统计发展的基础统计设计。因为在大数据情况下,统计数据的搜集整理是多方面、多形式的,利用互联网、移动互联网、物联网等发展的自然记录和有序进入数据库和云计算的海量数据,需要考虑统计设计与计算机设计相结合的发展模式,其中上述谈到的大数据统计发展下的两点统计思想是非常关键的。第一个,可无限内部组合的最大统计总体,是复杂大系统统计科学性的一个基本点,是对数据的系统一致性和可分解、可加总、可关联,能上能下地从微观到宏观的整体最优统计设计的要求;第二个,大数据的最小现实样本,是统计设计的起点要求,或者是元数据的统计设计要求,最小样本是要求统计数据在一个样本上的数据现实客体的一致性,这是研究实际问题统计分析的重要前提。

  三、大数据统计发展的基本问题

  从大数据发展的现实趋势中寻找大数据统计发展灵感是非常必要的。大数据统计,属性上应用性质突出。中国应用统计相比发达国家而言有自己的特色,从学科上看经济社会统计与概率数理统计平行发展,形成竞争与合作的发展格局;从应用上看,我们善于宏观经济系统与社会系统的统计设计,因此对统计在宏观问题上的应用比较重视,有利于统计应用发展解决复杂系统的能力建设。当然,也存在着相对忽视统计应用基础建设的问题。

  (一)大数据统计发展的现实基础与融合

  笔者认为,推进大数据统计发展的一个重要领域,应该在公共数据领域,因为这部分大数据直接关系经济发展与社会进步,特别是关系基础建设、社会保障、现代服务、宏观政策与市场经济繁荣等问题。就公共数据领域与非公共数据领域的大数据划分而言,前者是大河长江湖泊,后者是小溪支流,公共数据领域的统计设计做好了,可能是对大数据发展最积极的推动。发展公共服务领域的大数据统计要从实际出发,其中重要的一点是要明确现在所有的公共统计数据内容及其背后的科学体系,能否为大数据发展提供统计的科学价值,实际的统计数据脉络又是如何。图1说明了公共统计数据当前的基本格局,这将成为大数据统计设计的起点。

  四、政府大数据统计设计

  政府统计发展已经形成了新的格局,第一,政府统计范围日趋扩大和深入,从我国的实际情况看,国家统计局系统的综合统计、政府各机构的部门统计、非营利机构的公共统计共存,目前已呈分工协调有效合作的发展态势。第二,政府统计在根据统计法保护个人和单位隐私前提下,通过科学手段逐步扩大微观数据的开放,公共统计数据的层次和容量不断扩大。第三,政府统计工作越来越在财务数据、金融数据、生态环境监测、行政记录等交叉工作中完成。第四,政府统计从事后统计,逐步向事中和事前统计发展,统计方法从调查事后的硬统计,向包括问卷调查等主观测度潜在变量和定性内容定量化的软统计和硬统计的新统计体系快速发展。

  政府统计大数据工作,目前的主要思路是在原来统计工作基础上加以补充的方式进行,例如,针对网上购物,采取增加网上购物的统计数据。相对而言这是一种比较简单直接的做法,但是其他方面,如通过互联网信息和数据,替代原有统计的做法则要复杂得多,需要更加严谨、科学的统计设计。事实上,面对大数据,如何做好统计设计和统计工作设计,上述就事论事的补充的方式,可能遇到特别复杂的问题,而且难以科学解决,随之,还可能引起原来政府统计工作质量下降、新的互联网统计质量难以提高的尴尬局面。因此,我们面对互联网、云计算、大数据的迅猛发展,应该全面系统地分析研究,针对不同发展阶段,提出全面改进、完善统计设计和统计工作设计的方式方法,通过基础设计、核心设计、流程设计等方式,迎接各种发展的挑战。

  大数据统计是在更大的系统范围内,提供统计图1从现实出发的大数据统计设计发展基础内涵多层次与统计内在一致性的数据体系。从现实统计直接的技术表现看,基本包括经济统计、社会统计、技术统计和业务统计,前两部分实际运用比较多,后两者有待在互联网和信息技术、物联网、APP支持下增强。

  其中,业务统计贴近经济活动和社会活动,现实性强;技术统计深入科学层面,对生产力及其发展有更有效的刻画。图1第二个层面,进一步解释上述统计服务的社会格局,经济统计和社会统计,主要为市场和非市场两大部分,所谓市场体现为个人、企业和市场竞争服务的统计,支持企业经营发展,保障消费需求和投资需求的有效实现;非市场部分是为公共服务的统计,它是社会进步发展和保障市场有效竞争发展的重要内容,支持政府宏观政策,包括经济政策和社会政策等的科学制定、实施与效果评估。

  技术统计涉及各个科学领域,例如医学统计、地质统计、教育统计、心理计量等等。业务统计涉及所有的人类活动领域,体现为用统计手段描述人类社会活动的有序发展。针对现实存在和发展需求,我们提出从业务统计、技术统计、社会统计、经济统计四个方面发展大数据统计的科学规范,相对于过去仅从实物量统计和价值量统计二分法,可能在系统落实大数据统计研究上有新的进步。

  另外,上述四个层面的统计设计,更加追求大数据统计的生态自然过程,即从直接的活动业务属性、技术属性、社会属性、经济属性,系统测量测度人类社会活动的统计特征,累积统计数据,监测、引领、控制发展过程,为人类存在与发展造福。

  参考文献

  [1]SteveLohr.TheAgeofBigData[N].TheNewYorkTimes,2012-02-11.

  [2]张小彦.大数据与社会管理[A].2012年清华大学大数据论坛.

  [3]McKinseyGlobalInstitute.China’sdigitaltransformation:TheInternet’simpactonproductivityandgrowth[J].2014(7).

  [4]陈辉.智能数据时代的技术准备[J].阿里商业评论,2014(3).

  [5]中国互联网络信息中心.中国互联网络发展状况统计报告,2014.

  [6]McKinseyGlobalInstitute.Opendata:Unlockinginnovationandperformancewithliquidinformation.



对大数据统计设计的思考*


SCI学术指导


对大数据统计设计的思考*
公司地址:大连市高新园区黄浦路科技创业大厦19层 运营中心:大连市沙河口区金盾路127号 研发中心:大连市西岗区大工西岗科创产业园10层 邮政编码:116029
全国客户服务热线:4006-054-001 微信咨询:543646 业务咨询、合作:159-9855-7370(同微信) / 173-0411-9111 电子邮件:Djy@Jiqunzhihui.com
集群智慧®为我公司注册商标,在商标国际分类第1、7、9、11、20、30、35、36、37、38、40、41、42、44、45类用途中受法律保护,侵权必究。侵权删除:2544906@QQ.com
本企业已通过ISO9001国际质量管理体系认证、ISO45001职业健康安全管理体系认证、ISO14001环境管理体系认证、企业信用等级AAA级认证、科技型中小企业认证、高新技术企业认证。
本站部分服务由本平台认可的第三方服务机构提供,如服务的质量有任何问题,请第一时间向我平台反馈,我们将及时为您解决,平台保障用户的全部权益不受任何损害。
请认准本站网址(www.jiqunzhihui.org.cn),推荐百度搜索“集群智慧云科服”直达本站。
版权所有:大连集群智慧科技服务有限公司 ICP备案:辽ICP备2021010330号-3 增值电信业务经营许可EDI证:辽B2-20230179 D-U-N-S邓白氏全球编码:620550735 手机版