摘要
框架涵盖并能识别总体中的每个个体,为普查以及随机抽样提供结构基础, 使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。大数据时代的重要意义在于大部份的数据已数字化,易于批量的存储和处理,并且成本较低。大数据为统计学家提供了前所未有的反思和创新的机会,其中之一是建立动态框架——拥有大量的內容,及时吸收最新的数据,有能力提供实时的结果和分析报告。
传统总体和框架
总体是一个重要的统计学概念。通常被理解为被研究对象的全体,可以是一个国家的全部国民或全部企业,或一天所生产的所有灯泡,或一个大洋所有的鱼[1,2,3]。
框架是一个不太普通的概念,它包括一个能涵盖整个总体的识别系统,对总体中的每个个体排序编号。在实践中,框架是研究总体的工作定义,它能识别总体中的每个个体,为普查和随机抽样对总体描述和分析提供结构和基础[2,4,5]。
图1是一个传统的普查或抽样调查的统计研究流程图。引用[4],一个理想的框架应具备如下性质:
- 每个个体拥有一个逻辑的,数值的识别码
- 每个个体都可以被找到——联系信息,地理位置或其他相关信息
- 框架是一个逻辑性,系统性的组织
- 框架还提供个体的其他信息,使研究可以在更复杂的抽样框架下进行
- 框架涵盖了相关总体中的每个个体
- 总体中每个个体只在框架中出现一次
- 框架不包含相关总体以外的任何个体
- 数据具有时效性
建模可以被认为是抽样过程的一部分,有时会跳过对框架的需求,直接假设所建立的模型和数据充分代表了研究的总体。
实用统计学家深知框架的重要性——它为统计学研究提供结构基础,使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。 然而,由于被看作是行政及文书方面的工作,极少有统计学方面的论文或论坛探讨怎样去有效的创建和维护框架。
许多人抱怨获取或维护一个框架很困难,或者他们在应用不完整或不准确的框架时所受的痛苦经历。质量差的框架的确可以使一个有良好计划的统计研究搁浅,或导致令人误解或有偏差的结果。
对创建和维护一个有可塑性,时效性的动态框架的长期忽视,对统计学界以及整个美国在效率和创新上起着极其负面的影响。
例如,根据[6],虽然“准确和完整的地址记录是美国普查局在抽样调查和普查中的一个关键因素”,但局內各部门各有自已的记录,这种情况持续了很久,直到不足二十年前,全国性统一框架这个概念才被推进,称作主地址档案Master Address File (MAF)。
主地址档案MAF主要被用来帮助问卷调查的传统邮递[7],这是一种日益趋于过时的信息收集方式。对问卷调查无应答的要靠它来上门访问, 然而紧缩的预算和不断上升的人工成本使这种信息收集方式越来越难进行。美国最近进行的十年一次的2010年人口普查中,基于网络的问卷调查未被允许使用。MAF的设计也未考虑到促进和支持基于网络的应用。
大数据时代的到来似乎令统计学界有点不知所措。虽然统计学家被认为是未来十年最热门的职业[8],这个专业郤感觉它在大数据时代的角色被低估和忽视了,但它仍在找寻它应有的角色[9]。
似乎只有少数人认识到统计学是一门”研究数据的科学”[10],不论数据规模的大小。要想在今后的数据研究上依然起关键作用,现在是这个专业该变革的时候了。
统计学2.0:动态框架
大数据是一个相对的概念。
明天的大数据将比今天的大数据大。如果统计学家只考虑数据规模的变大,那么大数据的意义仅局限于现有软件和研究方法的相应提升。
大数据时代的重要意义在于大部份的数据已数字化,数据信息涵盖很广, 比如声音,图像以及写在纸上的内容[例如,11],其中许多是前所未有的。这些信息易于批量的存储和处理,并且成本较低。如今统计学的市场越来越大,需求者们对技术细节的要求越来越低,但他们还希望随时能得到全面的,可靠的和便于应用的信息。
大数据是信息技术行业的一次大变革,在同等程度上是统计学的一次革命性的跃进,因为它为统计学家提供了前所未有的反思和创新的机会。
例如,数理统计清晰明了的论证了一个5% 随机样本要优于一个5% 的非随机样本。但是,若与一个50% 或者95% 的非随机样本比较,结果会怎样?对于大规模的非随机样本,我们一直持警示,不赞成,或不予考虑的态度, 但同时对现有的数理统计框架外的探索又非常少。虽然因情况而异,但对于一个非随机样本,其内在的统计偏差是否能随样本的增大而降到一个可以接受的程度,使得基于这个样本的统计学研究有实用意义?
作为另外一个实例, 图1是典型的统计学研究流程,每次在研究数据前都要经历从设计到最终获得横断面数据的时序。这样就很难在缩短周转时间和度量个体的纵向的发展变化上有所创新[12]。难道实时的提供可靠准确的统计分析是完全不可能的吗?或者是由于我们已经很习惯于现有的软件和工作方式,在这种惯性的舒适下失去了探索其他可能性的动力?
随机抽样作为主要统计应用模式已经存在了近一个世纪[13]。由于大数据的到来,今天研究一个总体就差不多同研究一个随机样本那样方便。我们应否放弃这个机会?
如果统计学家不及时认识到并面对大数据所带来的理论和实践层面的挑战,忽视其在统计学研究中的重要性,那么其他专业就可能会填补这个空缺,比如还未有明确界定的”数据科学家”[14]。
大数据带来了众多机会和可能性,其中之一是建立和维护动态框架——总体框架拥有大量的內容,及时吸收最新的数据,有能力根据需求提供定时甚至实时的结果和分析报告。
数以仡计用户的电子商务公司和社会媒体具备很好的条件对市场进行调研和预期,他们拥有的大量的数据,比如网上交易,电子邮件和博客内容。一个外行人也可以获取比较欠缺结构的巨量数据。
图2 |
图2为动态框架提供了一个简洁概要的流程图,在美国教育界动态框架也被称为纵向数据系统[15,16]。
本质上,动态框架的重点在于它的建立和维护,使前述的各个性质上都最优化。框架中的每个个体的信息都随时间不断更新。
统计学家必须充分的参与到动态框架的设计,应用和操作,以及对框架中数据的加工、描述、和分析。统计学家可以在很多崭新和传统工作做出贡献。
例如,识别码在发挥大数据的巨大能量上起着关键作用。它的设计和远用决定了其所能涵盖信息的多少,对数据的整体质量和研究起着决定性作用,它也是保护隐私的首要保证。
作为另一实例,动态框架对个体的数量和内容并无任何限制。这完全取决于可获得多少数据,如何整合记录,如何建立数据之间的联系,以及整个系统的设计。有效的操作可以减少记录的不匹配,提高数据的准确性和一致性,同时减低重复收集或对无用数据的收集。适当的填补遗缺数据保证组合数据的质量和及时性。
其它促进统计学的传统工作范围[14]包括,但不局限于,基于数据源建立连续的质量环;发展动态框架中新的定义、度量和标准;应用新的统计学模型来填补缺失数据、轮廓描述、风险评估、建立人工智能;发展新的可视化技术;加强统计学的训练和教育;保护隐私。
总结
动态框架不但保留框架原本的目的,即为普查以及随机抽样提供结构基础,还有其他方面巨大的应用潜力,这完全取决于统计学界的想象力和创新精神。统计学家应该欣然的欢迎大数据的到来,并把它看作是统计学本身的一个大变革,带动统计学在运用数据研究社会和人类知识和实践上达到一个新的高度。
参考文献
[1] Hansen, Morris H.; Hurwitz, William
N.; and Madow, William G. (1953). Sample Survey Methods and Theory. Wiley Classics Library Edition, John Wiley
& Sons, Inc.
[2] Kish, Leslie. (1965).
Survey Sampling. Wiley
Classics Library Edition, John Wiley & Sons, Inc.
[3] Cochran, William G. (1977).
Sampling Techniques. A
Wiley Publication in Applied Statistics, Third Edition, John Wiley & Sons,
Inc.
[4] Wikipedia. Sampling Frame. Available at http://en.wikipedia.org/wiki/Sampling_frame on April 8, 2013.
[5] Baidu.com. Sampling Frame 抽样框. Available at http://baike.baidu.com/view/1652958.htm on April 8, 2013.
[6] U.S. Census Bureau. Master Address File: Update Methodology and
Quality Improvement Program, by Philip
M. Ghur, Machell Kindred, and Michael L.
Mersch, 1994. Available at https://www.amstat.org/sections/srms/Proceedings/papers/1994_128.pdf on April 8, 2013.
[7] U.S. Census Bureau. The Master Address File for the 2010 Census,
by Joseph Salvo, April 7, 2006.
Brookings Breakfast Briefings on the Census. Available at http://www.brookings.edu/~/media/events/2006/4/07community%20development/20060407_salvo.pdf on April 8, 2013.
[8] Varian, Hal. Hal Varian explains why statisticians will
be the sexy job in the next 10 years,
September 15, 2009. YouTube. Available at http://www.youtube.com/watch?v=pi472Mi3VLw on April 8, 2013.
[9] Pierson, Steve and Wasserstein,
Ron. Big Data and the Role of
Statistics, March 28, 2012.
Available at http://community.amstat.org/amstat/blogs/blogviewer?BlogKey=737fd276-0225-4c87-b7cb-0cfc7cd9e124 on April 8, 2013.
[10] van der Lann, Mark; Hsu,
Jiann-Ping; and Rose, Sherri. Statistics
Ready for a Revolution. Amstat
News, September 1, 2010. Available at http://magazine.amstat.org/blog/2010/09/01/statrevolution/ on April 8, 2013.
[11] Washington Post. From the President’s Hand to the Internet. Available at http://www.washingtonpost.com/lifestyle/style/from-the-presidents-hand-to-the-internet/2013/03/21/0b609e66-9282-11e2-9cfd-36d6c9b5d7ad_graphic.html on April 8, 2013.
[12] Diggle, Peter J.; Heagerty, Patrick
J.; Liang, Kung-Yee; and Zeger, Scott L. (2001). Analysis of Longitudinal Data. Second Edition, Oxford University Press.
[13] Wu, Jeremy S., Chinese translation
by Zhang, Yaoting and Yu, Xiang. One
Hundred Years of Sampling, invited paper in Sampling Theory and Practice,
ISBN7-5037-1670-3, 1995. China
Statistical Publishing Company.
[14] Wu, Jeremy S. 21st Century Statistical Systems,
August 1, 2012. Available at http://jeremyswu.blogspot.com/2012/08/abstract-combination-of-traditional.html on April 8, 2013.
[15] Data Quality Campaign. Using Data to Improve Student Achievement. Available at http://www.dataqualitycampaign.org/ on April 8, 2013.
[16] U.S. Department of Education. Statewide Longitudinal Data Systems Grant
Program, National Center for Education Statistics. Available at http://nces.ed.gov/programs/slds/ on April 8, 2013.
No comments:
Post a Comment