Monday, October 1, 2012

Obama 78.0%, Romney 21.8%



There are less than 40 days left till the election of the next president of the United States.

According to the 2010 decennial census, Asian Americans represent about 5 percent of the U.S. population.  They have been the fastest growing racial group in the nation, increasing by 43 percent from 10.2 million in 2000 to 14.7 million in 2010.  They are expected to vote in record numbers this year.

Asian Americans are present in all 50 states and the District of Columbia, ranging from a low of 0.6 percent in the state of Montana to a high of 38.6 percent in the state of Hawaii.   Their recent voting patterns showed a strong trend: where Asian Americans are present in relatively high percentage in a state, the state tends to vote for the Democratic candidate, and vice versa.  The figure above confirms this pattern.

Based on the most recent CNN electoral map, among 19 states whose Asian American population is at least 2.9% of its state population, 14 are solidly for or leaning towards Obama, accounting for 189 electoral votes.  Among the 18 states with no more than 1.6% Asian Americans in its population, 15 are solidly for or leaning towards Romney, accounting for 99 electoral votes.  Although the number of states is about the same for each candidate, Obama enjoys an advantage in electoral vote count because Asian Americans tend to live in urban areas of states that are large in population. 

Seven of the 9 "toss-up" states are in the middle range where Asian Americans make up between 1.7% and 2.8% of the state population.  

Based on this observed relationship, Biao Yang, a graduate student in statistics at George Washington University, constructed a multinomial logistic regression model to first predict the chance of a candidate winning the electoral votes of each of the 9 “toss-up” states and then applied the estimated probabilities to run 100,000 computer simulations on who will win the ultimate electoral vote count.

The result: Obama’s chance of winning the November 6 election is estimated to be 78.03%, and Romney 21.84%.  The probabilities do not add up to one because a tie of 269-269 may occur with 0.13% probability.   Biao’s predicted electoral vote count is 284-254 in favor of Obama.

We will find out how good these predictions are on November 7.

Asian Americans can have an important influence on the outcome of the November 6 presidential election.  However, regardless of their preference for political party or candidate, they have to register and vote to make a real difference.

Wednesday, August 1, 2012

21世纪的统计系统


摘要

20世纪传统普查和新引机抽样调查共同被用于各国人口和经济的测量与推两种统计数据方法在全世界支持决策、政策的定、和传递都非常重要。21世纪开始在全球数据大量电子化及大数据爆发成长刺激和起对更及时和更广泛信息的更多要求。因为传统的普查和机调查是静态、的,不可能毫无基本变化地满足不断扩张的动态需求。21世纪统计系统和方法的特徵将会在巧地应用大量纵向数据、合多个数据来源、迅速简单地递送信息,同时继续严格地保护私和数据安全,认证準确与可靠度。包括美国的一些国家统计局领導最近已反复地解说这些需要和趋势。能成功地克服这些议题的政府机关将会帮助们的国家拥有全球独特的竞争优势及利益,们会面淘汰。作为一个快速成长的经济国,中国的统计数字日益受到重並对世界有重大映响力也面对许多相同的挑战。一些在美国和其他国家漸露頭角的成功故事,並讨论面对21世纪动态、合数据系统挑战所须改革的和做法。

20纪统计系统

普查也就是对总体每一个單位收集数据,经是世纪测量人口分布和特证的传统统计方法。中国2,200多年前已进行它的第一人口普查[1]西元2年西汉朝代,[2,3,4,5] 中国人口5,800户口1,200万。1983年中华人民共和国制定它的第一组织统计工作的法律[6]1949年开始中国6次全人口普查, 1990年后每十年一[7]基於它憲法规定美国在2010了它两个多世纪以23次和次全人口普查[8,9]

美国中国和其他国家普遍举行多经济工业和农业普查。举例来说美国每五年举行一商务活动的经济普查。的经济普查预定在2012开始[10]2007年的经济普查复盖了非农私人经济的2,400家企,约美国国内生产毛额(GDP)96% [11]中国近期经济普查2008[12]虽然每项普查有不同的法律或动机终目的是相似的-提供有关、和可靠的数据研究分析支持

虽然普查在过去许多世已经证它的重要不过它有一些众所周知的实际最重要的是类活动是连续和动态普查只能为一个指定的普查日子或时期提供一个全面。通常普查结果在被布时,们已经过时了。

动态的人类行为和社会经济和政治现象不定時静态的普查完全地描述解。设计性普查的操作数据收集典型地复杂需要多年的多的时间然后被花费数据处理、分析、报告结果。高费用的性普查还需要型及較常发生的隨机调查补充輔助

经过十多年设计展和测试之后,"美国团调查"(ACS)2005年开始在美国人口和住屋的特性上運"连续性测"[13]每年300万个住址(每月25个住址)隨机被選一个5年旋周期位。ACS的估计是基于每月的调查数据聚集一段时间單位而生的。人口少的地方,ACS需要五年时间数据聚集才可[14]

报导中国"全国人口调查"2011构改而重估它的人口[15]样方法为成群及按比例。在31个省市4,800个村庄4,420区和2,133区中的150万人接受面据。

样调查挪威统计局局长在1895年的际统计学会(ISI)年会[16]际统计花了30辩论它的劣利害才最后样调查是可科学方法。,今天的数理统计学理实践应用发展成,支持隨样调查的想法。

美国文大学首开先例1935统计的是乔治华盛顿大学[17]术界成为统计家的美国人口普查局资料,样调查首先在1937经济大萧条期间被用于对失业问的测试[18]部分回时对及时资讯的需要。政府会成统计家的主要雇主。

得到新理论的支援並在多方面实践的加上1950年代商业计算机及后来引进的计算机样调查很快成为收集数据及运行统计分析作决定的标准统计方法。统计的基主要1970年代算技而建造的,在1990年代网商化推新信息時代之前。

20纪末期,包括普查和调查数据的统计系统不政府的核心操作场调查政治预农业和经济发展计环境管理公共卫生、运输计划、自科学和其他人类和社会活动应分析的基础然而,数据一定要依照统计设计收集包括概率原则的应用,能作统计推论规模的统计分析典型地政府或学术界的统计家主题专家包辦作。

21纪数据需要和趋势

21十年显著是数据迅速从模轉型为数,並很快增加的网民接认同使用大部份的网民都不在学术界或政府的统计主题专家

根据南加州大学的一项研究[19,20]储藏2002年第一次超越了储藏量。2007上至少94%的所有资讯以电形式储藏

图1: 可视的1 zettabyte [21]
报导制造储存2010第一次超过1 zettabyte (1 ZB) [22,23]地,20070.29 ZB1986年是0.00002 ZB [19,20]一位行业领袖宣布"我们()现在每天产生的数据相等从文明的破晓到2003"[24]举例说明相对量,的整个基因组括沿色体的30亿化学基础大约3 GB (0.000000000003 ZB)的计算机储藏标准论是不稀奇[25]阿尔发磁性分光器每秒记录1 GB宇宙光数据[26]

实际义来说记录,私正在生大量的数据,而亿计的数据消者不必是统计主题专家。

数据可没有抽取样品的需要或考将其完整子化直接机器处理和计算这个巨大变化的速度电子数据广政治、地理边界的配合得天衣无通路和信息科技的使用在发国家和发展中国家差不多普遍论世界任何一角落只要一部计算机能上网能被存取数据用。

大数据是一尚未定型有关非常大电子数据新用可能不是根传统统计系统的结构和概率原收集记录、社会媒体、电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像、和人造衞图像大数据爆发生长的因素大部分的大数据传统统计分析和推论的结构也沒有很简易软件和统计系统可用。然而,大数据也有一部份是前所未可作政策决定的丰富信息尤其是当它适合整合融入政府数据庫中

营企业在生产大数据已领先起歩组合政府统计发展数据技术和方法来识别潜在的消费者、扩张市场、测试新产品、並抽取新讯息以作巿场及客户研究。有些情况下,们甚至可向传统的政府功能挑战举例来说一些社会媒体搜索的言做感冒的指标它的表现不比公共卫生机的指标差,在及时方面更胜一筹[27]

尽管它在大数据汪洋中的份量逐减少,政府统计仍然支持全球化经济体制及解不断扩张的社会需求独特重要。然而,当活在以数秒钟內上网搜索展示百万果和国股票市夜即时报導成交数据代,要等多月甚至多年才可收集、处理、发在地理、企业、与人口都有限制的态结果将失去它的意义。 

大部份国家甚至发达国家,都面对严格的财政预算限制。的高费用、低回收的普和调查辦法否定了它扩张做法的可能性。全球普和调查率下降亦把问题搞得复例来,尽管划和努力,美国2010年的普与率僅僅达到2000年的74%[28]个人面的地步查平均费用升到每户56美元最初的费用的100[29]

上,美国众院在20125月通过结"美国社团调查"表示对保护金额的担心。2012年的经济能否如期进行目前尚不能确定。

国家统计局面对的是真、令人畏: 20统计不能21的需求。用政府统计正在快速地在数字和广度方面增加。他需要更广泛、更动态、更及的数据,並能容易地存取和了解,但有方法必需的源和时间都不可得或担。政府仍然要提供準确又可靠的统计数字亦要时严格地保單位 

不能满足这些需求的澳大利亞统计局不肯定它"保持社会官方数据"的地位[30]大数据时代的来臨与数据使用者需求的增加是可避免的许多政府和统计机关仍然沒有充份准备善用大数据

对这21的挑,跟改革调查的意识形态做法是必要的。渐进小修理由1970年代的識和技建造的统计不足以大数据革命要求。

21纪统计的特徵

21世纪统计系统和方法的特徵将会在巧地应用大量纵向数据、合多个数据来源、迅速简单地递送信息,同时严格地保护私和数据安全,认证準确与可靠度

数据对同一單位(例如一个工人一位学生一个家庭生意一所学校或一医院)在时间上重复观察所得的数据它能在个体水平提供独特的底线和变量。传统的定点研究同时对多單位收集数据不能像纵数据可以化。

记录是建造广泛详细的统计系统的潜在数据来源。拿大统计局非常简单记录义为"各种非统计计划收集的数据"[31]潜在数据来源包括出生和死亡证明书关税公告婚姻和驾驶执照和生意税业保险社会福利和药处方。下列例说明巨大量纵记录的存在
  • 在它能开始操作之前新生意一定要完成登表格一般支付薪水和税都有报告有贷款或合并和收另有文一定完成公司掛牌上股市一定申请批准才交易
  • 一位学生一定要填表格才一所学校他一定要登加入别测验分数被记录从一所学校移到另一所学校需要一份成绩报告当一位学生毕业的时候一张文凭或学位
  • 样地,每个人每次到医生的办公室或一所医院检查或看病纪录包括健康指标数据、疾病的症状和医疗处方藥物类型和数量
如有适当设计和自动化编联电子数据的费用只是密集劳力收集普查和调查数据费用小部份为管理的记录已经存在也没有对个或公司增加负担一次确定一些个人资料的輸入例如性別出生日期和种族都可以大量減少因为们不变或循序轉变

20纪最后20年间把行记录合到统计系统替换人口普查的潜能辩论[32,33,34,35,36]1981丹麦提倡现在欧盟27个国家中至少20国家正在使用人口或人口和传统的户口普查计算他们的人口[37]

虽然纵向数据研究在临床实验中被相当广泛地用多年在其他的区域中合应稀疏和有限制主要为设计弄得复杂处理和数据储藏的费用经很高、理解存取数据有关保护隐担心

来自澳大利亞加拿大新西兰英国和美国的统计局领最近开了一个高峰会內容包括论对21纪统计系统共識和美国人口普查局局长在博客中描述未来远见如[38]:

"中央政府统计局的焦点一定要用传统的调查和普查(使用纸、、电话、)混合連接多可得的数据来源(其他记录)而生产高质量、及时的统计量来讲一个经济、社会、环境进步密切的故事"

政府统计局一定继续生产维持普查或调查的框架但又要增加最理想地利用已存在的数据来源这些框架过去曾是静包含极少內容。21这些框架一定要改型动态结构及丰內容有能力第一规地在要求生产广泛、高质量和及时的统计量並能进和融合新来源与数据。这些动态全国框架包括统计和地理的数据有能力隨时隨意绘作地图及报告並保持傳统的框架作用。

"说一个密切的故事"统计局21在意识形态上必须改革的一部份。长久以来统计专业人士总把推论统计排在第一位角色描述统计到第二位或補助角色。在大数据时代论从那一角度来看,现代可视化与其他从烦复数据抽取重要信息是很有價值的统计实践。当政府和学术界专家不是唯一或甚至大多数的数据供应者分析家理解、通路和使用的安逸一定是迅速递送结果的主要部份

组集和维广泛、动态的统计系统需要大量的敏感个人的和商务数据然而统计摘要的形式分析果,又必任何暴露和企业身的可能性和企理所当然地应该关心和了解他们的隐私是如何受到绝对防止无意误用或悪意滥用他们的数据。数据安全亦要有最嚴格的保防止任何对系统数据及发布统计干预和变更

现的成功故事

一些国家已开始建造有关教育和公共卫生的公众数据计划这些计虽在不同的发展阶段但提供了大数据時建造和维持广泛、详细动态统计系统可行的令人鼓舞消息虽然仍然有许多挑战在。

20个国家的代表1998年參加一个际论坛讨论组-雇主数据的研究[36,39]美国人口普查局成立一个雇主-家庭动态计划,联编组现有的雇主-员数据生产创新统计产品[40]

到今天美国联邦政府经和所有54个州巿和地政府签订協议保障每每季不断提工人雇主的失业保险记录美国人口普查局维持及不断更新一个从1990的全国纵向工作抽样框架每份工作一个工人连接一个雇主而一个工人能有多工作这个数据系统是设计来跟踪和每三个月更新1亿4,000万工人的就业状态与薪资,和超过1,000雇主(包括自我雇用的)的状态时仍然继严格地律、政策、隔、技术各种方法保护每一个工人和雇主

这个纵数据系统已经成功地鼔励建造创、实际的在线应用来推新数据的使用, 例如时间序列指标用前所未有人口和地理细节来描述美国劳动人口的动态变[41]除此之外,创新的在线绘图和报告应用容许一个用户隨意选择任何一个地区来该地区劳动人口描绘和通勤地图及报告[42]並可在紧急的情形几乎即时描述评估飓风和其他的天灾劳动人口和地方的潜在影响[43]这在线应用联合国统计为美国统计产的新发[44]美国商业部金牌部门承认科学成就最高形式的誉。

机关和社团组成的"数据质量活动"(DQC)2005年开始向美国教育制度利益相关者包括学生父母师和政策制定者提供"孩童时期、幼儿园到中(K-12)中学后劳动人口的高质量数据,以每位学生中学毕业,並为大学和未来工作的成功作准备和决定"[45]要达到这个长远目"DQC支持州决策者和其他领袖发展有效地使用州际纵数据系统"

美国教育劳工部同时投资招标建造及组合这些广泛的州际纵数据系统DQC表示"们不能不使用教育的数据"作出根据的决定DQC为州决策者和领袖做了两个蓝图: "际纵数据系统10必要元素""10动支援有效的数据使用"2005年以来每州的情况和进展都年度调查追踪报告。

2009年的"健康信息科技"建立了2014美国广泛並有意义地運用电子健康纪录的目[46]2011年比利时报告发动"比利时纵健康资讯系统计划"把有关健康数据定义"所有个人资料有关过去、现在及未来的身体健康"[47]研究重心集中在健康的纵观並參考其他国计划加拿大、丹麦和英国中国自2009开始进行公共卫生健康改革[48]它的基本体包括建造一个含13亿民众的纵电子健康记录系统[49]报导它的主要政策已系统记录正準備起歩。

主要的挑和中国

美国统计系统高度分散虽然2012支援联邦统计的预算资源国内生产毛额0.02%, 但它横跨13个主要统计局和超过85其他非统计机关的统计[50]美国相当大部分的努力花克服它的分散结构的固有障碍-数据分不足、数据质量标准竞争、不必要的、管理费用多、及解决数据通路困难。

举例来说美国人口普查局和劳工统计局维持二个分的商务系统。每个登系统应该包括所有美国为它们都是框架用来替普查和调查抽取样本,构成包括国家经济指的重要信息。然而由于他们的独立来源和自然的动态这二个系统在公司数字和他们的薪资帐册和就业人口有可观的出入[51]。虽然过十年进步一个来源的商务系统还没有在美国浮现。
宫在20123月宣布"大数据研究和发展计划"开始[52]提供2亿新的研究和发展投资进从龐大、复杂的电子数据中提知识和洞察力的能力。因此联邦政府继续努力把大数据导集中美国各个统计内。世界各国包括中国亦需要同样的高層政府资金、承诺和领导特别是有关数据透明与公[53]

最近百度搜索表示中国对大数据议题的注意似乎是偶尔发生但最6个月有較大幅的搜索结果包括211纽约时报文章"大数据"的中文翻译[54]714访问所知唯一关於大数据的中文书作[55,56]和同日媒体有关大数据如何可能威胁个隐私的报導[57]

201271日清大学主办一个论坛,是有关中国统计局、和私营企业如何实际处理大数据和它对统计系统影响的很少活动之一。值得注意的例外是阿里巴巴集的研究努力每天有数以百万计的公司使用它的数以十亿元计的电子商务交易。

中国对顶端质量统计的需要少其他国家。中国二个五年计划许多主要目标都是以数量定义[58]当中国正在从一个国家转到一个消费者国家每个目标的状态和进展都要被可信、可靠、和及时的统计量和指测量评估。当中国经济成长最近降温了解最新趋势和邦助中途更正或改航都需要深入的数据。中国崛起成为经济大国它的统计量和指对全球经济有巨影响。谚语中国打喷嚏其它国家感冒了。

中国学术界最近项报告绍一个叫"中国工业企业数据库"的纵向微数据库重心集中在中国的企业行为和表现的概观[59]

报导基于样本企业提交给当地统计局的季扱和年扱汇总中国国家统计局组合全部国有工业企业以及规模以上非国有工业企数据而建立1998年的数据库。它的最大工业成份制造业。这个经济数据库是中国经济普查唯一补充资料,2004约佔全的所有工业企业的售卖额90%中型的商店和电子商务公司被包括

文章描述9大范围可以从数据库提取信息,並形容国内外对这个数据库的兴趣快速上可是"业企业数据库本身存在很多问题包括样本匹配、标缺失、指标异、测度误差、样本選择和变量定义等。怱视这些问题会映响到计量经济分析的基本"

文章提供了解决问题的建议有效的领导和管理克服一个有价值的纵统计系统的基本难。这些问题同样地在其他正在建造21纪统计系统的国家

不是所有的大数据都適合或应被採用来组合融入统计系统提供统计用途。从数据提取最佳信息及質量管理是统计学的核心价值和职业功能。数据的限和专业错误的发现偏见及混淆是统计家能增加价值的一部份[60]利用世纪累积的知识统计学站在一个优越的地位处理大数据的许多挑战促使一个预言"未来10年最的工作将会是统计家"[61]

实际经验和实践证据建议统计家的主要贡献范围包:
  • 连合记录统设计和确及相配技术来改善多源记录的连合盡可能減低低人口错误记录结合。
  • 补数据。发展和应用填补数据技术与方法可靠地替代因連合纪录产生的遗失或的数但又不能制造不支持的假信
  • 数据質认证。建立健全方法和规则不断地测量发现反常和影响点应用最适当的解决法。
  • 进化标准和定义标准化提供一致的理解也要有充分柔性容纳"绿色工业"的新念。
  • 统计模型多元的数学抽象和统计应用补数据、场和客户计、预测未来创造
  • 数据视化和创新应用。创新及时散播和发表信息以编密切的故事,销售新观念及改善统计教育。
  • 护隐私。发展和应用统计方法与规则例如噪音注入及人造数据以保护个体隐私及把保护程度数据
大数据不科技进步改善统计计算它是向传统统计挑战,创新思和发展的革命。

过去一世纪很普遍的一些数理统计理论可能需要延续。举例来说众所周知一个5%随机抽取的更好可测量的件而胜于一个5%非随机抽取的样是一个5%随机抽取的将会如何大数据情况中很普遍30%50%高的非随机抽取的本,则是未知之数。统计应轉換讲故事又应否把指标修正?

於随机抽概念1895绍的时候,建造21纪统计系统的工程将会以经验为主导,理论发展同发生。际统计学界30欢迎接受大数据的使用是不想像的。

使用大数据革命性和创新21纪的统计系统多元,包括统计学、计算机科学、地理学和经济、教育、能源、环境、医疗和运输。

需要学者-民众-私企的合伙如有适当分享数据意营企业21纪统计系统的数据主要供应术界仍然是绝对重要进行基本研究、培育未来的"数据科学家"发展支援理论。在美国省,理工学院和多家营企最近这一个方向共同走第一步[62]


普查已是过二千年的官方统计方法。最近一世随机抽样被引进並成为最常用的统计方法。当样本單位是随概率而被抽,一小部份的体能可测量的准确性、度和有根据地推论整个总体。

开始於1990年代的现代信息科技了大数据时代的来巨大量的数据变成可得,存取能力的数据使用者爆发地增加,储存处理数据的费用戏剧地减少。在21纪全球经济中广泛地、综合地收集分析和散播数据信息需要已是根深蒂

大部分国家统计不可能光靠自改善扩张他们的现。现存的数理统计理论不足以支援大数据的实使用。植根1970年代技术的20世纪统计系统不再充份满21纪的需求。

概略说明面对所有的国家的基本的挑战,提供如何合多来源的大数据建造纵向统计系统的漸露成功故憑着一个新统计基础去合建创新又动态的21纪统计系统是必要而可行它需要政府诺和领导,学者-民众-私企的合伙同时多的研究和发展,创新利用过去数个世纪的统计思"未来10年最的工作将会是统计家"预言是可以实现过来说,如果国家统计不能在意识形态做法进行各方改革,它会面临淘汰的命运亦会令其国家在世界经济上失去竞争优

参考文

[1] National Bureau of Statistics of China.  “History of Statistics Prior to Qin Dynasty.”  Available at http://www.stats.gov.cn/50znjn/t20020617_22676.htm on July 16, 2012.

[2] National Bureau of Statistics of China.  “History of Statistics during the Qin and Han Dynasties.”  Available at http://www.stats.gov.cn/50znjn/t20020617_22677.htm on July 16, 2012.

[3] Wikipedia.  “Census.”  Available at http://en.wikipedia.org/wiki/Censuses#cite_note-9 on July 16, 2012.

[4] Hays, Jeffrey.  “China – Facts and Details: Han Dynasty (206 B.C. – A.D. 220).”  Available at http://factsanddetails.com/china.php?itemid=39&catid=2&subcatid=2 on July 16, 2012.

[5] Loewe, Michael. "The Former Han dynasty." The Ch'in and Han Empires, 221 B.C.–A.D. 220. Eds. Denis Twitchett and John K. Fairbank. Cambridge University Press, 1987.  Available at http://histories.cambridge.org/extract?id=chol9780521243278_CHOL9780521243278A004 on July 16, 2012.

[6] National Bureau of Statistics of China.  “Statistical Laws of The People’s Republic of China.”  Available at http://www.stats.gov.cn/tjfg/tjfl/t20090629_402568265.htm on July 16, 2012.

[7] National Bureau of Statistics of China.  “How Many Years to Conduct a Census; How Many Censuses China Has Conducted.”  Available at http://www.stats.gov.cn/zgrkpc/dlc/zs/t20100419_402635505.htm on July 16, 2012.

[8] U.S. Census Bureau.  “What is The Census?”  Available at http://2010.census.gov/2010census/about/ on July 16, 2012.

[9] National Bureau of Statistics of China.  “How Does The United States Conduct Its Population Census?”  Available at http://www.stats.gov.cn/zgrkpc/dlc/zs/t20100526_402645146.htm on July 16, 2012.

[10] U.S. Census Bureau.  “Economic Census.”  Available at http://www.census.gov/econ/census/index.html on July 16, 2012.

[11] U.S. Census Bureau.  “About the 2007 Economic Census.”  Available at http://bhs.econ.census.gov/ec07/about.html on July 16, 2012.

[12] National Bureau of Statistics of China.  Communiqué on Major Data of the Second National Economic Census (No.1)”.  December 25, 2009.  Available at  http://www.stats.gov.cn/english/newsandcomingevents/t20091225_402610168.htm, on July 16, 2012.

[13] U.S. Census Bureau.  “Design and Methodology – American Community Survey.”  Chapter 2. Program History.  Available at   http://www.census.gov/acs/www/Downloads/survey_methodology/acs_design_methodology_ch02.pdf on July 16, 2012.

[14] U.S. Census Bureau.  “Design and Methodology – American Community Survey.”  Chapter 13. Preparation and Review of Data Products.  Available at   http://www.census.gov/acs/www/Downloads/survey_methodology/acs_design_methodology_ch13.pdf on July 16, 2012.

[15] National Bureau of Statistics of China.  “China’s Total Population and Structural Changes in 2011.”  Available at http://www.stats.gov.cn/enGliSH/newsandcomingevents/t20120120_402780233.htm on July 16, 2012.

[16] Wu, Jeremy S., Chinese translation by Zhang, Yaoting and Yu, Xiang.  “One Hundred Years of Sampling,” invited paper in “Sampling Theory and Practice”.  ISBN7-5037-1670-3.  China Statistical Publishing Company, 1995.

[17] The George Washington University.  “The Department of Statistics”.  Available at http://departments.columbian.gwu.edu/statistics/ on July 16, 2012.

[18] U.S. Census Bureau.  “Developing Sampling Techniques”.  Available at http://www.census.gov/history/www/innovations/data_collection/developing_sampling_techniques.html on July 16, 2012.

[19] The Washington Post.  “Rise of the Digital Information.”  Available at http://www.washingtonpost.com/wp-dyn/content/graphic/2011/02/11/GR2011021100614.html on July 16, 2012.

[20] Hilbert, Martin and Lopez, Priscila.  “The World’s Technological Capacity to Store, Communicate, and Compute Information.”  Science 1 April 2011: Vol. 332 no.6025 pp.60-65. DOI:10.1126/science. 1200970.  Available at http://www.sciencemag.org/content/332/6025/60.abstract on July 16, 2012.

[21] Savov, Vlad.  “Visualized: a zettabyte” June 29, 2011.  Available at http://www.engadget.com/2011/06/29/visualized-a-zettabyte/ on July 16, 2012.

[22] International Data Corporation.  “The Diverse and Exploding Digital Universe.”  Sponsored by EMC Corporation, March 2008.  Available at http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf on July 16, 2012.

[23] Data Center Knowledge.  “”Digital Universe’ Nears a Zettabyte.”  May 4, 2010.  Available at http://www.datacenterknowledge.com/archives/2010/05/04/digital-universe-nears-a-zettabyte/ on July 16, 2012.

[24] TechCrunch.  “Eric Schmidt: Every 2 Days We Create As Much Information As We Did Up To 2003.”  August 4, 2010.  Available at http://techcrunch.com/2010/08/04/schmidt-data/ on July 16, 2012.

[25] Human Genome Project.  “Frequently Asked Questions.” Joint international project under the U.S. Departments of Energy and the National Institute of Health.  Available at http://ornl.gov/sci/techresources/Human_Genome/faq/faqs1.shtml on July 16, 2012.

[26] Wikipedia.  “Alpha Magnetic Spectrometer.”  Available at http://en.wikipedia.org/wiki/Alpha_Magnetic_Spectrometer on July 16, 2012.

[27] Google.  “Explore Flu Trends around the World.”  Available at http://www.google.org/flutrends/ on July 16, 2012.

[28] U.S. Census Bureau.  “2010 Census Mail Participation Rate Map.”  Available at http://2010.census.gov/2010census/take10map/ on July 16, 2012.

[29] El Nasser, Haya; and Overberg, Paul.  “2010 Census Response Rate Surprisingly Close to 2000 Rate.”  USA Today.  April 26, 2010.  Available at http://www.usatoday.com/news/nation/census/2010-04-20-census-participation-rate_N.htm on July 16, 2012.   

[30] Pink, Brian; Borowik, Jenine; Lee, Geoff.  “The Case for an International Statistical Innovation Program – Transforming National and International Statistics Systems.”  Supporting paper, Australian Bureau of Statistics.  10/2009.  Available at http://www.abs.gov.au/websitedbs/d3310114.nsf/4a256353001af3ed4b2562bb00121564/064584f68877204fca2576c0001a0fa8/$FILE/Supporting%20Discussion%20Paper.pdf on July 16, 2012.

[31] Statistics Canada. “Administrative Data Use.”  Available at http://www.statcan.gc.ca/pub/12-539-x/steps-etapes/4147786-eng.htm on July 16, 2012.

[32] Brackstone, G.J. “Issues in the use of administrative records for statistical purposes.” Survey Methodology. Vol. 13. p. 29–43, 1987.

[33] Scheuren, Fritz and Petska, Tom.  “Turning Administrative Systems into Information Systems.”  Available at http://www.oecd.org/dataoecd/58/48/36236959.pdf on July 16, 2012.

[34] Office of Management and Budget.  “Seminar on Quality of Federal Data.”  Part 1 of 3.  Federal Committee on Statistical Methodology, March 1991.  Available at http://www.fcsm.gov/working-papers/wp20a.html, on July 16, 2012.

[35] Organization for Economic Co-operation and Development.  “Use of Administrative Sources for Business Statistics Purposes.”  Handbook of Good Practices.  Available at http://www.oecd.org/dataoecd/58/1/36237357.pdf on July 16, 2012.

[36] Haltiwanger, John; Lane, Julia; Spletzer, Jim; Theeuwes, Jules; and Troske, Ken.  “Conference Report: International Symposium on Linked Employer-Employee Data.”  Monthly Labor Review, July 1998.  Available at http://bls.gov/mlr/1998/07/rpt2full.pdf on July 16, 2012.

[37] Valente, Paolo.  “Census Taking in Europe: How are Populations Counted in 2010?”  Bulletin Mensuel d’Information de L’Institut National d’Études Démographiques. Population and Societies, No. 467, May 2010.  Available at http://www.unece.org/fileadmin/DAM/publications/oes/STATS_population.societies.pdf on July 16, 2012.

[38] Groves, Robert M.  “National Statistical Offices: Independent, Identical, Simultaneous Actions Thousands of Miles Apart.”  U.S. Census Bureau, February 2, 2012.  Available at http://blogs.census.gov/directorsblog/ on July 16, 2012.

[39] Haltiwanger, John C.; Lane, Julia I.; Spletzer, James, R.; Theeuwes, Jules J.M.; Troske, Kenneth R.  “The Creation and Analysis of Employer-Employee Matched Data: Contributions to Economic Analysis.”  North Holland, 1999.

[40] Wu, Jeremy S.  “State of Longitudinal Employer-Household Dynamics Program.”  Unpublished manuscript, U.S. Census Bureau, January 2006.

[41] U.S. Census Bureau.  “Quarterly Workforce Indicators Online.”  Available at http://lehd.ces.census.gov/led/datatools/qwiapp.html on July 16, 2012.

[42] U.S. Census Bureau.  “OnTheMap.”  Available at http://onthemap.ces.census.gov/ on July 16, 2012.

[43] U.S. Census Bureau.  “OnTheMap for Emergency Management.”  Available at http://onthemap.ces.census.gov/em.html on July 16, 2012.

[44] Mesenbourg Jr., Thomas.  “Innovations in Data Dissemination.”  United Nations Statistical Commission Seminar on Innovations in Official Statistics, February 20, 2009.  Available at http://unstats.un.org/unsd/statcom/statcom_09/seminars/innovation/innovations_seminar.htm on July 16, 2012.

[45] Data Quality Campaign.  “Using Data to Improve Student Achievement” Website.  Available at http://www.dataqualitycampaign.org/ on July 16, 2012.

[46] U.S. Department of Health and Human Services.  “Accelerating Electronic Health Records Adoption and Meaningful Use.”  August 5, 2010.  Available at  http://www.hhs.gov/news/press/2010pres/08/20100805c.html on July 16, 2012.

[47] Ecole de Santé publique, Vakgroep Sociaal Onderzoek – SOCO, and Institut de Recherche Santé et Société.  “Belgian Longitudinal Health Information System: Supplement the health information system by means of longitudinal data.  Summary of the research.” Project AGORA AG / JJ / 139.   February 2011.  Available at http://www.belspo.be/belspo/organisation/publ/pub_ostc/agora/agJJ139_synth_en.pdf on July 16, 2012.

[48] International Health Economics Association.  “China Forum.” Available at http://ihea2011.abstractsubmit.org/sessions/405/ on July 16, 2012.

[49] sina.com.cn.  “China Will Build Unified National Citizen Health Records; Apply Standardized Management.”  April 7, 2009.  Available at http://news.sina.com.cn/c/2009-04-07/140517561926.shtml on July 16, 2012.

[50] Office of Management and Budget.  “Statistical Programs of the United States Government: Fiscal Year 2012.”  Available at http://www.whitehouse.gov/sites/default/files/omb/assets/information_and_regulatory_affairs/12statprog.pdf on July 16, 2012.

[51] Foster, Lucia; Elvery, Joel; Becker, Randy; Krizan, Cornell; Nguyen, Sang; and Talan, David.  “A Comparison of the Business Registers used by the Bureau of Labor Statistics and the Bureau of the Census.  Office of Survey Methods Research, Bureau of Labor Statistics, 2005.  Available at http://www.bls.gov/ore/pdf/st050270.pdf on July 16, 2012.

[52] The Executive Office of the President of the United States.  “Obama Administration Unveils ‘Big Data’ Initiative: Announces $200 Million in New R&D Investments.” March 29, 2012. Available at  http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf on July 16, 2012.
[53] The White House. “Open Government Initiative.”  January 21, 2009.  Available at http://www.whitehouse.gov/Open/ on July 16, 2012.
[54] douban.com.  “Arrival of the Big Data Era.” March 31, 2012.  Available at http://www.douban.com/note/207694904/ on July 16, 2012.
[55] Tu, Zipei 涂子沛.”The Big Data Revolution 数据:正在到来的数据革命.” Guangxi Normal University Publications.  广西师范大学出版社.
[56] news.163.com.  “An Interview with Tu Zipei: Public Life of Dignity Needs ‘Big Data’.”  July 14, 2012.  Available at http://news.163.com/12/0714/02/86BEHDN600014AED.html on July 16, 2012.

[57] news.163.com.  “Disappearance of Individual Privacy Upon the Arrival of the Big Data Era?”  July 14, 2012.  Available at http://news.163.com/12/0714/15/86CPGMN600014AED.html on July 16, 2012.

[58] China Daily.  “Key Targets of China’s 12th Five-Year Plan.” Available at http://www.chinadaily.com.cn/china/2011npc/2011-03/05/content_12120283.htm on July 16, 2012.

[59] Nie, Huihua; Jiang, Ting; and Yang, Rudai.  “A Review and Reflection on the Use and Abuse of Chinese Industrial Enterprises Database.”  To appear in World Economics, Volume 5, 2012.  Available at http://www.niehuihua.com/UploadFile/ea_201251019517.pdf on July 16, 2012.

[60] Rodriguez, Robert.  “Big Data and Better Data.”  AMSTAT News, President’s Corner, American  Statistical Association.  May 31, 2012.  Available at http://magazine.amstat.org/blog/2012/05/31/prescorner/ on July 16, 2012.

[61] Varian, Hal.  “Hal Varian explains why statisticians will be the sexiest job in the next 10 years.”  September 15, 2009.  YouTube.  Available at http://www.youtube.com/watch?v=pi472Mi3VLw on July 16, 2012.

[62] Massachusetts Institute of Technology.  “MIT CSAIL & Intel Join State of Massachusetts to Tackle Big Data.”  Press release by MIT Computer Science and Artificial Intelligence Laboratory.  May 30, 2012.  Available at http://www.csail.mit.edu/node/1750 on July 16, 2012.