摘要
20世纪期间,传统普查和新引进的隨机抽样调查共同被应用于各国人口和经济的测量与推论。这两种统计数据方法在全世界支持决策、政策的制定、和传递信息都非常重要。21世纪开始在全球数据大量电子化及大数据爆发成长,刺激和引起对更及时和更广泛信息的更多要求。因为传统的普查和隨机调查是静态、定时的,它不可能毫无基本变化地满足不断扩张的动态需求。21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护稳私和数据安全,並认证準确与可靠度。包括美国的一些国家统计局领導最近已反复地解说这些需要和趋势。能成功地克服这些议题的政府机关将会帮助它们的国家拥有全球独特的竞争优势及利益,否则它们会面临淘汰。作为一个快速成长的经济大国,中国的统计数字日益受到重视、並对世界具有重大映响力,但也面对许多相同的挑战。本文介绍一些在美国和其他国家漸露頭角的成功故事,並讨论面对21世纪动态、组合数据系统挑战所必须改革的意识和做法。
20世纪统计系统
普查,也就是对总体每一个單位收集数据,已经是多世纪以来测量人口分布和特证的传统统计方法。中国在2,200多年前已进行了它的第一次人口普查[1]。西元2年西汉朝代,存在记录[2,3,4,5]
顯示中国人口接近5,800万、户口超过1,200万。1983年中华人民共和国制定它的第一批组织管理统计工作的法律[6]。从1949年开始,中国进行了6次全国人口普查, 1990年后是每十年一次[7]。基於它的憲法规定,美国在2010年进行了它两个多世纪以来的第23次和最近一次全国人口普查[8,9]。
美国、中国和其他国家都很普遍地举行多范围包括经济、工业和农业的普查。举例来说,美国每五年举行一次有关商务活动的经济普查。下次的经济普查预定在2012年开始[10]。2007年的经济普查复盖了非务农私人经济的2,400万家企业,约佔美国国内生产毛额(GDP)的96% [11]。中国最近期的经济普查是在2008年[12]。虽然每项普查都有不同的法律背景或动机,但最终目的是相似的-提供有关联的、及时的、和可靠的数据以作研究、分析、支持最后决策制定。
虽然普查在过去许多世纪已经证明它的重要,不过它也有一些众所周知的实际弱点。最重要的是,人类活动是连续和动态的,但普查只能为一个指定的普查日子或短暂时期提供一个比较全面的速映。通常普查结果在被宣布时,它们已经过时了。
动态的人类行为和社会、经济和政治现象不可能会被定時静态的普查完全地描述解释。设计全国性普查的操作与数据收集典型地复杂,需要多年的準備。更多的时间然后被花费在数据处理、分析、及报告结果。高费用的全国性普查还需要小型及較常发生的隨机调查补充輔助。
经过十多年设计、发展和测试之后,"美国社团调查"(ACS)在2005年开始在美国人口和住屋的特性上運用"连续性测量"[13]。每年大约300万个住址(每月25万个住址)隨机被選为一个5年旋转周期的抽样單位。ACS的估计是基于每月的调查数据聚集一段时间后以日历年为單位而产生的。人口較少的地方,ACS估计需要五年时间的数据聚集才可以报告[14]。
据报导,中国以"全国人口样品调查"及2011年的结构改变而重估它的最近总人口[15]。抽样方法为成层、多阶段、成群、及按比例概率。在31个省市区、4,800个村庄、4,420个镇区和2,133个城区中的150万人接受面谈提供数据。
抽样调查是挪威统计局局长在1895年的国际统计学会(ISI)年会中提出的新观念[16]。国际统计界花了30多年辩论它的优劣利害才最后決定抽样调查是可行的科学方法。在这期间,今天的数理统计学理论和实践应用发展成长,支持隨机抽样调查的想法。
美国文理科大学首开先例在1935年创建统计系的是乔治华盛顿大学[17]。学术界会成为未来统计家的培训基地。根据美国人口普查局资料,隨机抽样调查首先在1937年经济大萧条期间被用于对失业问题的测试[18],部分回应当时对及时资讯的需要。政府会成为未来统计家的主要雇主。
得到新理论的支援並在多方面实践的考验,加上1950年代商业计算机及后来引进的台式计算机,隨机抽样调查很快成为收集数据及运行统计分析以作决定的标准统计方法。现代统计系统的基础主要依靠1970年代计算技术而建造的,在1990年代互联网商业化推进新信息時代之前。
到20世纪末期,包括普查和调查数据的统计系统不僅是政府的核心操作,亦是为市场调查、政治预测、农业和经济发展计划、环境管理、公共卫生、运输计划、自然科学、和其他人类和社会活动应用分析的基础。然而,数据一定要依照统计设计收集,包括概率原则的应用,才能作统计推论。大规模的统计分析典型地会被政府或学术界的统计家或主题专家包辦操作。
21世纪数据需要和趋势
21世纪頭十年很显著的是数据迅速从模拟轉型为数码,並很快被神速增加的网民接受认同使用。大部份的网民都不是在学术界或政府的统计或主题专家。
根据南加州大学的一项研究[19,20],世界电子储藏数量在2002年第一次超越了非电子储藏数量。但到2007年,地球上至少94%的所有资讯都以电子形式储藏。
|
图1: 可视的1 zettabyte [21] |
据报导,世界制造与储存容量在2010年第一次超过1 zettabyte (1 ZB) [22,23]。相对地,2007年是0.29 ZB和1986年是0.00002 ZB [19,20]。一位行业领袖宣布"我们(人类)现在每两天产生的数据相等于从文明的破晓到2003年"[24]。举例说明相对份量,一个人的整个基因组,包括沿染色体的30亿化学基础,只需大约3 GB (0.000000000003 ZB)的计算机储藏,以今日标准而论是不稀奇的[25]。阿尔发磁性分光器每秒钟就记录1 GB的宇宙光数据[26]。
实际意义来说,纸用记录已陈旧被荒废,私营企业正在产生大量的数据,而数以亿计的数据消费者不必是统计或主题专家。
数据可以没有抽取样品的需要或考虑,将其完整地电子化直接輸入机器处理和计算。这个巨大变化的速度与电子数据广泛无政治、地理边界的散播配合得天衣无缝。通路和信息科技的使用在发达国家和发展中国家是差不多同样的普遍。无论世界任何一个角落,只要一部计算机能上网,它就能被存取数据应用。
大数据是一个尚未定型有关非常大量电子数据的新用词,它很可能不是根据传统统计系统的结构和概率原则而收集的。行政记录、社会媒体、条码和电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像、和人造衞星图像都是大数据来源和爆发生长的因素。大部分的大数据都没有传统统计分析和推论的结构,也沒有很多简易软件和统计系统可用。然而,大数据也有一部份是前所未有可作政策决定的丰富信息,尤其是当它们能适合地整合融入政府数据庫中。
私营企业在生产大数据已领先起歩,组合政府的统计,发展数据挖掘技术和方法来识别潜在的消费者、扩张市场、测试新产品、並抽取新讯息以作其它巿场及客户研究。有些情况下,他们甚至可向传统的政府功能挑战。举例来说,一些社会媒体搜索的言詞被用来做感冒的指标,它的表现不比公共卫生机关的指标差,在及时方面更胜一筹[27]。
尽管它在大数据汪洋中的份量逐渐减少,政府统计仍然擁有其支持全球化的经济体制及解决不断扩张的社会需求的独特重要。然而,当我们活在可以数秒钟內上网搜索展示百万计的结果和国际股票市场日夜即时报導成交数据的时代,要等多月甚至多年才可收集、处理、发放在地理、企业、与人口都有限制的静态结果将失去它的意义。
大部份国家,甚至发达国家,都面对严格的财政预算限制。现在的高费用、低回收的普查和调查辦法否定了它们新引进或扩张一贯做法的可能性。全球普查和调查反应率下降亦把问题搞得复杂。举例来说,尽管多方计划和努力,美国2010年的普查参与率僅僅达到2000年的74%[28]。到了个人面谈的地步,普查平均费用升到每户56美元,超过最初的邮寄费用的100倍[29]。
事实上,美国众议院在2012年5月通过结束"美国社团调查",表示对保护隐私和预算金额的担心。2012年的经济普查能否如期进行,目前尚不能确定。
国家统计局面对的挑战是真实、令人畏懼的: 20世纪的统计系统不能满足21世纪的需求。应用政府统计的网民正在快速地在数字和广度方面增加。他们需要更广泛、更动态、更及时的数据,並能容易地存取和了解,但现有方法必需的资源和时间都不可得或不能负担。政府仍然要提供準确又可靠的统计数字,亦要同时严格地保护回应單位的隐私。
不能满足这些需求的话,澳大利亞统计局不能肯定它"将能保持在社会官方数据核心"的地位[30]。大数据时代的来臨与数据使用者需求的增加是无可避免的,但许多政府和统计机关仍然沒有充份准备如何善用大数据。
面对这些21世纪的挑战,跟本地改革普查和调查的意识形态与一贯做法是必要的。渐进小修理由1970年代的智識和技术建造的统计系统不足以应对大数据革命的要求。
21世纪统计系统的特徵
21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护隐私和数据安全,並认证準确与可靠度。
纵向数据是对同一單位(例如一个工人、一位学生、一个家庭、一门生意、一所学校、或一座医院)在时间上重复观察所得的数据。它能在个体水平提供独特的底线和变化计量。传统的定点研究同时对多單位收集数据,不能像纵向数据可以直接追踪变化。
纵向行政记录是建造广泛详细的统计系统的潜在数据来源。加拿大统计局非常简单地把行政记录定义为"各种非统计计划收集的数据"[31]。潜在数据来源包括出生和死亡证明书、关税公告、婚姻和驾驶执照、个人和生意税务、失业保险、社会福利和医药处方。下列例子说明巨大量纵向行政记录的存在。
- 在它能开始操作之前,一门新生意一定要完成登记表格。一般支付薪水和税务都有报告可查。如有贷款或合并和收购,另有文件一定要完成。公司掛牌上股市,一定要申请批准才可交易。
- 一位学生一定要填好表格才可进一所学校。他一定要登记才加入某班某级。个别测验考试分数都被记录。从一所学校轉移到另一所学校需要一份成绩报告单。当一位学生毕业的时候,他会收到一张文凭或学位。
- 同样地,每个人每次到医生的办公室或一所医院检查或看病都会有纪录,包括健康指标数据、疾病的症状和医疗处方內的藥物类型和数量。
如有适当设计和自动化,编联电子数据的费用只会是密集劳力收集普查和调查的数据费用的一小部份。因为管理的记录已经存在,也没有对个人或公司增加负担。一次确定后,一些个人资料的輸入,例如性別、出生日期和种族,都可以大量減少,因为它们不会变或会循序轉变。
20世纪最后20年间,把行政记录组合到统计系统去替换人口普查的潜能被活跃的辩论[例如32,33,34,35,36]。1981年由丹麦提倡,现在欧盟27个国家中至少有20国家正在使用人口登记或人口登记和传统的户口普查合併计算他们的人口[37]。
虽然纵向数据研究在医学临床实验中被相当广泛地採用多年,在其他的区域中它的组合应用比较稀疏和有限制,主要因为设计弄得太复杂、处理和数据储藏的费用曾经很高、理解及存取数据困难、和对有关保护隐私的担心。
来自澳大利亞、加拿大、新西兰、英国和美国的统计局领袖最近开了一个高峰会,会议內容包括讨论对21世纪统计系统的共識和远见。美国人口普查局局长在博客中描述未来远见如下[38]:
"中央政府统计局的焦点工作一定要用传统的调查和普查(使用纸、互联网、电话、面谈)混合連接多种可得的数据来源(行政、其他记录)而生产高质量、及时的统计量来讲一个与经济、社会、环境进步密切相关的故事。"
政府统计局一定要继续生产维持普查或调查的抽样框架,但又要增加组合和最理想地利用已存在的数据来源。这些框架过去曾是静态,包含极少內容。在21世纪,这些框架一定要改型到动态结构及丰富內容,有能力第一时间常规地或在要求下生产广泛、高质量和及时的统计量,並能轻易引进和融合新来源与数据。这些动态全国性框架包括统计和地理的数据,有能力隨时隨意绘作地图及报告,並保持傳统的抽样框架作用。
"说一个密切相关的故事"是统计局21世纪在意识形态上必须改革的一部份。长久以来,统计专业人士总把推论统计排在第一位角色,冷落描述统计到第二位或補助角色。在大数据时代,无论从那一角度来看,现代可视化与其他技术从烦复数据抽取重要信息是很有價值的统计实践。当政府和学术界专家已不是唯一或甚至大多数的数据供应者或分析家,理解、通路和使用的安逸一定要是迅速递送结果的主要部份。
组集和维持广泛、动态的统计系统需要大量的敏感个人的和商务数据。然而,以统计摘要的形式分析结果,又必须消除任何暴露个人和企业身份的可能性。个人和企业理所当然地应该关心和了解他们的隐私是如何受到保护,並绝对防止无意误用或悪意滥用他们的数据。数据安全亦要有最嚴格的保护,防止任何对系统数据及发布统计的干预和变更。
初现的成功故事
一些国家已开始建造有关就业、教育和公共卫生的公众纵向数据计划。这些计划虽在不同的发展阶段,但提供了在大数据時代建造和维持广泛、详细动态统计系统是可行的令人鼓舞消息,虽然它们仍然有许多挑战存在。
超过20个国家的代表在1998年參加一个国际论坛,讨论组合雇员-雇主数据的研究[36,39]。美国人口普查局同年成立一个纵向雇主-家庭动态计划,联编组合现有的雇主-雇员数据而生产创新的统计产品[40]。
到今天美国联邦政府已经和所有54个州、直轄巿和地区政府签订協议,保障每州每季不断提供工人和雇主的失业保险记录。美国人口普查局维持及不断更新一个从1990年开始的全国纵向工作抽样框架。每份工作把一个工人连接一个雇主,而一个工人能有多份工作。这个数据系统是设计来跟踪和每三个月更新超过1亿4,000万工人的就业状态与薪资,和超过1,000万雇主(包括自我雇用的)的状态,同时仍然继续严格地利用法律、政策、隔离、技术各种方法保护每一个工人和雇主的隐私。
这个纵向数据系统已经成功地鼔励建造创新、实际的在线应用来推进新数据的使用, 例如时间序列指标用前所未有的人口和地理细节来描述美国劳动人口的动态变化[41]。除此之外,创新的在线绘图和报告应用容许一个用户隨意选择任何一个地区来制造该地区的劳动人口描绘和通勤地图及报告[42],並可在紧急的情形中几乎即时描述评估飓风和其他的天灾对劳动人口和地方经济的潜在影响[43]。这在线应用在联合国统计委员会被介绍为美国统计产品的新发明[44],並荣获美国商业部金牌奨,这是該部门承认科学成就最高形式的荣誉。
私营机关和社团组成的"数据质量活动"(DQC)在2005年开始向美国教育制度利益相关者,包括学生、父母、老师和政策制定者協助提供"从孩童时期、幼儿园到中学(K-12)、中学后、和劳动人口的高质量数据,以确保每位学生中学毕业,並为大学和未来工作的成功作出最好准备和决定"[45]。要达到这个长远目标,"DQC支持州决策者和其他领袖发展並有效地使用州际纵向数据系统"。
美国教育部和劳工部同时投资招标建造及组合这些广泛的州际纵向数据系统。DQC表示"我们不能不使用教育的数据"来作出有根据的决定。DQC更为州决策者和领袖做了两个蓝图: "州际纵向数据系统10大必要元素"和"10项州际行动支援有效的数据使用"。自2005年以来每州的情况和进展都被年度调查追踪报告。
2009年的"健康信息科技法案"建立了2014年美国广泛並有意义地運用电子健康纪录的目标[46]。2011年比利时报告发动"比利时纵向健康资讯系统计划",把有关健康数据定义为"所有个人资料有关过去、现在及未来的身体及精神健康情况"[47]。研究重心集中在健康的纵观並參考其他国际计划包括加拿大、丹麦和英国。中国自2009年开始进行公共卫生健康改革[48],它的基本体系包括建造一个含13亿民众的纵向电子健康记录系统[49]。据报导,它的主要政策已经成立,系统记录内容正準備起歩。
主要的挑战和中国
美国统计系统高度分散。虽然2012年支援联邦统计的预算资源只佔国内生产毛额的0.02%, 但它横跨13个主要统计局和超过85个其他非统计机关的统计活动[50]。美国相当大部分的努力花在克服它的分散结构的固有障碍-数据分用不足、数据质量标准竞争、不必要的重复、管理费用多、及解决数据通路困难。
举例来说,美国人口普查局和劳工统计局维持二个分隔的商务登记系统。每个登记系统应该包括所有美国企业,因为它们都是框架用来替普查和调查抽取样本,构成包括国家经济指标的重要信息。然而,由于他们的独立来源和自然的动态,这二个登记系统在公司数字和他们的薪资帐册和就业人口有可观的出入[51]。虽然过去十年有进步,但一个来源的商务登记系统还没有在美国浮现。
白宫在2012年3月宣布"大数据研究和发展计划"开始[52],提供2亿美元新的研究和发展投资,改进从龐大、复杂的电子数据中提取知识和洞察力的能力。因此联邦政府继续努力把大数据引导集中到美国各个统计局内。世界各国包括中国亦需要同样的高層政府资金、承诺和领导,特别是有关数据透明与公开的政策[53]。
最近百度搜索表示,中国对大数据议题的注意似乎是偶尔发生,但最近6个月有較大幅的增长。搜索结果包括2月11日纽约时报文章"大数据時代"的中文翻译[54],7月14日访问所知唯一关於大数据的中文书作者[55,56],和同日媒体有关大数据如何可能威胁个人隐私的报導[57]。
2012年7月1日清华大学主办一个论坛,是有关中国统计局、学术界和私营企业如何实际处理大数据和它对统计系统影响的很少活动之一。值得注意的例外是阿里巴巴集团的研究努力,它每天有数以百万计的公司使用它的网站和数以十亿元计的电子商务交易。
中国对顶端质量统计的需要少不了其他国家。中国第十二个五年计划的许多主要目标都是以数量定义[58]。当中国正在从一个出口国家转型到一个消费者国家,每个目标的状态和进展都要被可信、可靠、和及时的统计量和指标测量评估。当中国经济成长最近降温,了解最新趋势和邦助中途更正或改航都需要深入的数据。中国崛起成为经济大国,它的统计量和指标对全球经济有巨大影响。谚语有说,中国打喷嚏,其它国家都感冒了。
中国学术界最近一项报告介绍一个叫"中国工业企业数据库"的纵向微观数据库,它的重心集中在中国的企业行为和表现的概观[59]。
据报导,基于样本企业提交给当地统计局的季扱和年扱汇总,中国国家统计局组合全部国有工业企业以及规模以上非国有工业企业数据而建立这个始於1998年的纵向数据库。它的最大工业成份是制造业。这个经济数据库是对中国经济普查的唯一补充资料,2004年约佔全国的所有工业企业的售卖额的90%。小、中型的商店和电子商务公司不被包括在內。
该文章描述9大范围可以从数据库提取信息,並形容中国内外对这个数据库的兴趣快速上升。可是,"工业企业数据库本身存在很多问题,包括样本匹配、指标缺失、指标异常、测度误差、样本選择和变量定义等。怱视这些问题会映响到计量经济分析的基本结果"。
该文章提供了解决问题的建议,尋求有效的领导和管理克服一个有价值的纵向统计系统的基本困难。这些问题同样地在其他正在建造21世纪统计系统的国家存在。
不是所有的大数据都適合或应被採用来组合融入统计系统以提供统计用途。从数据提取最佳信息及質量管理是统计学的核心价值和职业功能。提醒有关数据的限度和专业排除错误的发现,偏见及混淆是统计家最能增加价值的一部份[60]。利用多世纪累积的知识,统计学站在一个优越的地位,最能处理大数据的许多挑战,促使一个预言,"未来10年最棒的工作将会是统计家"[61]。
实际经验和实践证据建议统计家的主要贡献范围包括:
- 连合记录。系统设计和精确及概率相配技术来改善多源记录的连合,盡可能減低低人口的错误记录结合。
- 填补数据。发展和应用填补数据技术与方法可靠地替代因連合纪录而产生的遗失或欠缺的数据,但又不能制造不被支持的假信息。
- 数据質量认证。建立健全的方法和规则不断地测量及发现反常和影响点,並应用最适当的解决辦法。
- 进化标准。用词和定义标准化提供一致的理解,但也要有充分柔性容纳例如"绿色工业"的新概念。
- 统计模型。多元的数学抽象和统计应用包括填补数据、市场和客户描述、風险估计、预测未来和创造人工智慧。
- 数据可视化和创新应用。创新並及时散播和发表信息以编織密切相关的故事,销售新观念及改善统计教育。
- 保护隐私。发展和应用统计方法与规则,例如噪音注入及人造数据,以保护个体隐私及把保护程度数据化。
大数据不只反映現代科技进步而要改善统计计算,它是向传统统计專业的一場挑战,並要鼓舞创新思维和发展的一場大革命。
过去一世纪很普遍的一些数理统计理论可能需要延续。举例来说,众所周知一个5%随机抽取的样本擁有更好可测量的条件而胜于一个5%非随机抽取的样本。可是一个5%随机抽取的样本将会如何较量大数据情况中很普遍的30%,50%或更高的非随机抽取的样本,则是未知之数。统计应用从做推论轉換到讲故事又应否把指标修正?
相似於随机抽样概念在1895年被介绍的时候,建造21世纪统计系统的工程将会以经验为主导,並与理论发展同步发生。但是让国际统计学界去花30多年才欢迎接受大数据的使用是不可想像的。
使用大数据革命性和创新性地建造21世纪的统计系统需要多元学问智識,包括统计学、计算机科学、地理学和專业例如经济、教育、能源、环境、医疗和运输。
它也需要学者-民众-私企的合伙。如有适当分享数据意願,私营企业会是21世纪统计系统的数据主要供应商之一。学术界仍然是绝对重要,进行基本研究、培育未来的"数据科学家"、並发展支援理论。在美国的麻省,麻省理工学院和多家私营企业最近朝这一个方向共同走了第一步[62]。
总结
普查已是过去二千年的官方统计方法。最近一世纪,随机抽样被引进並成为最常用的统计方法。当样本單位是随概率而被抽,一小部份的总体能有可测量的准确性、有可靠度和有根据地推论整个总体。
开始於1990年代的现代信息科技推进了大数据时代的来临。巨大量的数据变成可得,有存取能力的数据使用者爆发地增加,储存和处理数据的费用戏剧性地减少。在21世纪全球经济中广泛地、及时地、综合地收集、分析和散播数据信息的需要已是根深蒂固。
大部分国家统计局不可能光靠自己改善扩张他们的现有的辦法。现存的数理统计理论不足以支援大数据的实践使用。植根於1970年代技术的20世纪统计系统不再充份满足21世纪的需求。
本文概略说明面对所有的国家的基本的挑战,提供如何组合多来源的大数据建造纵向统计系统的漸露成功故事。憑着一个新统计基础去组合建造创新又动态的21世纪统计系统是必要而可行的。它需要政府的承诺和领导,学者-民众-私企的合伙,和同时多元的研究和发展,创新利用过去数个世纪的统计思维。"未来10年最棒的工作将会是统计家"这句预言是可以实现的。反过来说,如果国家统计机关不能在意识形态和一贯做法进行各方改革,它会面临淘汰的命运,亦会令其国家在世界经济上失去竞争优势。
参考文献
[16]
Wu, Jeremy S., Chinese translation by Zhang, Yaoting and Yu, Xiang. “One Hundred Years of Sampling,” invited
paper in “Sampling Theory and Practice”.
ISBN7-5037-1670-3. China
Statistical Publishing Company, 1995.
[20]
Hilbert, Martin and Lopez, Priscila.
“The World’s Technological Capacity to Store, Communicate, and Compute
Information.” Science 1 April 2011: Vol.
332 no.6025 pp.60-65. DOI:10.1126/science. 1200970. Available at http://www.sciencemag.org/content/332/6025/60.abstract on July
16, 2012.
[32]
Brackstone, G.J. “Issues in the use of administrative records for statistical
purposes.” Survey Methodology. Vol. 13. p. 29–43, 1987.
[35]
Organization for Economic Co-operation and Development. “Use of Administrative Sources for Business
Statistics Purposes.” Handbook of Good
Practices. Available at http://www.oecd.org/dataoecd/58/1/36237357.pdf on July
16, 2012.
[36]
Haltiwanger, John; Lane, Julia; Spletzer, Jim; Theeuwes, Jules; and Troske,
Ken. “Conference Report: International
Symposium on Linked Employer-Employee Data.”
Monthly Labor Review, July 1998.
Available at http://bls.gov/mlr/1998/07/rpt2full.pdf on July
16, 2012.
[38] Groves, Robert M.
“National Statistical Offices: Independent, Identical, Simultaneous
Actions Thousands of Miles Apart.” U.S.
Census Bureau, February 2, 2012.
Available at http://blogs.census.gov/directorsblog/ on July 16, 2012.
[39] Haltiwanger, John C.; Lane, Julia I.; Spletzer, James, R.;
Theeuwes, Jules J.M.; Troske, Kenneth R.
“The Creation and Analysis of Employer-Employee Matched Data:
Contributions to Economic Analysis.”
North Holland, 1999.
[40] Wu, Jeremy S. “State
of Longitudinal Employer-Household Dynamics Program.” Unpublished manuscript, U.S. Census Bureau,
January 2006.
[47] Ecole
de Santé publique, Vakgroep Sociaal Onderzoek – SOCO, and Institut de Recherche
Santé et Société. “Belgian Longitudinal
Health Information System: Supplement the health information system by means of
longitudinal data. Summary of the
research.” Project AGORA AG / JJ / 139.
February 2011. Available at http://www.belspo.be/belspo/organisation/publ/pub_ostc/agora/agJJ139_synth_en.pdf on July 16, 2012.
[51] Foster, Lucia; Elvery, Joel; Becker, Randy; Krizan, Cornell;
Nguyen, Sang; and Talan, David. “A
Comparison of the Business Registers used by the Bureau of Labor Statistics and
the Bureau of the Census. Office of
Survey Methods Research, Bureau of Labor Statistics, 2005. Available at http://www.bls.gov/ore/pdf/st050270.pdf on July 16, 2012.
[55] Tu, Zipei 涂子沛.”The Big Data Revolution 大数据:正在到来的数据革命.” Guangxi Normal
University Publications. 广西师范大学出版社.
[62] Massachusetts Institute of Technology. “MIT CSAIL & Intel Join State of
Massachusetts to Tackle Big Data.” Press
release by MIT Computer Science and Artificial Intelligence Laboratory. May 30, 2012.
Available at http://www.csail.mit.edu/node/1750 on July 16, 2012.