Tuesday, April 9, 2013

统计学2.0:动态框架



摘要

框架涵盖并能识别总体中的每个个体,为普查以及随机抽样提供结构基础, 使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。大数据时代的重要意义在于大部份的数据已数字化,易于批量的存储和处理,并且成本较低。大数据为统计学家提供了前所未有的反思和创新的机会,其中之一是建立动态框架——拥有大量的內容,及时吸收最新的数据,有能力提供实时的结果和分析报告。

传统总体和框架

总体是一个重要的统计学概念。通常被理解为被研究对象的全体,可以是一个国家的全部国民或全部企业,或一天所生产的所有灯泡,或一个大洋所有的鱼[1,2,3]

框架是一个不太普通的概念,它包括一个能涵盖整个总体的识别系统,对总体中的每个个体排序编号。在实践中,框架是研究总体的工作定义,它能识别总体中的每个个体,为普查和随机抽样对总体描述和分析提供结构和基础[2,4,5]
 
1
1是一个传统的普查或抽样调查的统计研究流程图。引用[4],一个理想的框架应具备如下性质:

  • 每个个体拥有一个逻辑的,数值的识别码
  • 每个个体都可以被找到——联系信息,地理位置或其他相关信息
  • 框架是一个逻辑性,系统性的组织
  • 框架还提供个体的其他信息,使研究可以在更复杂的抽样框架下进行
  • 框架涵盖了相关总体中的每个个体
  • 总体中每个个体只在框架中出现一次
  • 框架不包含相关总体以外的任何个体
  • 数据具有时效性

建模可以被认为是抽样过程的一部分,有时会跳过对框架的需求,直接假设所建立的模型和数据充分代表了研究的总体。

实用统计学家深知框架的重要性——它为统计学研究提供结构基础,使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。 然而,由于被看作是行政及文书方面的工作,极少有统计学方面的论文或论坛探讨怎样去有效的创建和维护框架。

许多人抱怨获取或维护一个框架很困难,或者他们在应用不完整或不准确的框架时所受的痛苦经历。质量差的框架的确可以使一个有良好计划的统计研究搁浅,或导致令人误解或有偏差的结果。

对创建和维护一个有可塑性,时效性的动态框架的长期忽视,对统计学界以及整个美国在效率和创新上起着极其负面的影响。

例如,根据[6]虽然准确和完整的地址记录是美国普查局在抽样调查和普查中的一个关键因素,但局內各部门各有自已的记录,这种情况持续了很久,直到不足二十年前,全国性统一框架这个概念才被推进,称作主地址档案Master Address File (MAF)

主地址档案MAF主要被用来帮助问卷调查的传统邮递[7],这是一种日益趋于过时的信息收集方式。对问卷调查无应答的要靠它来上门访问, 然而紧缩的预算和不断上升的人工成本使这种信息收集方式越来越难进行。美国最近进行的十年一次的2010年人口普查中,基于网络的问卷调查未被允许使用。MAF的设计也未考虑到促进和支持基于网络的应用。

大数据时代的到来似乎令统计学界有点不知所措。虽然统计学家被认为是未来十年最热门的职业[8],这个专业郤感觉它在大数据时代的角色被低估和忽视了,但它仍在找寻它应有的角色[9]

似乎只有少数人认识到统计学是一门研究数据的科学[10],不论数据规模的大小。要想在今后的数据研究上依然起关键作用,现在是这个专业该变革的时候了。

统计学2.0动态框架

大数据是一个相对的概念。 明天的大数据将比今天的大数据大。如果统计学家只考虑数据规模的变大,那么大数据的意义仅局限于现有软件和研究方法的相应提升。

大数据时代的重要意义在于大部份的数据已数字化,数据信息涵盖很广, 比如声音,图像以及写在纸上的内容[例如,11],其中许多是前所未有的。这些信息易于批量的存储和处理,并且成本较低。如今统计学的市场越来越大,需求者们对技术细节的要求越来越低,但他们还希望随时能得到全面的,可靠的和便于应用的信息。

大数据是信息技术行业的一次大变革,在同等程度上是统计学的一次革命性的跃进,因为它为统计学家提供了前所未有的反思和创新的机会。

例如,数理统计清晰明了的论证了一个5% 随机样本要优于一个5% 的非随机样本。但是,若与一个50% 或者95% 的非随机样本比较,结果会怎样?对于大规模的非随机样本,我们一直持警示,不赞成,或不予考虑的态度, 但同时对现有的数理统计框架外的探索又非常少。虽然因情况而异,但对于一个非随机样本,其内在的统计偏差是否能随样本的增大而降到一个可以接受的程度,使得基于这个样本的统计学研究有实用意义?

作为另外一个实例, 1是典型的统计学研究流程,每次在研究数据前都要经历从设计到最终获得横断面数据的时序。这样就很难在缩短周转时间和度量个体的纵向的发展变化上有所创新[12]。难道实时的提供可靠准确的统计分析是完全不可能的吗?或者是由于我们已经很习惯于现有的软件和工作方式,在这种惯性的舒适下失去了探索其他可能性的动力?

随机抽样作为主要统计应用模式已经存在了近一个世纪[13]。由于大数据的到来,今天研究一个总体就差不多同研究一个随机样本那样方便。我们应否放弃这个机会?

如果统计学家不及时认识到并面对大数据所带来的理论和实践层面的挑战,忽视其在统计学研究中的重要性,那么其他专业就可能会填补这个空缺,比如还未有明确界定的数据科学家[14]

大数据带来了众多机会和可能性,其中之一是建立和维护动态框架——总体框架拥有大量的內容,及时吸收最新的数据,有能力根据需求提供定时甚至实时的结果和分析报告。

数以仡计用户的电子商务公司和社会媒体具备很好的条件对市场进行调研和预期,他们拥有的大量的数据,比如网上交易,电子邮件和博客内容。一个外行人也可以获取比较欠缺结构的巨量数据。

2
2为动态框架提供了一个简洁概要的流程图,在美国教育界动态框架也被称为纵向数据系统[15,16]

本质上,动态框架的重点在于它的建立和维护,使前述的各个性质上都最优化。框架中的每个个体的信息都随时间不断更新。

统计学家必须充分的参与到动态框架的设计,应用和操作,以及对框架中数据的加工、描述、和分析。统计学家可以在很多崭新和传统工作做出贡献。

例如,识别码在发挥大数据的巨大能量上起着关键作用。它的设计和远用决定了其所能涵盖信息的多少,对数据的整体质量和研究起着决定性作用,它也是保护隐私的首要保证。

作为另一实例,动态框架对个体的数量和内容并无任何限制。这完全取决于可获得多少数据,如何整合记录,如何建立数据之间的联系,以及整个系统的设计。有效的操作可以减少记录的不匹配,提高数据的准确性和一致性,同时减低重复收集或对无用数据的收集。适当的填补遗缺数据保证组合数据的质量和及时性。

其它促进统计学的传统工作范围[14]包括,但不局限于,基于数据源建立连续的质量环;发展动态框架中新的定义、度量和标准;应用新的统计学模型来填补缺失数据、轮廓描述、风险评估、建立人工智能;发展新的可视化技术;加强统计学的训练和教育;保护隐私。

 
动态框架不但保留框架原本的目的,即为普查以及随机抽样提供结构基础,还有其他方面巨大的应用潜力,这完全取决于统计学界的想象力和创新精神。统计学家应该欣然的欢迎大数据的到来,并把它看作是统计学本身的一个大变革,带动统计学在运用数据研究社会和人类知识和实践上达到一个新的高度。

胡善庆博士, Jeremy.s.wu@gmail.com
郭俊池, 博士生, junchi@email.gwu.edu

参考文献

[1] Hansen, Morris H.; Hurwitz, William N.; and Madow, William G.  (1953).  Sample Survey Methods and Theory.  Wiley Classics Library Edition, John Wiley & Sons, Inc. 

[2] Kish, Leslie.  (1965).  Survey Sampling.  Wiley Classics Library Edition, John Wiley & Sons, Inc. 

[3] Cochran, William G.  (1977).  Sampling Techniques.  A Wiley Publication in Applied Statistics, Third Edition, John Wiley & Sons, Inc.

[4] Wikipedia.  Sampling Frame.  Available at http://en.wikipedia.org/wiki/Sampling_frame on April 8, 2013.

[5] Baidu.com.  Sampling Frame 抽样框.  Available at http://baike.baidu.com/view/1652958.htm on April 8, 2013.

[6] U.S. Census Bureau.  Master Address File: Update Methodology and Quality Improvement Program, by Philip M. Ghur,  Machell Kindred, and Michael L. Mersch, 1994.  Available at https://www.amstat.org/sections/srms/Proceedings/papers/1994_128.pdf on April 8, 2013.

[7] U.S. Census Bureau.  The Master Address File for the 2010 Census, by Joseph Salvo, April 7, 2006.  Brookings Breakfast Briefings on the Census.  Available at http://www.brookings.edu/~/media/events/2006/4/07community%20development/20060407_salvo.pdf on April 8, 2013.

[8] Varian, Hal.  Hal Varian explains why statisticians will be the sexy job in the next 10 years,  September 15, 2009.  YouTube.  Available at http://www.youtube.com/watch?v=pi472Mi3VLw on April 8, 2013.

[9] Pierson, Steve and Wasserstein, Ron.  Big Data and the Role of Statistics, March 28, 2012.  Available at http://community.amstat.org/amstat/blogs/blogviewer?BlogKey=737fd276-0225-4c87-b7cb-0cfc7cd9e124 on April 8, 2013.

[10] van der Lann, Mark; Hsu, Jiann-Ping; and Rose, Sherri.  Statistics Ready for a Revolution.  Amstat News, September 1, 2010.  Available at http://magazine.amstat.org/blog/2010/09/01/statrevolution/ on April 8, 2013.

[11] Washington Post.  From the President’s Hand to the Internet.  Available at http://www.washingtonpost.com/lifestyle/style/from-the-presidents-hand-to-the-internet/2013/03/21/0b609e66-9282-11e2-9cfd-36d6c9b5d7ad_graphic.html on April 8, 2013.

[12] Diggle, Peter J.; Heagerty, Patrick J.; Liang, Kung-Yee; and Zeger, Scott L. (2001).  Analysis of Longitudinal Data.  Second Edition, Oxford University Press.

[13] Wu, Jeremy S., Chinese translation by Zhang, Yaoting and Yu, Xiang.  One Hundred Years of Sampling, invited paper in Sampling Theory and Practice, ISBN7-5037-1670-3, 1995.  China Statistical Publishing Company.

[14] Wu, Jeremy S. 21st Century Statistical Systems, August 1, 2012.  Available at http://jeremyswu.blogspot.com/2012/08/abstract-combination-of-traditional.html on April 8, 2013. 

[15] Data Quality Campaign.  Using Data to Improve Student Achievement.  Available at http://www.dataqualitycampaign.org/ on April 8, 2013.

[16] U.S. Department of Education.  Statewide Longitudinal Data Systems Grant Program, National Center for Education Statistics.  Available at http://nces.ed.gov/programs/slds/ on April 8, 2013.

Friday, March 15, 2013

Thoughts on "Forbidden Citizens"

Published in Chinese in "Pivot" Magazine: http://www.ipivot.cn/Enjoy/american/1744.aspx?page=2

The United States has a history of over 200 years based on the nation-building principles of freedom, democracy, and equality.  However, for a long period of time, it legislated continuously to forbid the Chinese from entry, remove the political rights of the Chinese who had already entered, and actively exclude all Chinese.  Few understand this shameful legislative history, including current legislators in Congress.

Martin Gold, nicknamed Lao Ma or Old Horse in Chinese, used his more than 40 years of rich legal experience to write a thorough 600-page book, Forbidden Citizens (
http://forbiddencitizens.com), about the 1882 Chinese Exclusion Act and related laws, filling a huge void in history.  It also has strong educational implications.

This is a very good book.  It describes vividly and in great detail the debate of then-current conditions and fundamental principles, placing you as if in the middle of the situation.  As early as 1868, the U.S. and China signed the Burlingame Treaty to establish friendly relations.  Peoples of either nation could travel freely at any time, even reside permanently.  China received a commitment that in the U.S. Chinese people would be granted the rights and privileges accorded to citizens from the most favored nation. This was a rare equal treaty for China at that time.  However, such a good scene did not endure; change began to occur less than two years after the signing of the treaty.  The Old Horse who knows his way, Lao Ma, started his book from 1870 Congressional debates that led to the 1882 Chinese Exclusion Act.  Finally, in 1943, more than 10 Chinese Exclusion statutes were repealed.  The book systematically and concisely describes the main characters involved, their motivations, and their inter-connections.

When you read the words of racial hatred from some legislators, you grind your teeth and want to join the debate.  When you read how a lonely legislator tried to defend justice and fairness, you wish you could move forward and give him a lift.  When you read the dire warnings of some legislators from more than a hundred years ago, you realize how applicable they are today.

During the more than 60 years of Chinese Exclusion laws, U.S. population increased 2.5 times from less than 50 million in 1880 to more than 132 million in 1940.  During the same period, Chinese in America dropped 25% from more than 105,000 to less than 78,000.

Lao Ma’s grandfather came from Tsarist Russia to the U.S. in 1908 during the peak period of immigration.  He and his grandfather had always been close.  He understands his grandfather’s passion for America’s freedom and equality, but also realizes the distinction had his grandfather been Chinese instead of European.  Lao Ma’s words and actions are in synchrony.  He joined the 1882 Project led by Asian American community organizations and Congresswoman Judy Chu, providing pro bono legal advice and service.  Together they successfully pursued the passage of Senate and House resolutions in 2011 and 2012 to express regret towards all Chinese Exclusion laws and their legislation, adding a huge exclamation mark to the bitter history of Chinese Americans.  The legal costs exceeded one million dollars, but Lao Ma insists that his action was “labor of love” and did not receive a cent for his services.  This book is the crystalized product of his “labor of love.”

The U.S. Constitution requires that Congress must keep and publish a journal of its proceedings except for security matters.  With information digitization, all Congressional records since the founding of the Republic may now be viewed and researched at the Library of Congress website and other websites.  Video records were added in recent years.  Lao Ma was able to make use of these resources and the nation’s transparency policies to write his book.  Effective use of “Big Data” to improve transparency and governance is an exemplary practice for other nations.

It is obvious that a monolithic government cannot create freedom, democracy, and equality for a diverse population.  Congress has already expressed apologies to the Native Americans, African Americans, Hawaiians, and Japanese Americans for its legislation and behavior in the past.  The U.S. government itself will not take initiative to review its mistakes in the past.  The success of the recent Chinese American initiative was a combination of the leadership of Congresswoman Judy Chu and fellow politicians, unified planning and actions by Asian American community organizations, and the help and support of true friends such as Lao Ma.

In the long run, we must educate, especially the younger generations, to remember and review the lessons of history in order to understand current affairs.  Lao Ma’s book and the web-based timeline application are applicable educational tools for both the U.S. and China.

The U.S. is not a perfect nation, but it learns and makes corrections from its past mistakes.  As such, it is an ever improving nation towards freedom, democracy, and equality.

NOTE: This reviewer used a combination of 37 small stories to compose a web-based timeline application about the 1882 Chinese Exclusion Act and related laws (http://www.jeremy-wu.com/Forbidden_Citizens) to assist you to browse through some of the contents in Chinese before acquiring Lao Ma’s book in English.


# # #

《Forbidden Citizens》读后感


本文发表于《支奌月刊网站》: http://www.ipivot.cn/Enjoy/american/1744.aspx?page=2


美国以自由、民主、平等为立国原则,已有二百多年历史。但有一段很长的时期,它不断立法禁止华人入境,剥夺已入境华人的政治权利,积极排斥所有华人。了解这段可耻的立法历史的人不多,包括现任的美国国会议员。

Martin Gold昵称老马,擁有40多年的丰富法律经验,把1882年《排华法案》的前世今生㝍成了一本600页的书Forbidden Citizens》(http://forbiddencitizens.com 填补了一大历史空洞,亦有很大的教育意义。

这是一本很好的书。它详细而生动地描述当时时勢和原则的辩论,使你感同身受。早於1868年,中美两国签订《蒲安臣条约》建立友好关系,两国人民可随时自由往来、包括移民久居。美国中国承诺,在美华人会受到最优惠国家公民的特。这是当时中国稀有的平等条约。但好景不常,不到两年便开始发生变化。識途的老马从1870年讲起,1882年《排华法案》的通过,1943年所有十多条排华法律的废止,系统、简地讲解当的主要角色、出发奌和相关性。

当你看到老马书中一些议员的种族仇恨言论,你或许会咬牙切齿想加入辩论。当你看到一些议员孤立地为正义发言,你或许会想走上前去扶他一把。当你看到一些议员一百多年前的警世真言,你肯定会感受到今日它们的应验。

排华法律有效的
60多年期间,美国人口增加2.5倍,从1880年少于5千万升到1940年超过1320万。同期间,在美华人人口从超过10.5万降低至少于7.8, 减少了25%

老马的祖父在1908年美国移民高潮时从沙俄帝国迁到美国。他和祖父一直很接近,明白祖父对美国自由平等的响往,但也深深领会到如果祖父不是欧洲人而是华人的区别。老马言行一致,參加国会众议员赵美心和亜裔团体的1882计划,提供无償的法律谘询及援助,成功地爭取了美国參、众两议院在2011年和2012年的决议,对所有排华法案表示歉意,为130年来在美华人辛酸史上㝍上一个大句号。法律费用总值超过100万美元,老马这是他"爱的劳工",不收一分一,这本书是他"爱的劳工"的结晶品。

美国憲法规定,国会的研讯及决定都必须记录在案。随着信息电子化,所有二百多年立国以来的国会档案,除了机密事件,都可在国家图书馆及其他网站查看研究,近年来更增加了视频。老马能㝍这本书,就是利用这些资源和国家透明政策。善用"大数据"增强透明度治理,是值得其他国家借鉴的。

很明显,单元的政府不可能创造多元的自由、民主及平等。美国国会也曾对它过去的法律和行为向印地安人、非裔、夏威夷人、及日裔道歉。美国政府本身不会主动检讨它过去的錯误。这次在美华人行动的成功,有赖於赵美心众议员及参政人仕的领导,亜裔华人团体同心合力的计划,再加上老马这类朋友拔刀相助的仗义。

长远角度来说,我们还必须进行教育工作,特别是年青一代,吸取教训
温故才可知新。老马的书和《排华法案》时间轴都可采用为中国和美国的教育用材。

美国不是一个完美的国家,但知錯能改,就是一个不断向自由、民主、及平等前进的国家

笔者在网上http://www.jeremy-wu.com/1882CEA.html37个小故事编一个中文《排华法案》时间軸,可以更清晰简明地了解1882年排华法案的整个过程。



英文版可见:http://jeremyswu.blogspot.com/2013/03/thoughts-on-forbidden-citizens.html

# # #