六关于吉尼系数与社会分化问题

2024年12月4日　　来源：共同的底线　作者：秦晖　提供人：zhuishen13......

张先生对何书作了许多考证式的批评，其中一些说得对，确实纠正了何书中的一些事实错误。但也有一些指责，无论从知识角度还是逻辑角度看都难以成立。其中最典型的是他就吉尼系数与社会分化问题提出的批评。张先生认为何清涟对社会分化状况的描述是“情绪化的渲染”，夸大其词。理由是何书没有使用经济学家李实课题组的数据，而使用了社会学家李强课题组的数据，据说这组数据“是错误的”。张先生于是指出：“这里主要责任在原文作者（按：指李强等），《陷阱》只是引用，但以经济学家自称的何女士，居然没有发现这里的错误，可见其对吉尼系数的理论和方法也不甚了了。”

这样的指责真是太离奇了。首先即使李强的数据确实“是错误的”，按张先生自己的说法也应由李强先生等负“主要责任”，为什么张先生不直接找李强先生商榷，而去责问“只是引用”者？张先生自己说这组数据也是“学院派”的成果，而且据他说“学院派”是懂得“规范”的，远非何清涟这种“大众读物”作者可比，怎么他反而要求后者“发现”前者的“错误”，“居然没有发现”就值得他如此责问？

其次，从数值上看李强和李实两组数据是极其近似的：前者是0.434，0.445，而后者是0.409，0.444和0.445。无论哪组数据都不会影响何书得出的结论：“这已经超过了西方国家通常的吉尼系数。”为什么引用前者是“情绪化的渲染”，而引用后者就能得到“国内外专家的充分肯定和高度评价”？

当然，也许张先生对结论并不感兴趣，他只是热心于立“规则”。但这“规则”不知为何带有几分种姓制的味道：“笔者以为，从计量方法来看，搞计量分析的经济学家自然要比社会学家精通。因此，这里主要责任在原文作者。”原来一个人只要属于“经济学家”种姓，他就注定要比属于“社会学家”种姓的人高明——至少在“计量”方法上是如此。然而众所周知，我国的经济学曾长期为“政治经济学”所垄断，计量经济学是改革后才发展起来的，倒是社会学由于不为“政治”所承认，一直只有“资产阶级的”实证传统，包括计量分析传统。依张先生的逻辑，到底是哪个“种姓”更有资格玩“计量方法”？而吉尼系数的提出者科拉多·吉尼本人，虽然也“由于吉尼系数而在经济学家中颇负盛名”［13］，但他更多地被看作社会学家与统计学家，他早年读的是法律系，成名后在罗马大学主持的是社会学讲座，他创办的学术杂志《族系》和《计量》、他建立的学术机构如人口统计学研究所等，通常也被归入社会学界而非经济学界。依张先生的逻辑，作为社会学家的吉尼本人也“自然”没有资格谈论吉尼系数了？

张先生对何清涟据说是不恭于李实先生发表了一番义愤填膺的谴责，但何书对李实先生其实并无只字评议，张先生只是离开文本讲“故事”（何清涟已否认了这一“故事”，这里的是非旁人不论也罢）。而张先生对李强先生乃至社会学家们的轻蔑可是白纸黑字：他们玩不了“计量分析”，“对吉尼系数的理论和方法也不甚了了”，所犯的“错误”如此小儿科，你“居然没有发现”，那就说明连你也是个大傻瓜——“不仅不够格，可以说还没有入门”！连“没有发现错误”的人都被指责为“没有入门”，那犯“错误”的人岂不就更不堪了？

惭愧之至！本人在经济史这一行里也算是以常用吉尼系数见称了，但也“居然没有发现”李强等人的“错误”。稍有专业常识的人都知道，抽样调查本来具有一定的随机性，任意两次抽样的结果不会完全相同。你可以说这个或者那个抽样统计更具有代表性，但却很难说这个“正确”而那个“错误”，除非你查对过他的技术操作过程并从中发现了纰漏。据我所知，李强课题组至今并未公布他们的样本分布、原始数据和运算过程等技术资料，张先生何以断言他们的研究是“错误的”？难道就只凭他们是社会学家却“居然”得出了与经济学家不同的结果？

反复细读张文，其中提到李强与李实两组数据的区别无非有二：其一，李强的数据包括按人计与按户计的两个吉尼系数值，而李实的数据除这两项外，还有一项“按家庭人均收入但以家庭为单位计算”之值。张先生于是断言“计算吉尼系数有三种方法”，似乎用了两种“方法”就是“错误的”。这真是奇怪的说法。涉猎过有关文献的人都知道，如今仅以一项吉尼系数（按人计或按户计）来进行不均度比较的事例就不胜枚举，只要比较数据的统计口径一致（例如不是甲按户而乙按人），就是符合规范的。如著名的“鲍克特数据”［14］给出了56个国家的吉尼系数，“阿卢瓦利亚数据”给出了60个国家的吉尼系数，［15］每国均只有一个数值。20多年来它们的引证率很高，国际政治经济、经济史以及发展经济学的人们乃至世界银行等国际组织，都广泛用以讨论诸如“不平等的驼峰”等问题，从来没有人指责鲍克特、阿卢瓦利亚等人只用“一种方法”给出吉尼系数是“错误的”。我国近来从引进的通行教科书［16］到“学院派”学者的专著［17］，也广泛地以一项或两项数据进行吉尼系数分析，张先生为什么也“居然没有发现这里的错误”呢？

其实严格说来，按人、按户或“按人均收入但以家庭为单位”都只是个统计对象问题，根本与吉尼系数的“计算方法”无关。把统计对象问题与“计算方法”混为一谈，倒真是个“没有入门”者的“错误”。谈到吉尼系数的计算方法，那倒的确是一门学问。陈宗胜先生的《经济发展中的收入分配》一书专设“吉尼系数的计算方法”章节，他列举了四种方法：万分法、等分法、曲线回归法和差值法。其实还不止这四种，笔者为讨论洛伦兹曲线形状与分化性质的关系时，便提出过以牛顿插值公式来拟合曲线的方法。［18］至于统计对象设定，那完全是根据研究的具体需要而来的，谁能规定必须而且只能有“三种”？与离散系数乃至像百分率这样的指标一样，吉尼系数本身只是个统计学或数学概念，其定义是在由分配者和分配对象两个累积百分率构成的坐标系中，洛伦兹曲线与完全平均线之间面积的两倍（或曰此面积与洛伦兹三角形面积之比）。所谓计算方法即计算此面积的方法，如陈宗胜先生所言，它不止“三种”，但也不会很多。而就基本原理来讲则只有两种：或者由洛伦兹曲线上有限的点连接成不连续的折线以近似地代表该曲线，或者用一条连续的拟合曲线来代表它。在这方面，陈宗胜先生的一个说法值得商榷，他说“在使用同样资料的情况下，上述几种方法的测算值完全相同”。这是不对的，因为固然如陈先生所说，这几种方法中吉尼系数定义的“理论基础是相同的”，但用折线还是用拟合曲线来代表洛伦兹曲线，其近似程度是不同的。尤其在分组很少的情况下差异很明显，如只分两组时就会发生图A所示的差异。当然分组一多，差异就会缩小乃至可以忽略了（如图B）。显然在一般情况下，用拟合曲线算出的吉尼系数要比用折线算出的更接近实际情况（但计算也更繁复）。因为折线法实际上是假设同一组内的分配完全平均，这一般不可能。

至于统计对象，则完全属于研究者自定义的事。在吉尼系数分析中，分配对象可以是收入，是所有财富或资本，也可以是消费额、储蓄等等。分配者也可以按人、按户、按社区或按地区。在农业经济学中为讨论土地生产率不均衡和增产潜力问题，还通行以产量为分配对象而以土地为分配者（按亩、按公顷等）的统计。如此等等。因此吉尼系数的统计对象原则上没有限制，规定它只能有“三种”而不能是两种或四种，其荒谬有如规定百分率只能用来表示工业增长率而不能表示农业增长率、规定3头牛加4头牛等于7头牛是对的，而3匹马加4匹马等于7匹马就是错的一样。统计对象设定是否合适，只能依研究目的而定，在比较研究的场合尤其要注意统计口径一致。在研究社会阶层分化时，重要的是穷人与富人、贫户与富户之别，所以按人、按户统计是通常的做法，又由于研究的目的是与其他国家作比较，而其他国家资料往往也只有一两项吉尼系数值（如上述鲍克特、阿卢瓦利亚的资料），为什么中国就一定要有“三种”？

李强与李实数据的另一不同，在于前者按人计的分化程度小于按户计的，而后者则相反，按户计的吉尼系数小于按人计的。张先生根据李实的抽样断定富人家庭规模小于穷人，因此按户计的吉尼系数必定小于按人计的。的确从逻辑上讲，如果富人家庭规模小于穷人这个前提成立，那么李实的抽样可能就更具代表性，而李强的抽样代表性就差些。但即便如此也不能断定李强的“数据是错误的”，因为抽样具有随机性，张先生凭什么断定李强的样本不会出现富人家庭规模更大的情况呢？

进而言之，富人家庭较小这一前提能否成立，还大可怀疑。笔者手头的全国人口普查资料［19］表明，全国城乡总计平均每户人数为4.03人。而李实先生的样本户中规模最大的一组（“最低收入户”）仅3.72人，最小的一组（“最高收入户”）只有2.81人。亦即这些样本中最大的户规模还明显小于全国户的平均规模，而样本户的平均规模（3.27人左右）甚至明显小于全国城市户的平均规模（3.75人），而与全国家庭规模最小的北京市区（3.22人）、上海市区（3.24人）差不多。因此人们有理由怀疑李实先生的样本分布有偏差，其代表性不能评价过高。而张先生如果要把这样的抽样结果归纳为富裕程度与家庭规模之间的函数关系，并以此作为定理去检验其他抽样调查的“错误”，他就又掉进了一个逻辑陷阱：如果“每户平均人口数随收入提高而减少”真是定理，则李实样本中的“最低收入户”就会比全国平均水平还要富裕许多，这样算出来的吉尼系数能具有代表性吗？而如果肯定这样的吉尼系数有代表性，亦即上述“最低收入户”的确代表了低于国人平均收入水平的穷人，同时其户均人口也明显低于全国平均值，那张先生所讲的那种收入与家庭规模之间的函数关系就肯定不能成立，他以此为理由否定李强数据当然也就毫无道理。

贫富与家庭规模之间的相关性是个复杂的问题。根据笔者的研究，传统农业社会中这种相关与张先生所说的恰好相反，是富人多大家庭而穷人多小家庭，因此贫富分化的吉尼系数也是按人计的小于按户计的。以往在经济史研究中，我曾根据大量经验数据给出两者间的大致换算系数，即在“关中模式”类型的传统农村，对同样的分析对象而言，以百分比计，按人分配的吉尼系数一般为按户分配的吉尼系数的60%—70%；以绝对值计，在中等分化（吉尼系数≤0.5）以下区间，按人分配的吉尼系数一般比按户分配的吉尼系数小0.13—0.16。［20］我之所以要设定换算系数，是因为在历史数据不足的条件下有时要以按人分配数值和按户分配数值作比较，但我清楚这一换算系数的经验性质，不会把它当成定理并将不合乎这一“定理”的数据（如李实的这组数据）判定为“错误”。

今日家庭规模与贫富之间的关系更为复杂，据我有限的了解，发达国家各阶层均流行小家庭，即收入水平与家庭规模相关性极弱（这也是西方经济学家往往并不很在意按人计与按户计两种吉尼系数之区别的原因）。在中国则一方面就地区差异而言，的确有发达地区或富裕地区多小家庭、不发达地区家庭平均规模较大的现象，另一方面就同一地区的社会分层而言，却未必是收入多者家庭更小。由于占我国人口80%的广大农村中，前述家庭规模与贫富的传统关系仍然不同程度地存在，由于计划生育政策的影响，由于我国不发达地区往往也是贫富更悬殊的地区，那种“传统型相关”即富者家庭较大的现象出现在样本中，并导致按户分配的吉尼系数相对更大，是不足为怪的。

总之无论从哪方面讲，张先生对李强数据的否定都显得武断和无理，尤其是因对何清涟有怨气而贬低为何所引用者，乃至贬低被引用者所属的整个“社会学家”群体，就更为失当了。另一方面，何清涟批评李实先生的数据不考虑灰色收入，掩盖了分化的严重性，这个批评是有道理的。但何书所引的李强数据同样也未计入灰色收入（我就此问过李强先生），而且如上所述，实际上李强与李实作为社会学家与经济学家分别搞的这两项研究，结果相差无几，其中一项吉尼系数（李强的按户值和李实的按人值，均为0.445）完全相同。我认为这两项研究都是有价值的，即它们固然不能当作当时（两项研究调查时都是1994年）我国社会分化的实际水平，但可以作为一个下限来考虑。即实际的分化只会比这更严重，不会比这更轻。仅就这一下限来看，它不仅确如何书所说，“已经超过了西方国家通常的吉尼系数值”，而且超过了我国的台湾省（1972年为0.2955，1979年降为0.2806）［21］。在最具有可比性的前计划经济国家即所谓转型期国家中，这个下限也不仅超过了波兰（“休克”最严重的1992年为0.25［22］）、捷克（1994年为0.25，另一说为0.26；1996年为0.26，另一说为0.27［23］）等搞得比较好的国家，而且超过了如今常常被当作失败典型的、以寡头暴发和大众贫困化而名声不好的俄罗斯：以吉尼系数而言，按俄罗斯政府国家统计委员会的数据，1994年为0.409，1995年降为0.381；民间大多数专家学者估计得更严重些，为0.400—0.405不等。［24］由于那里同样有灰色收入问题，可以相信这几个数字也只是下限。但下限与下限相比，我们的情况也显得更为严峻。实际上，如今人们常常谈到的一些储蓄、消费等方面的两极化现象，诸如2%的存户拥有全国储蓄额的近一半，20%的存户拥有全国储蓄额的80%，我国近80%居民所在的农村市场商品零售额明显小于20%居民所在的城市市场，如此等等，都反映了当前社会贫富分化的严峻现实。这恐怕不是“情绪化的渲染”等几句轻飘飘的指责所能抹杀的。

当然，重要的不是指出分化的严峻，而是揭示形成这种分化的机制。那种把它归咎于市场化、全球化的论点是不能成立的。事实上改革前的中国就是个无阶级却有等级、而且等级森严到近乎种姓制的国家，等级内的所谓平均从来就与等级之间的悬殊并存。1978年我国以货币计量的收入分配吉尼系数，在城市内部只有0.164，在农村内部也只有0.227，但若计入城乡差别，则全国的吉尼系数却达0.331，已经不比发达市场经济国家低多少。［25］无论改革前还是改革后，中国的不公正都不是由于自由太多，而是由于自由太少。笔者既不崇拜乌托邦也不崇拜市场，但平心而论，改革前中国之祸不在于乌托邦而在于滥用强制，改革后中国之祸亦不在于市场而仍在于滥用强制。区别只在于过去是化私为公的强制，如今是化公为私的强制罢了。

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。

六 关于吉尼系数与社会分化问题

六关于吉尼系数与社会分化问题