Sunday, November 19, 2017

汉字是二维的吗?

汉字是二维的吗?

网上有人说,英文是一维的,汉字是二维的。这些人要么不解释为什么英文是一维,汉字是二维,要么解释的让你听不明白。反正至今我也没有发现哪位专业语言学人士这样说,也找不到有关的理论。在我看来,文字都是三维的,因为文字离不开它的载体,而世界上所有可以作为载体的东西都是三维的。从苏美尔的泥板,中国的甲骨文,石鼓文,钟鼎文,竹简,纸张,到现在计算机屏幕,无一例外。或许有人会认为写在纸上的文字是二维的。他们忘记了,纸再薄,也是有厚度的。二维平面是一个抽象的概念,世界上并不存在二维平面的东西。

汉字和英文字母都是字符 character。不论什么文字,在文章里,字符都是顺序排列的。有人把拼音文字的字符(字母)顺序排列,换个概念叫一维,于是拼音文字就变成一维文字了。其实中文里的字符(汉字)也是顺序排列的。如果英文是一维文字,中文也应该是。
有人把汉字看成一幅图画,图画是平面的,平面是二维的,于是他们就说汉字是二维文字。如果汉字是二维,拼音文字里的字母也应该是,它们只是笔画比汉字少一些而已。

说汉字是二维的人通常还会告诉你,电脑传递中文的信息量比英文大。理由是电脑里英文字母是1个字节 byte,汉字是2个字节。由于大多数英文单词超过3个字母(需要3个以上字节),所以汉字效率高,传递的信息量大。水平高的人还能算出汉字的“熵”值。
我不懂熵,也不会计算熵的值。但是我知道计算机储存的信息是用二进制数字表示的。我们在屏幕上看到的字符,不论是英文字母,还是汉字,计算机都是不认识的。要使计算机认识(显示)字符,就要让这些字符和二进制数字对应起来,这就是编码 Character encoding。
屏幕上显示的所有字符,叫字符集 Charset。第一个商业用途的字符集 ASCII(American Standard Code for Information Interchange)美国信息交换标准代码,只能显示英文使用的字母和符号,以及阿拉伯数字。没有中文字符集,计算机不能显示中文。

计算机是美国人发明的,当然先有英文字符集,键盘也是按照英文设计的。很快也有了其他拼音文字的字符集,唯独不见汉字的字符集。一个重要原因是键盘只有一百多个按键,对于其他拼音文字的字符,略微调整一下就能解决。中文一万个汉字,不可能造一万个按键的大键盘。
最后的解决方法:不是按一次键输入一个字符(汉字),而是按几次键输入一个汉字。这种情况有点类似一百年前的电报,莫尔斯电码 Morse code 使用点 dot 和划 dash 的不同排列组合来表示字母,阿拉伯数字,和标点符号。英文电报里这三种字符加起来不到60个。中文电报就用4个阿拉伯数字(字符)代表一个汉字,也就是二次编码。虽然多了一道手续,但是可以发中文电报了。我们不能因为发一个最难的汉字只使用四个阿拉伯数字(字符),而一个超过5个字母的单词就要使用5个字符,就认为中文比英文效率高。
顺便说一下,ASCII 字符集就是根据电报码的原理开发的。ASCII was developed from telegraph code. 当然,计算机把翻译ASCII码的过程自动化了。

汉字是二维的吗?不论是与不是,都是无稽之谈。说汉字是二维的人,目的是为了鼓吹汉字优越。英文用几十个字符,中文需要成千上万的字符,明摆着效率低下,有些人就是看不见,因为狭隘的民族主义思想遮住了他们的双眼。

Friday, November 17, 2017

因果关系和充要条件

因果关系和充要条件

因果关系是人类观察到世界上两个事件之间的一种关系。世界上的事情都能扯上关系,不过关系有的密切,有的疏远。如果一个事件发生,会导致另外一个事件发生,这种关系就是因果关系。我们把发生在前的事件叫原因,发生在后的事件叫结果,简称前因后果。例如,因为下雨了,所以地面是湿的。这是简单的因果关系。

充要条件是充分条件和必要条件的简称。这两个概念来自英文 sufficient condition 和 necessary condition。学过几何的人都应该知道充要条件。
例如,一个平面图形,如果四个角是直角,四条边相等,这个图形一定是一个正方形。
四个角是直角,和四条边相等,就是一个正方形的充分条件。
我们也可以说,因为四个角是直角,四条边相等,所以这肯定是一个正方形。
从这里可以看出,充分条件就是因果关系的因。

这个充分条件由两个必要条件组成:1,四个角是直角。2,四条边相等。必要条件是必不可少的条件,缺了哪一个必要条件都不行。如果不是四个直角,肯定不是一个正方形;如果四条边不等,肯定也不是一个正方形。
我们也可以说,因为没有四个直角,所以这肯定不是一个正方形。
我们还可以说,因为四条边不等,所以这肯定也不是一个正方形。
从这里可以看出,必要条件也是因果关系的因。

但是我们要注意,必要条件的因,和充分条件的因,有区别:
1,充分条件的因,导致的结果通常是肯定的 positive。
2,必要条件的因,导致的结果往往是否定的 negative 。
必要条件是缺了它,就不行;充分条件是有了它,一定行。

我们还要注意,虽然我们用“因为所以”来表达因果关系,但是“因为所以”表达的关系不一定都是因果关系。
例如,有人因为天天吸烟,所以得了肺癌。吸烟和得肺癌之间有密切关系,毋庸置疑,但是吸烟的人不一定都会得肺癌。因此,吸烟和得肺癌之间的关系不是因果关系,而是相关关系。因为这两种关系,我们中文都可以用“因为所以”来表达,所以我们常常把这两种关系混为一谈。
相关关系包含因果关系,也可以说,因果关系是相关关系的特例。我们一定要牢记,有相关关系的两件事不一定是因果关系。因果关系,是就是,不是就不是。相关关系可以用数字来表示关系密切和疏远的程度。由于充要条件不谈相关关系,使用充要条件解释问题比用“因为所以”更简单明确一些。


下面我用充要条件和因果关系来分析文字和创造科学理论之间的关系。文字分两种,汉字和拼音文字。汉字因为基本单位数量太少,说不清楚复杂的问题,达不到创造科学理论的要求,所以,一个人只使用汉字肯定创造不出科学理论。使用达到要求的拼音文字,是创造科学理论的必要条件。不使用,就不行。它们是因果关系。
如果你不同意我的观点,你可以写文章论证我的理论错误,也可以找一个反证来让我自相矛盾。有些人不同意我的观点,他们既不论证我的错误,也不找反证,而是另外找一个原因,例如没有言论自由,来反驳我的观点。这个反驳在逻辑上是不成立的,道理很简单。“四个边不等,肯定不是正方形”不能证明“没有四个直角,肯定不是正方形”是错误的。
言论自由是不是创造科学理论的必要条件,它们是不是因果关系?原来我对这个问题不感兴趣,因为不论是不是都和我的观点无关。但是由于很多人都认为是,并且以此来否定我的观点,我不得不谈这个问题。

前苏联的体制和中国类似,但是苏联科学家切伦科夫 Cherenkov 弗兰克 Frank 塔姆 Tamm 因发现和解释切伦科夫辐射 Cherenkov effect 获得1958年诺贝尔物理学奖。苏联科学家兰道 Landau 因创造物质凝聚理论 for his pioneering theories for condensed matter 获1962年诺贝尔物理学奖。我还可以找出几位这种创造科学理论的苏联科学家,我不找了,因为反证只要有一个就足够了。从这些例子我得出结论:即使一个社会没有言论自由,也不会不影响这个社会里的人创造科学理论。所以,没有言论自由不是中国人创造不出科学理论的原因。
还有,据说台湾有言论自由,只使用中文的台湾人至今没有创造出一个科学理论。好像美国言论最自由,美国唐人街里只使用中文的华人也没有创造出一个科学理论。从这些例子我得出结论:即使有言论自由,不使用拼音文字的人仍然创造不出科学理论。也就是说,即使有言论自由,中国人仍然创造不出科学理论。

总而言之,言论自由不是创造科学理论的必要条件;没有言论自由和创造不出科学理论也不是因果关系。如果你真的希望中国人能创造科学理论,一定要明白,使用拼音文字是必要条件,言论自由不是。如果你是要求言论自由,That is a horse of another color,我们谈到不是一码事。



Monday, November 6, 2017

四声轻声和入声

四声轻声和入声

1,四声《现代汉语词典》的定义是:普通话的声调有阴平、阳平、上声、去声四类,也叫四声(轻声除外)。
这个解释,似是而非。我们说普通话按照四声吗?查《新华字典》氨 ān 铵 ǎn 胺 àn,三个 an 字,三种声调。我们说,氨基酸、銨肥、三聚氰胺,三个 an 字一个调。我们说话有声调,但不是四声。说话如果按照字典里的四声,那种怪腔怪调,不是正常人。
汉字对应汉语里的单音。一个人说话发出的单音数量是有限的。由于汉字数量远远超过单音的数量,于是中文出现大量同音字。四声有利于辨别单个的汉字。四声是古人总结出来的,目的是为了区别文言文里的同音字。
有的语言学家说四声是为了区别汉语的语义,那是瞎掰。目前普通话的单音有四百多个,加上四声,也只有一千多个单音。靠四声根本解决不了汉语语义的问题。全世界不论什么口语都是单音不够用了,就两个单音组合起来表意;两个单音不够用了,就用三个;三个不够就四个,以此类推。

2,轻声《现代汉语词典》的定义是:一个字读的又轻又短,大量出现在一个词的后一个字。
这个解释,基本正确。轻声不是谈一个字,一个字无法比较轻重。轻声是指一个词里的一个字,读的比其他字轻。和轻声对应的是重音,也叫重读。一般来说,轻声读的短而轻,重音读的长而重。
即使是同一个字,在不同的词里面,读音也不一样。例如:干净,干活;创造,创伤;扇子,扇风;假如,放假;缝纫,裂缝;把握,车把;几个,几乎;指甲,手指。轻声类似英文多音节单词音标里的重音 stress,只不过英文字典标注重音,中文字典标注轻声。白话文里有大量的词,轻声有利于辨别口语里的词。轻声是使用白话文以后总结出来的。读白话文,区分轻重音即可,四声没有用。

3,入声《现代汉语词典》的定义是:古汉语四声的第四声。普通话里没有入声,古入声字分别读成阴平(如“屋、出”)、阳平(如“国、直”)、上声(如“铁、北”)、去声(如“客、绿”)。有些方言有入声,入声字发音一般比较短促,有时还带有辅音韵尾。
这个解释是想当然。谁听过古汉语?入声相当于英文以辅音结尾的单词的读音。现在普通话里没有入声,原因是切音,也叫反切。反切就是用两个汉字给另外一个汉字注音。用前一个汉字的声母,后一个汉字的韵母,相拼。例如:东,德红切。就是用德的声母 d 拼红的韵母 ong,变成 dong。由于反切,汉字都是韵母结尾,没有入声。现在普通话的话音对应白话文的汉字,所以现在普通话就没有入声。
为什么有些方言有入声?这是因为中国过去有大量的文盲,这些人说话不受反切的影响,所以有入声。反切,大约从汉朝开始使用。也就是说,中国文人说话,汉朝就开始失去入声。白话文运动后,识字率提高,入声加速消亡。
我认为,中国将来使用汉语拼音,入声还会回来。因为汉语拼音可以写辅音结尾的单词。例如现在以轻声结尾的词,使用汉语拼音以后,轻声的韵母会被省略,直至最后消失。例如,我的 wode 会被省略成 wod,豆腐 doufu 会被省略为 douf,这就是入声。入声有利于辨别口语里的声音,而且这种做法符合最省力原则。

4,总而言之,四声的目的是区别同音字,读以字为主的文言文有用处。轻重音是为了区别多个声音的词,读以词为主的白话文效果好。四声,轻声是音标,应该标注在音标里,不需要标注在文字里。汉语拼音标注四声是画蛇添足。入声不是音标,入声是辅音结尾的单词。普通话入声消失的根源是反切。


家庭手语的启示

家庭手语的启示

家庭手语,这个概念来自英文 home sign,是指一对听力正常的夫妇,生下来一个聋哑儿童,他们之间产生的一个全新的手语,这个手语就叫家庭手语。这是一个全新的语言 language,因为他们三人的手语都是从零开始。语言的起源是语言学家感兴趣的问题。手语是语言的一个大类。家庭手语让语言学家看到了一个新语言的起源。研究家庭口语会给语言学家带来很多启示。

家庭手语内容简单,因为一家人,只有三个人的生活,语言的内容不可能丰富。如果这个家庭第二个孩子也是聋哑人,两个聋哑儿童之间的手语会有一定的发展。使用家庭手语的聋哑儿童长大后如果不融入聋哑人社会,他们的手语极其简单。当他们死亡时,这个手语就消失了。从这里我们可以看出,同样的条件下,一个语言使用的人越多,这个语言的内容越丰富。当使用这个语言的人死亡时,这种语言也就消失了。

口语和手语都是利用人的身体活动发出信号,我把它们叫做身体语言。身体语言的信号是动态的,这种信号发出后就消失的无影无踪。在录音机和录像机发明之前,语言学家很难研究身体语言。书面语(文字)的信号不一样。文字的信号根据使用的材料不同可以保存一定的时间,也就是说,文字的信号会留下痕迹。我们可以根据这些痕迹给文字分类,分类标准通常是字典和文法。语言学家给身体语言分类,只能按照人群来划分的。

如果这家人住的村庄,或者社区还有其他聋哑人,家庭手语将和其他手语会融合成一种手语。从这里我们可以看出,两种不同的语言,只要交流就会融合成为一种语言。例如小说《鲁滨逊漂流记》中的主人公鲁滨逊在孤岛上和土著人星期五,因为交流,有了共同的口语,这是两个人的口语。现实生活中,两个原来分隔的人群,如果交流也会产生新的口语。这种口语叫 pidgin 皮钦,也有人翻译为洋泾浜。
说不同口语的两个人群,因为贸易,战争,移民等原因生活在一起,变成一群人,他们的口语,最后迟早都会混合而成一种新的口语。当然这取决于我们如何划分口语的种类。例如我们一家人来到美国,第二代人的母语或许还是汉语,但是第二代人的第一语言 first language 一定是英语。这时候没有人会把英语看成一种新的口语。因为我们一家人的对美国的口语影响太小了,像汪洋大海里的一滴水,这种影响可以忽略不计。
如果移民的不是一家人,而是一群人,影响就会根据人口数量的增加而增加。如果移民是强势群体,影响会更大,例如殖民地的口语。殖民者的数量可能少于原住民,但是殖民者的社会地位高于原住民。一个群体的口语有人数上的优势,一个群体的口语有地位上的优势。这时候,两种口语混合而成的口语,就是 pidgin 口语。

当说 pidgin 口语的人有了第二代,第二代人的母语就是这种 pidgin 口语。这时候这种新的口语不再叫 pidgin,而叫克里奥尔 creole。现代社会,随着发展,使用克里奥尔口语的人还会创造克里奥尔语的文字,一种新的文字。
严格地说,除了亚马逊热带雨林里和外界没有接触的原始部落的口语,现代社会里,所有的口语都是克里奥尔语,只是外来口语的成分多少而已。人类口语的划分,没有可执行的标准,只能按照人群大概的划分,没有什么语言学意义。

使用家庭手语的聋哑儿童如果进入聋哑学校,他们会进一步地融入社会,因为聋哑学校的学生使用文字。文字和手语是类型完全不同的语言。文字是比手语更先进的语言。如果没有文字,手语只能交流简单的信息。文字的信息量远远大于手语。一个原因是身体语言里的知识好像计算机内存 ram 里的数据,使用后就消失。文字里的知识好像硬盘里的数据,可以长期保存,提高了人类的记忆力。因此,使用文字的人,他们使用的概念,数量远远超过文盲,他们认识世界的能力因此也高于文盲。还有一个原因是,使用一种文字的人,数量远远超过使用一种身体语言的人。
原因是使用不同手语的人可以使用同一种文字,美国聋哑人和英国聋哑人的手语不一样,他们都使用英文。使用不同口语的人也可以使用一种文字,例如北京人,广东人,上海人说不同的口语,他们都使用中文。

研究手语和文字的关系,可以让我们进一步看清口语和文字的关系。说文字和手语是不同的语言,不会有异议。说文字和口语是不同的语言,有些人想不通。这些人,还包括一些语言学家,他们认为口语和文字是同一种语言,文字是口语的书面形式。
其实,口语和文字根本没有关系,只是由于我们表达同一个意思,既可以用口语,也可以用文字,我们就把它们混为一谈了。我们不会认为手语和文字是一回事,是因为我们不使用手语。聋哑人的看法和我们不一样,因为他们表达同一个意思,既可以用文字,也可以用手语。实际上,这两种看法都是片面的。应该说,人类表达同样的意思,可以使用口语,手语,和文字三种不同的语言。
说中文和汉语是两种不同的语言,很容易理解。说英语和英文是两种不同的语言,老外比较难理解,因为老外的英语和英文都是 English。如果口语和文字是一种语言,那么就会得出,曾经使用汉字的中国人,日本人,韩国人,朝鲜人,越南人过去都说同一种口语的荒诞结果。口语和文字的关系,是因为我们同时使用它们,让它们有了联系。说文字是口语的书面形式,也可以说口语是文字的声音形式。实际上,口语,手语,文字是人类表达思想三种不同的形式。

通过研究家庭手语,我们可以看到语言创造,发展,融合,消亡的过程。语言是为了交流而创造,语言也是交流的结果。我们交流使用的信号就是语言,不同的信号决定了语言的效率。身体语言发出信号不需使用其他材料,最方便,缺点是单位数量少,信息量小。文字的信号可以保存,信息量大。文字的单位数量越多,这种文字越高级。