2016年3月25日星期五

被掩盖的数学真相7

7、记忆量与思维速度的平衡
在上一节中,我们讨论了用意思来组词需要消耗更多的字母。但用意思来组词可以大大的减少我们记忆的时间、精力,而效果却是一样的甚至更好,更清晰。古代,当词汇量很小的时候,这问题不明显。但是,到了二十一世纪,当英语单词突破一百万的时候,则不容忽视。因为,人类的记忆能力永远都是一样的,无限增加单词的结果只能是记住了这个,忘掉了哪个。只有用意思来组合单词(复合词)才能破解这个难题。这就是三千汉字可以组合成比一百万英语单词还多的词汇的根本原因。它的理论根据就是词典。
当我们查英语词典的时候,我们看到:
Meat的英文解释是:the flesh of animals as used for food.
Pork的英文解释是:the flesh of hogs used as food. 
Beef的英文解释是:the flesh of a cow, steer, or bull raised and killed for it meat.
Mutton的英文解释是:the flesh of sheep, especially full-grown or more mature sheep, used as food.
而汉语根本不需要这些解释,单词就是解释,解释就是单词,比如猪肉、牛肉、羊肉、肌肉等等。这样,3000×3000=九百万单词。这仅仅是二字词的结果,如果考虑到三字词,四字词那就更是天文数字了。所以,当世界知识总量无限增加的时候,最后胜出的一定是汉语,根本的原因是两方面的,第一,四声将汉语的发音种类比其他语言增加了四倍,而同音字大大的提高了各种声音的利用率。第二,大量的书写符号使得书写时不必考虑字母组合过长导致发音个数增加的问题。
为了解释方便,我们称由一组意思直接与符号(单词或字)连接的为定义符号(英语的alto),如果由两个以上的定义符号来组成的词或字称为组义符号(汉语的女低音)。中国古代也曾经有过一个定义符号大量出现的时代 http://old.chinahorse.org/html/2120.html的毛色篇就例举了大量的,定义各种毛色的马匹的字。但是,后来发现,由于汉字发音种类多,发音简短,字符也足够,因此,使用组义符号更加方便。它消耗的记忆精力更少,却掌握更多的词汇。因此,到了现代,这类字已经不多见了。相反,拼音世界的发音种类不够,又没有办法采用同音词,因此,不得不选择大量的定义符号。这就造成需要记忆的内容的增加。从这个现象中,我们看出,记忆量与表达或思维速度是一个动态平衡的关系。比如,上面我们提到过有一种AB语言,如果世界上有401种不同的事物需要表达或命名,那么,为了表达这最后一种事物,英语最愿意使用的是组义符号,因为这样可以减少记忆所花费的精力。在发音上不过是发音两次而已。但是,作为AB语言的使用者来说,他们宁愿使用定义符号,因为使用组义符号后,发音就变成2×9=18次了,而使用定义符号,其发音不过是9+1次。由于选择符号种类(定义或组义)的不同,所以,两种语言(英语与AB语)在发音个数与时间上的差距会比数学计算值小。从这里,我们能够看出,一种语言拥有更多的发音种类将倾向于发展组义符号,相反一种语言拥有更少的发音种类将倾向于发展定义符号。这就使我们得到人类语言的定律:

人类语言的变化是由一个在方便记忆与方便使用之间保持的动态平衡来决定的。简短的定义符号在使用的时候非常方便。而它们在记忆的时候比较困难。反之,组义符号在记忆的时候非常方便,而在使用的时候,由于发音的个数多,所以比较繁琐。但是,当一种语言中,所承认的声音种类个数突然增加的时候,这个平衡将被打破,而人们从方便记忆与方便使用两方面都能得到益处。

被掩盖的数学真相6

6、各种信号的利用率
以上,我们讨论了书写与发音信号的数量所引起的变化。或者说,一种语言中,各种信号(符号)的单体越多越好。但是,如果当你已经得到大量的信号,而其中很大一部分未被使用,那么,你依然得不到最好的语言。
比如,汉语普通话有21个声母,35个韵母和4声。按照计算应该有21×35×4=2,940种不同的声音信号,即使考虑到某些声音无法区别,那么,我们依然能够得到大约2,500种不同的声音。但是,实际被利用的声音仅有1,300 种,利用率仅1,300/2,500=0.52=52%.
现在,我们再看看英语书写字母的利用情况。目前,英语单词的数量已经突破一百万。而这一百万单词都是由26个字母组成。用26个字母组词,每个单词平均需要多少个字母呢?
26×26=676
26×26×26=17,576
26×26×26×26=456,976
26×26×26×26×26=11,881,376
这就是说,每个单词只需要四个字母就能组成这一百万个单词所需要的符号。但是,实际上有很多的概率没有被利用。从:
上看到,由两个字母组成的单词仅有105个,105/26×26=105/676=0.15532, 利用率仅仅 15%
由三个字母组成的单词1015个, 1015/26×26×26=1015/17,576=0.05775, 利用率仅 5.7%
由四个字母组成的单词4030个,4030/26×26×26×26=4030/456,976=0.00881884, 利用率仅 0.8%

为什么会是这样?因为,第一,当人们用26个字母创造一个单词的时候,一定要注意发音的需要,也就是不能出现过多的连续辅音或连续元音。否则会造成发音困难。第二,任何用意思组词的企图(比如复合词,派生词等)都是以多于一个字母的字母组合为代价完成的(因为26个字母数量太少,无法与固定的意思联系)。例如,在单词return中,re是前缀,它含有再次回转的意思。只要这个组合re与一个实际的意思相连接,它就成为固定的符号而不能被看作两个字母。这就是说,当我们以turn这个单词为词根,创造一个新单词的时候,按照数学排列的逻辑,增加一个字母就够了,比如xturn,它只需要区别于其他单词就可以了。但是,当我们用两个意思拼凑在一起组合成派生词的时候,就必须增加两个字母如return。因此,拼音文字单词的实际尺寸要比数学计算值长。在讨论AB语言的时候,我们也许发现了,发音速度跟不上表达和思维速度是一件非常难受的事情。因而过长的单词迫使人们希望将发音变短。

被掩盖的数学真相5

5、发音种类的数量导致语言变化
如果你到谷歌网站搜索How many words are there in English? 它会告诉你超过一百万如果你再问一句How many words enter English every year? 回答是大约四千。但是,人类(英国人)一生记忆的单词,从英语诞生的时代到现在一直是两万左右。也就是说,英国人一生记不住,接触不到的单词正在无限的增加。用数学表达是,20000/NN趋近无限大的时候,整个数值等于零。对于一种语言来说,当你掌握的基本单词量趋近于零的时候,那么,无论你使用什么语法,什么结构都无济于事。
摆脱这种困境的方法来自词典的启发。词典告诉我们,任何一个单词都能够被另外一组单词所替代。比如,英语的‘alto’ 在词典上的解释是 lowest female voice. 那么‘lowest’, ‘female’ ‘voice’这几个单词就能替代‘alto’这个单词。如果英语中的字母和汉语中的汉字一样多,允许我们使a=lowest, l=female 以及 t=voice而不造成混淆。这样一来,‘alt’ 就能取代alto,任何人看到它,不必查词典,依然知道它的意思。也就是说, ‘alt’本身就是词典上的解释,因此,词典就没有必要存在。就好象汉语中的女低音说白了就是,如果每个单词表达的时间和空间非常的短,那么,把几个单词放在一起就能组成无需记忆的新单词。汉语的单词其实就是这样组成的,英语的复合词或短语也是这样组成的。
原因就这么简单,只要足够短,就能成功,目前,上千万种化学物质的命名法,生物学名词等,基本上还是使用复合词。如果我们能将所有的复合词在发音时间上减少一半,那么,不但全人类在使用这些名词的时候可以节省大量的时间、精力,而且,从心理学上讲,有利于记忆。只有汉字能够做到这一点。

对于汉字的组词功能,中国人应该不陌生。用数学来描绘就有,1000个汉字可以两两的组成二字词1,000×1,000 =一百万个。如果每次取出三个汉字组成词,那么有1,000×1,000×1,000  =十亿个等等。

被掩盖的数学真相4

4、语言学中的坐标
4-1‘义’的坐标
坐标是将数学与几何联系到一起的有效工具。索绪尔却直接越过寻找运算单位的步骤,用坐标的概念研究语言。根据:《百度:费尔迪南··索绪尔》词条,索绪尔指出,语言中的关系有句段关系联想关系两类。句段关系指语言的横向组合。联想关系由心理的联想而产生,指语词的纵向聚合。索绪尔揭示的两类关系,代表纵横两条轴线,成为每个语言单位在系统中的坐标。”最终还是因为没有可计算的单位,只能停留在定性分析的阶段。
本文选择的坐标与索绪尔选择的不一样,本文是先找到基本单位再建立坐标,由这些坐标说明的数量变化关系。
4-2符号的坐标
对于形的解释,非常直观;拼音文字是一维书写符号,而象形文字是二维书写符号。将英语的单词与汉字对比就会发现英语单词是在一条直线上,从左向右不断增加字母来完成的。字母在组成单词时,绝对不会向上、下发展。但汉字的基本单位笔画却可以以前一笔为原点,任意发展。注意一下字在唱、哭、器、嚣、兽、品、如、捐和回中的位置就能看出,它可以被安排在其他符号的上下左右任何位置,而且任意大小。这就是二维符号系统。在计算它们所组成的符号的数量时,二维书写系统能以更小的空间,组成更多的符号。它的原理就是现代二维码和一维条码的差别。因此,在翻译的时候人们往往发现,英语小说译成汉语后,篇幅变小了。
4-3声音的坐标
考古发现,整个拼音文字的鼻祖是古代非尼基人发明的字母。当时发明的字母仅有22个,并且全是辅音。古希腊人发现了元音的存在。这一发现,使原有的可以相互区别的声音个数增加了好几倍。对于非尼基人来说mamemomai是一个相同的声音,但是,对古希腊人来说。它们是四个不同的声音。如果22个辅音都进行这样的处理,那么古希腊人可以相互区别的声音,立刻就达到了88个。因为辅音和元音是相乘的关系(不同的坐标轴),因此,我们说,古希腊的发音系统是二维发音系统,而非尼基的发音系统是一维的。

汉语则是三维发音系统,它的声母、韵母和声调分别代表了坐标的三个轴,而且其关系也是各个坐标的数量相乘。

被掩盖的数学真相3

               3、如何利用发音的标准单位进行计算?
全人类的发音器官是一样的,人类发出的声音只有两大类,一类含有辅音,另一类,不含辅音。但无论如何,所有能被听到的声音都必须带有元音和声调。
任何人,发出任何一个可以被听到的声音都需要时间。发出和听到一个可见音的时间也基本相等。正是由于这个原故,声音种类多的语言在记忆和思维两个方面就与声音种类少的语言产生了差异。
假如有一种语言,它只有两种声音AB,我们称它为AB语言。它工作起来就像是摩斯码一样。它的特点就是在效率上远远低于所有的自然语言。英语承认400种不同的声音(国际音标中,英语大约有20个辅音和20个元音,两者相乘,大约400)。假设世界上仅有400种不同的事物需要命名,那么,英语就可以用任何一个声音来命名400种事物之一。而AB语言的使用者却不得不用9个声音来命名400种事物之一。因为2×2×2×2×2×2×2×2×2>400。相应的AB语言用类似ABBAAABAB来表达一种事物。由于每一个声音都消耗相同的时间,那也就是说,一辈子活下来,AB语言所能享受到的信息,仅仅是英语使用者的九分之一。或者说AB语言的使用者需要有九条命才能享受到英语使用者一生享受到的信息量。
此外,人类的思维是一种心里说的过程,因此,AB语言的思维速度一定大大的低于英语使用者的思维速度。具体低了多少还需要进一步的研究,但是,从定性分析的角度我们可以肯定它是低了很多。

人类的记忆与电脑不同,电脑可以一次输入便完成记忆。但是,人类的记忆,尤其是长期记忆是一种反复输入的过程。试想,如果每一次输入,AB语言都比英语消耗了9倍的时间,那么,AB语言所能记住的内容也应该是英语的九分之一才对。所有的这些都告诉我们,声音种类多的语言,在思维速度与记忆数量上都占有更多的优势。

被掩盖的数学真相2

2、根本不存在的辅音
国际音标中定义的辅音是和元音严格区别开来的声音。但是以R.E.Asher为总编的《语言学百科全书》The Encyclopaedia of Language and Linguistics 4187页上写道,无论如何(将其录音后,切割),辅音d都与其后的元音同时存在。从此可知,国际音标定义的辅音根本就不能单独存在。它所定义的辅音实际上是读得轻一点的辅、元结合体(声母)而已。它定义的辅音后面一般跟有一个极短的的元音。国际音标中的辅音都可与a, e, i, o, u中任何一个结合并读得很短。难道这些读得短的音都是不同的辅音吗?Voiceless consonant被中文翻译成清辅音的有p, t, k, f, voiced consonant浊辅音有b, d, g, v。规定是清辅音声带不震动,浊辅音震动。可是实际上,发清辅音时,声带振动也能发得出来,发浊辅音的时候,声带不震动,也能发得出来。只不过是音量大小而已。为什么要有这个规定?

古代的中国早就发现了这个问题;也就是:辅音实际上是一种无法被听到的口型,而不是声音。因此,古代中国的注音方法是切音也就是用一个元音(韵母)来切换出另一个字的元音。直到今天的汉语拼音,依然是用一个元音(韵母)来切换声母中的元音。根据这个结果可以推测出来字母与发音之间在几千年的时间里发生了怎样的变化。首先,非尼基人发明了带有元音的辅音,也就是类似汉语目前的声母。后来,古希腊人发现(察觉到)了元音的存在,并为它们创立了字母。这就出现了一个问题,如何将原有的辅音字母与新发现的元音字母排列在一起?最能被接受的假设就是将元音字母插进原有的辅音字母之间。这样一来,为了区别跟有元音字母的辅音与不跟有元音字母的辅音,就将后者读得轻一些。由此可知,这些读得轻的辅音最初应该有与现代的一个辅、元音节(声母)一样的时间。而如今,它们只不过是退化的声母而已。但是,由于在发音的时候,它们依然占用了一定的时间,这就使得拼音文字中每个音节的发音无法在时间上统一。

被掩盖的数学真相

摘要
从古希腊开始,人类一直希望用数学表达、研究语言。但是,一直找不到合理的语言单位,因此,这个方法只能停留在想象阶段。而从感觉上说,语言中的确应该有某种规律存在,它吸引着无数的学者如醉如痴地追求。既然找不到共性,只能一头扎进了专注于诸如单词意思、语法、句法、发音方法等微观结构的特性。本文正是找到了新的语言学单位(共性)才有条件用数学来解释诸多语言现象。

                  The Hidden Mathematic Truth
                           Abstract
From ancient Greekpeople were looking for mathematic expression of linguistics. But they could not overcome a bottle neck of finding an effective unit, so this idea kept to be a good expectation. This mystery attracted millions scholar’s interest but nearly all of them were trapped by the superficies such as meaning, syntax, morphology or phonology. As this paper find a new unit of language it could have the chance to explain linguistics by mathematics.
        
                       
                          1、寻找单位

从公元前三世纪开始,人类就一直希望用数学来解释语言现象。在R.H.Robins所著的A Short History of Linguistics ‘语言学简史’1997年第四版,第29页上有这样一段话,古希腊的语音学和音位学是严格区分开来的。它们是建立在说与写的基本单位composite unit之上的。我们可以把它理解为带有语音学意义的字母。
尝试对于发音的规范,产生了音节这个单位。”
这里最重要的就是composite unit它是将具有差异的事物放在一起考虑的单位,举例来说,一个苹果和一个梨是无法计算的,除非统一它们的单位,比如水果。音节的定义多少与希腊人想炫耀自己是元音的发现者有关。自从毕达哥拉斯(约前572——约前500提出万物皆数的概念后,古希腊人就对数学崇拜到了迷信的程度。
从此可以推断,古希腊人建立的语言学单位,实际上是要为了进行计算做准备的。而发音是音、义、形三者当中,最可能的突破口。但是,后世以发音的各种特殊性为借口,逐步地蚕食了古希腊人的最初想法,成为今天这种根本无法计算的语音学和音位学。
到了十七世纪,人们从发音上找到标准单位的希望越来越渺茫。于是,就有人(笛卡尔)提出从意思上找到基本单位。在Historical Dictionary of Descartes and Cartesian Philosophy 第二版第204页上这样写道
如能把意思语法看作是类似于数字运算我们就能创造一种宇宙语言。(此前,亚里士多德曾经设想过一种组义语言’semantics或者ontology

紧接着,莱布尼兹也探讨用数学计算意思:https://en.wikipedia.org/wiki/Characteristica_universalis
上这样写到:1676年五月,他(莱布尼兹)再次梦想到一种宇宙语言,那是一种运算,一种思维的代数。
这里要补充的是,他的想法是受到汉字的启发。笛卡尔和莱布尼兹都希望先把意思的变化规律搞清楚,然后再用这个变化规律反过来寻找基本单位。在数学计算中经常采用这种方法。比如,测量的时候,就是根据标枪落地的距离,所用的时间,以及标枪的重量测算出它离开手的时候所受到的力。
此后就是二十世纪,香农Claude Elwood Shannon (1916–2001)的信息论。他设想的基本单位是字母。他希望通过一些计算来反证每一个字母所包含的信息量。这个理论本来是为电脑服务的。后来希望移植到语言学,但最终证明,它在语言学上没有任何意义。
至此,语言中的三个元素,音、义、形都尝试过了。从上面的讨论可以看出,无法用数学来研究语言的根本原因就是找不到可以计算的基本单位。古今所有的科学都一样,只要找到了可以计算的单位,那么,其他问题都会迎刃而解。但是,上面所说的种种尝试都是拼音文字的尝试,汉语普通话不包括在其内。普通话是世界语言大家庭中的一个特例。它的特殊性就在于它的发音中没有塞音和单独的辅音。这就意味着每一个字的发音时间基本一致。比如,在英语中,a, be, bedleft, sprint等都被称作是一个音节。它们的共同点就是每个音节中都含有一个元音。如果使用音节来计算,那无异于计算一段文字中的元音个数。反过来说,由于汉语普通话的每个字在理论上讲,发音时间是相同的(等于计算韵母的个数),那么计算汉字的个数就等于计算了一篇文章口述的时间。而时间是一切生命的度量,是各种效率的比较,也是理解表达及思维速度的必要条件。
根据以上种种,语言学的基本单位只能是汉语普通话中的字。我们可以说,读一篇英语文章相当于用普通话读多少汉字的时间。而不能说,读一篇汉字,相当于读多少英语音节的时间。
为什么人人都想用数学来研究语言?因为数学也是一种表达方法,一种简单、明瞭的语言。某些事物的特性必须由数学来反映。比如,描写物体在空中飞行时的轨迹、速度、加速度、受力方向等,只有数学才能完美的表达。                          

2016年3月1日星期二

How to Calculate Thinking Speed?

Recently, more and more people are worried about the artificial intelligent will overtake the human’s wisdom. All topic will focus on one issue, how to match the speed of these two operation. For computer, we know how to calculate its speed, but for human’s mind no one has ever thought about it. Now let me show you my method. It may need some revise and supplementary I hope you may help me. I hope it will lead to a deeper discussion, not just some emotional words.
Suppose there is a spoken language, it just have two sounds (phones not syllables we may regard syllable as combination of sounds) A and B, we know, it can express this world as well as any language (similar the 0, 1 language). Yet, its expressing speed is too slow. For instance Tom uses this AB language, Jack uses a natural language with 400 sounds, supposing there are only 400 things that required to be named, then sometimes, Tom has to use 9 sounds (as ABBABBAAB) to express one thing, while Jack use 1 sound to express the same thing.
Since each sounds cost the same time, then the difference is during the whole life, Tom can only enjoy 1/9 of Jack’s information (including speaking and hearing). Or we may say that the AB language user has to have nine lives to get the information that a natural language user got in one life.
Yet in the world, the quantity of sounds in every language is different. So just counting the number of sounds in each language, we will found the different efficiency of them. In other word, languages in the world is not equal.
Since the thinking speed is a sort of ‘speaking in mind’, so the speed of speaking reflects the speed of thinking, we may roughly calculate the thinking speed in this way, of course a parameter may be introduced. 
This idea tells us that the development of any language is in fact finding more distinguishable sounds. Since all language towards this target, we may united them into one language by good guide, in future.
We always worried about the fast developing speed of computer, yet no body care about the speed of human’s mind is developing too.
Exponential function tells us in computer the base number is settled as 2 (0, 1), so we can only increase the exponent number per second to accelerate its speed. For human being, every second we can only send 5 to 6 audible sounds, so the exponent number is settled, the only way to accelerate our communication speed is increase the base number that is the species of sound. In computer, every operation means choosing 1 from 2, but in a human language with 400 sounds, every operation is choosing 1 from 400. Comparing the in used sounds for various language we may get some imagination.
The ancient Phoenician using 22 sounds, the Japanese using around 100 sounds, the English using around 400 sounds and Chinese Mandarin using 1186 sounds.
When, I list this, many people will ask two questions: 1st, how can the Mandarin has so many sounds? The answer is easy, for it is a tone language, just think about when you sing a song, you can utter every syllable according eight or sixteen different music notes that is tone. It also makes phonetic difference in speech. The 2nd question, is that the Chinese Mandarin has a faster thinking speed than English? That is not true. Unlike computer, in human’s mind, thinking speed and memory is a dynamic balance. High speed language can consume some speed to get larger quantity of memory but low speed language can’t. The Chinese language has consumed its speed for memory. So, today English using one million words to express the world yet the Chinese people using three thousand characters to express the same world.
How the expressing speed transformed into memory? To answer this question we have to explain what is sound. Sound is not syllable, a sound makes only one peak in ‘voice memo’ of your mobile. While a syllable may cause more than one peak. Try the syllable ‘sprint’, it will show three peaks. For English speaker, every second uttering 5 sounds mean the expressing speed is 400 to the 5 power per second, it is quite a big figure. Since every language is in taking more species of sounds gradually, the thinking speed is increased too.  Normally, a sound is made by ether a consonant, a vowel and tone or a vowel and a tone. Any way, it has to have a vowel and a tone.
Now we explain how the expressing speed can transform into memory. The example is the word ‘alto’, in the dictionary we found the annotation is “lowest female voice”. Then why we don’t use this phrase to stand the meaning of ‘alto’ but to create a dictionary to explain it? The only reason is that the phrase cost too much sounds, lo-we-s-t-fe-ma-le-voi-ce, nine sounds while a-l-to cost three sounds; the gap is six sounds. If in a theatre someone using this meaning 100 times per day, it cost him 600 extra sounds. But in Chinese Mandarin, they did use the phrase stand this word, for each of the three words of “lowest female voice”, expressed by one sound as ‘nu gao yin’. In that way the expressing speed transform into memory. Or we may say, they don’t need to know a word as ‘alto’ but they can express and understand its meaning as well. It similar the computer transfer a subroutine.

When human cognize a word, they don’t like computer, that remember it immediately. People understand a word by meet it repeatedly and getting impression step by step. Between two times, many things may happen upon this person. That is to say, the second time meet the same word it will recall him a different feeling compare with the first time. This phenomenon caused the imagination and inspiration of human being. This process is unlike to happen in computer. And until now the computer didn’t have even one word like this in its mind.