(beta 公測版本)
< 返回

《詞性就係聚類分析》

作者:擇言
日期:2016年7月21日

【詞性 ‧ Part of Speech】

查字典又好,學外語又好,經常會聽到一個字,叫 Part of Speech。中文通常譯做「詞性」。最常見嗰幾個,好似「名詞 (noun)」「形容詞 (adjective)」「動詞 (verb)」,我諗大家都會聽過--當然每個人聽返嚟嘅定義都唔同,而最後大家多數都係還返晒俾先生嘅。
 
 
我記得學校文法入面一開始有人會話「講物件、概念嘅字係名詞;講動作、變化、狀態嘅係動詞;描述事物嘅係形容詞」,然後大家就會發現「walk」明明係動作,理應係動詞,但係佢又可以係名詞。「靚仔」明明係一樣實物,理應係名詞,但係好多時又係形容詞。英文會易啲,因為大家可以記住「名詞前面可以加 a/an/the 或者可以轉複數」,可以記住「動詞有得轉tense」,可以記住「形容詞有得比較」。但係同一個概念去睇中文呢?好多人會投晒降,然後一句「中文博大精深,唔似得西方語法咁法國大餐」輕輕帶過。
 
有啲人會好好彩接觸到另一堆字,叫「主謂賓定狀補」。通常都係中文堂聽到嘅。話一句句子入面每個部份都有各自嘅功能,然後又要按句子入面嘅功能,分析句子嘅成份。好似「我最期待的畫面出現了」,要將句子拆做主、謂。「我最期待的畫面」係「主語」,「出現了」係「謂語」,「最期待的」係「定語」,同「畫面」結合,係「定中短語」,而「最」同「期待」就係「狀中短語」,如果你嘅先生係語法發燒友,你可能會聽到更加多你聽唔明嘅嘢。「名詞可以做主語賓語」、「動詞形容詞可以做謂語」、「形容詞又可以做定語」、「狀語好多時係副詞」……老老實實,我真係follow唔到。如果你中學嗰陣已經聽得明你先生講乜,你應該係萬中無一嘅神人。

【詞性其實係Cluster Analysis嘅結果】 【50 Likes 達成】
我試下用凡夫俗子 (read: 理科人) 嘅角度,講下乜嘢係詞性。
 
無論你係用中文定係英文去睇「詞性」呢個概念,都唔容易講得清楚每一個詞性嘅定義。呢個困難係因為,詞性並唔係「字義」本身嘅特性,而係對「分佈」嘅描述。無論你講嘅係動作、概念定描述,都有可能係名詞、動詞、形容詞。「分佈」呢個概念我可以用下面嘅句子示範
 
(1) 識得食,一定食粟米批
 
假設我要用另一個字去代替「粟米批」,又要確保句子通順,你可以用「火腩飯」「廣西燒味」「正太」「人妻」「西北風」「電視機」替代。唔理意思正唔正確,聽落都係一句可以理解嘅句子。但係如果你將上面呢堆字放落「食」字嘅位置,噉就唔只聽落有問題,而係會變到1999,完全睇唔明。
 
(1') 識得食,一定食西北風
(1'') * 識得西北風,一定西北風粟米批
 
我所以我哋發現「西北風」同「粟米批」喺呢句句子入面嘅分佈相對接近,而「西北風」同「食」,分佈就唔太一樣。用一個數學啲嘅方法去諗,如果你由細到大識得嘅字總數係n個。如果喺每一句你聽過嘅句句子入面,某一個字 a 可以俾另一個字 b 替換,咁 a 同 b 呢一個組合就有1分。用呢個方法你會得出一幅有方向嘅圖 (directed graph),佢應該有 n 個節點 (node),代表你所識嘅每一個字,同埋最多 n*n - n 咁多條邊。每條邊代表一組字之間有幾多分。例如「西北風」出現過100次而其中80個可以用「粟米批」代替,噉 (西北風, 粟米批) 呢個組合嗰條邊就係 0.8。計算咗每一組字嘅分佈之後,如果你做一次統計學嘅「集群分析 (Cluster analysis)」,將高分嘅字歸納做一組,你會發現我哋腦入面過十萬個詞語,可以分做幾大堆。而呢啲字嘅分組,同語法學家嘅觀察會分常吻合。「西北風」「粟米批」「電視機」「理想」「老本」呢啲字可以係一堆,而「食」「玩」「鬧」「攞」又係一堆。如果大家俾個名佢哋,正正就係「名詞」同「動詞」。
 
當然呢個計法只係一個示範,你可以當佢係一個「思想實驗」。因為每個人喺接受咗大量語言資料,去到可以表達自如嘅時候,語法,邊啲字可以換邊啲唔得,已經深深咁印喺我哋嘅腦入面。所以古代嘅語法學家,甚至現代嘅語言學家,都唔使計啲咩數,就可以輕易咁歸納到幾組分佈好唔同嘅詞類。
 
不過用互換性去理解「詞性」,會有一個問題。「可唔可以互換」又係一個相對嘅概念。一隻語言入面好少會有一對詞組,可以喺任何情況下任意互換。即使兩個詞嘅分佈好接近,我哋都可能會喺入面再拆開幾組,互換性有少少分別嘅詞。例如「食」同「瞓覺」同樣係動詞,互換性好高。但係只要一句句子牽涉兩個名詞組(例如,「我食咗兩碗大便味咖喱」),咁呢句句子九成九唔可以同「瞓覺」互換。前者有個名叫「及物動詞」,後者就叫「不及物動詞」。但係再細分落去,動詞呢個詞類,要分做兩組又得,十組又得。要分幾多個組別,完全係各師各說。去到最極端嘅諗法,有人認為「詞性」根本唔存在,任何一個字都有獨特嘅語法,而另一個極端係我哋只係得幾個基本嘅詞性,而互換性嘅分別係毎個字嘅特性,同詞性嘅分類無關。
 
咁去到實際應用,例如要整一本字典嘅時候,處理「詞性」究竟會遇到咩問題呢?
 
【如果要將你每一個識得嘅字,逐個俾個詞性佢,究竟會點?】 【100 Like unlock】
但係由於「詞性」呢個概念確實喺我哋嘅語法入面存在,如果要描述一個語言,我哋必定要搵辦法去表達呢一個模糊(fuzzy)又確實存在嘅分類。詞性 (喺任何語言入面) 都唔係工整嘅分類,我哋會遇到以下幾個問題:
 
(一) 無限子類
 
動詞最簡單可以分做「及物動詞 (transitive verbs)」同埋 「不及物動詞 (intransitive verbs)」。如果按照動詞喺句子嘅用法 (或者用我上面講,喺句子嘅分佈),其實可以再細分做好多類。
 
例如同樣係及物動詞,除咗施事者(agent)之外,「食」一定要有食咗嗰樣嘢喺句子入面,好似「食嘢」「食飯」「食煙」咁;但係「俾」就要有(A)俾咗邊個同(B)俾咗啲乜,兩個物件。於是大家又將一啲類似嘅動詞歸類做「授受動詞」。
 
又例如,有另一類動詞,好似「話」「想」「希望」呢啲,後面一定要加一句短句落去。例如「我想同陽光玩遊戲」「我話唔得就係唔得」,我哋又可以開一個類別出嚟。
 
一路開落去,大家會歸納到十幾類動詞出嚟。
 
(二) 詞性重疊
 
有好多字會同時擁有兩個組別嘅特點,例如好多語言入面「動詞」同「形容詞」係兩個類別,有唔同嘅形態變化。但係有時形容詞同時會有動詞嘅特性。好似「叻」一般都係形容詞。「你真係好叻,咁細個就抽到公屋」 「算你叻返次啦」又用咗一啲動詞先至有嘅形態變化。 所以有好多時詞類同詞類之間,可以有好大重疊。
 
又有好多字典會將「成語」「擬聲語」分做獨立嘅詞性。事實上呢啲字喺句子入面一般有固定機能。例如「橫衝直撞」基本上一定係動詞,「無心之失」幾乎一定係名詞,但係好多字典都歸佢哋入「成語 (idioms)」。
 
而擬聲詞除咗「佢真係靚到揼一聲呀!」呢種用法之外,所有擬聲詞都可以歸類入其他詞性。好似「我叮咗個波仔飯」「我搭叮叮去柴灣」咁,第一個明顯係動詞,第二個明顯係名詞。但係好多字典都當佢哋係「擬聲詞 (onomatopoeia)」
 
傳統嘅詞性表入面呢啲同「分佈」無關嘅嘢,。對一個普通人嚟講,一個字係有典故嘅「成語」,係嚟自聲音嘅「擬聲詞」,定係冇典故嘅「慣用語」,真係冇咩用。你不如話俾我知佢點用好過。
 
(三) 唔識分
有啲字嘅分佈非常獨特。根本唔可以歸類。可能佢本身係「字」嘅一部份,但係因為漢字嘅書寫習慣令到我哋覺得佢係一個獨立單字,亦都有可能佢真係屬於一個只係得一個成員嘅詞性。例如 「嘅」字點分類?「食得招積」個「得」係咩詞性?
又有一啲係英文冇嘅詞性。大家都係學英文文法長大,睇返自己嘅母語嗰陣,反而有好多語法嘅現象難以解釋,例如「啲雀仔喺樖樹上面」入面「啲」同「樖」都係英文冇嘅詞性。就算係編字典嘅人都未必諗到點分。
 
===================================
→→→歸納嘅作用係搵出規律,但係當分得過於仔細,每個類別得幾隻字嘅時候,分類嘅用途係零,不如唔好分類。
 
words.hk 嘅處理方法係:
‧非關分佈嘅詞性,例如「成語」、「慣用語」等等一律唔收
‧容許一個字有多過一個詞性,例如「認識」可以同時係名詞,亦係動詞,唔會整一個叫「動名詞」嘅詞性
‧整一啲專為廣東話而設嘅類別,例如「語氣詞」
‧分類唔到唔緊要,語法都係為咗解釋事物。有需要就用例子講解用法。
 
喺我繼續講之前,大家玩個遊戲,下面嘅字入面,有冇邊個唔係形容詞,點解?
「靚」「病」「一樣」「公共」
【150 Like 開估~】
【2016.07.21 解除封印】
 
廣東話嘅「形容詞」,同好多漢語語言一樣,並唔係獨立類別嚟嘅。喺好多詞性分類入面,大家會將「形容詞」歸入「動詞」。點解會噉做呢?因為我哋幾乎冇辦法可以用「形態」去區分動詞、形容詞。

呢樣嘢喺英文就好簡單嘅。形容詞唔可以直接做謂語,一定要加繫詞(is, am, are ...)。東亞都有啲語言有清楚區分嘅。好似日文,形容詞一定要係「〜い」尾,形態變化(例如過去式)同動詞完全唔同。韓文就模糊啲,但係形容詞可以直接用 ~da 尾嘅辭書形(e.g. 靚 yepeuda,細 jakda),動詞就一定要加 -n- 喺中間(e.g. 做 hada -> handa,去 gada -> ganda)。

廣東話其實都有少少分別。例如用下面嘅句式
「佢有啲/幾/好_喎。」

應該得啲形容詞放得入:「佢有啲靚喎」「佢幾樣衰喎」「佢好索喎」;但係動詞就放唔入:「*佢有啲食喎」「*佢幾做喎」「*佢好諗喎」。

好明顯,最正常嘅形容詞,好似「靚」呢啲,應該可以通過上述測試嘅。用啲術語講,就係「可以做謂語 (predicate,亦即係句子所表達嘅中心),亦可以受程度副詞(好、幾 呢類)修飾」。

問題就嚟喇。

「病」可以做謂語,又可以講「好病」「少少病」「幾病」。噉究竟佢係咪形容詞呢?一般形容詞有個特性喎,就係加「咗」之後,會表示狀態嘅轉變。所以「靚咗」「大咗」「細咗」都係講緊「變化」。但係「病」係講緊「持續」嘅事件,可以用次數去數(病咗兩日、病咗三次),又可以加「住」表示狀態維持(病住返工),好似感覺上唔似一般形容詞,而係似動詞。

「公共」呢個呢,又係唔可以用程度副詞修飾,仲要多一樣限制:你唔可以用嚟做謂語乜滯。你可以講「呢個係公共(嘅)圖書館」但係好似唔可以講「呢個圖書館公共」。如果你要否定佢呢,你又唔可以講「呢個圖書館唔公共」,要講「唔係公共嘅」。

「一樣」又多一樣古怪:前面要跟「同__」呢個短語,唔可以就噉用。如果用一用英文諗,仲麻煩,因為英文入面 same 都唔知係乜詞性嚟嘅。

一路分就會越挖越多問題。上面四個,「靚」最typical,「病」有少少動詞味,「公共」唔係 gradable,「一樣」唔係 gradable之餘,仲要喺特定短語先至成句。噉到底點樣劃條線好呢?

曾經有過一個分類法,就係因為「靚」「病」呢類詞好似,於是索性叫晒佢哋做「動詞」。唔再分喇。而一切古古怪怪嘅,先至當佢哋係形容詞。呢個分法應該唔係主流。

粵典用嘅分法就簡單啲,主要係按照鄧思穎(2015)嘅分類(即係呢個post出嗰陣好似仲未有⋯⋯)。只要一個詞,好似「靚」噉樣,可以① 俾程度副詞修飾 ② 唔可以帶賓語,我哋就會當佢係【形容詞】。至於 ① 唔可以俾程度副詞修飾嘅,② 否定一定要用「唔係」嘅就叫【區別詞】。

所以我哋家吓用嘅分類係噉:

靚:形容詞
一樣:形容詞(因為可以講「唔一樣」)
病:動詞
公共:區別詞

當然,呢啲只係為求方便先至噉樣分。「一樣」同「病」都係踩界嘅詞(前者踩區別詞嘅界,後者踩動詞嘅界)。我諗我哋腦入面存在住一大堆呢啲同時有兩家特點嘅詞。所以分類唔使太過「柏拉圖」,一般嘢分到,啲邊界位,用一條簡潔規則好過。

【完】

PS. 聽講 Share 咗嘅話會多啲人 Like,大家不妨做下實驗

(本身tag咗page⋯但係Facebook改咗behaviour,一tag咗page就自動變做用專頁回覆⋯搞到admin用咗words.hk名義like post...)

全文 3546 字 (唔計英文、空格、標點)