< 返回

《粵典四周年 近況報告》



作者:粵典
日期:2018年5月27日

粵典四周年 近況報告

==== 引言 ====

唔經唔覺,粵典已經成立咗四年。當日擇言戲稱粵典「等到佛誕」,所以粵典網站就喺佛誕嗰日面世。

粵典係咩嚟?「《粵典》係一個大型嘅粵語辭典計劃。我哋會用Crowd-sourcing嘅方法,整一本大型、可持續發展嘅粵語辭典。」 -- 粵典網頁自介

好多人聽到粵典呢個項目就會問:點解你哋會諗到搞粵語詞典?

好簡單:一個「囉」字,幾乎每個香港人都會講。究竟「囉」字有幾多種意思呢?「囉」可以代表 lo1, lo3, lo4 呢三種語氣助詞,夾埋有成十種唔同用法。

粵語嘅使用者起碼有幾千萬人,點解我哋冇一部詞典去解釋「囉」字嘅各種用法呢? 又點解我哋冇一部用粵語編寫嘅詞典呢? 所以我哋就嘗試整一部出嚟嘞:

https://words.hk/zidin/囉

但其實點解我哋整詞典,講到尾都只係一個原因:愛。每一個粵典嘅編輯,都對粵語有無限嘅愛,對整詞典有無限嘅愛,先至可以無償付出時間去編寫詞典內容。

編寫詞典係一種揼石仔嘅工作,冇「愛」好難做落去。粵典收錄咗幾萬個字詞,固然有啲好似「囉」字咁有趣嘅詞條,但大部份都係比較「沉悶」嘅詞語。例如「白切雞」、「逃走」、「侄仔」,呢啲冇咩特別嘅詞條,我哋都一樣要寫。

==== 進度 ====

粵典而家總共收錄咗 47322 個字或詞,其中已編輯過嘅接近四萬,公開咗嘅有六千幾。

四萬詞係咩概念呢?呢一刻我哋夠膽講,你諗到嘅通用粵語詞,尤其係香港日常會用嘅詞語,我哋都已經收錄咗。當然,我哋仲有好多詞語未收錄,甚至有好多常用嘅詞語未收錄,但斷估你都撞唔中 :) 所以喺詞表嘅完成度方面,我哋應該都算係去到一個「九九十十」嘅程度。

大部份嘅詞條未公開,係因為詞條嘅內容仲未做得夠好。粗略估計,其實可能有一半詞條嘅內容冇乜大錯,可以出得街嘅;但同時亦都唔少有嚴重錯漏,所以未經總編輯過目嘅詞條,暫時唔公開住。

所謂「唔公開」嘅詞條,其實一般大眾都可以睇得到。任何人登入粵典網站,都可以睇晒所有未公開嘅詞條。

四萬詞,其實一啲都唔惹少,粗略估計呢四年以嚟,編輯團隊投放落去寫詞條嘅時間,夾埋隨時有幾萬小時。

粵典預計幾時完成?詞典係唔會有完成嘅一日,牛津詞典每年都加新詞啦,係咪噉話。我哋下一個目標係將啲詞條執好並且公開,我哋距離呢個目標應該仲有好幾年。照而家進度嚟睇,或者粵典喺第十年就可以完成呢。

喺呢個講求速度,講究即叫即有嘅年代,如果有人能夠堅持一個目標十年,無論進度如何,相信都會係一個奇跡。而家我哋第四年,差唔多去到一半,希望粵典成立第十年嘅時候,我哋嘅初衷仍然不變。

==== 義工編輯團隊 ====

粵典係一個冇金錢酬勞嘅血汗工場,呢幾年除咗請咗十零個暑期工之外,其他編輯都係義工嚟。活躍嘅義工大概有幾十位左右,佢哋係真正默默耕耘,勞苦功高,有心有力。粵典作為民間自發嘅項目,冇條大水喉照住,最多只可以得閒請下大家食飯,同埋cap圖打格仔表揚下大家嘅努力同付出。

睇返數據,編輯嘅活躍程度都有少少 Zipf's Law 嘅影子 (頭十位有一半係受薪暑期工,所以影響咗個分佈):

[圖.略]

(條 long tail 仲好長,呢度只係取頭 40 位嘅數字)

排首位嘅義工編輯,一年內修改過五千幾個詞條內容,即係平均一日修改十幾個。呢位義工最近代表《粵典》接受《100毛》訪問,佢叫 Raymond,但我哋圍內幫佢改咗個名做「戰神」。

⋯⋯ 第二名先至係總編輯擇言。人怕出名豬怕肥,其他嘅義工朋友就唔開名嘞。

編輯組通常每兩星期會搞一次小聚會,一般活動係編輯詞條,不過有時都會有其他討論活動。新加入或者想加入編輯組嘅朋友,歡迎嚟體驗一下編輯粵典嘅揼石仔工作。

==== 粵文語料庫 ====

除咗整詞典,我哋仲有收錄用粵語寫嘅文章同小說。而家有幾百篇章,總字數接近二百萬。坊間嘅粵語文章其實唔多,二百萬字算係一個唔細嘅數字。

呢個粵文庫係我哋喺詞典之外嘅「業餘興趣」嚟。文章主要來自粵典核心成員嘅網友平日寫嘅文章,另外有來自粵語寫作比賽嘅參賽作品,同埋各處收集返嚟嘅粵語文章。

文章嘅來源絕對係好 biased,但又有幾多人會寫幾十萬字粵語嘅文章同小說?我哋「粵文庫」嘅作者,都呈現 Zipf's law 嘅現像。 (順帶一提,其實呢啲作者嘅粵語作品絕對唔止咁少字數,但因人手短缺關係,我哋冇辦法有系統噉收錄晒所有作者嘅文字)

[圖.略]

收錄咗呢啲文章,可以用嚟做啲乜呢?文章嘅句子可以用喺粵典做例句,語料可以用嚟做語言分析,可以用嚟做字詞預測。仲有好多其他可能性。有興趣做呢啲項目嘅朋友,不妨聯絡我哋。由於各種原因我哋唔可以將粵文庫全部嘅語料公開發佈,但我哋可以有條件之下提供資料做分析或統計。

==== 結語 ====

粵典搞咗四年,所有核心成員、編輯都花咗無數嘅時間同心血落去做,係無償嘅付出。唔知有冇人會覺得「都做咗咁耐,點解好似沒完沒了噉?」回顧返四年前,一開始我哋乜嘢都冇,而家有四萬個完成咗一半嘅詞條,其實都唔算好差。

長大咗就開始明白小學嗰陣學嘅寓言故事。粵典依家做嘅嘢,有少少似《愚公移山》。愚公集合眾人之力去移山,可能係中國文學史上第一個「crowd sourcing」嘅項目都未定。

愚公嘅智慧,唔單止在於佢嘅堅毅,更在於佢宏觀嘅視角。就算天帝冇將座山搬走,佢嘅子子孫孫只要堅持繼續做,山總有一日會被移走。山雖然係大,但始終有限,移山嘅代價亦終始有限。移走座山之後,惠澤後世,會得到無窮無盡嘅好處。放眼未來幾百年、幾千年,付出有限,得益無限,呢個先至係愚公嘅智慧所在。

我哋搞粵典,亦都唔係為求解決一時三刻嘅問題。我哋放眼嘅,係往後起碼一百幾十年粵語嘅發展。我哋呢幾年好深刻噉體會到,與其爭一時嘅意氣,不如花時間去做一啲有長遠價值嘅嘢。喺呢個三分鐘熱度嘅現代社會,喺呢個充斥住即時資訊嘅社會,我哋反其道而行,唔講究快,唔講究短期效率,只希望增加長期嘅價值。如是者,就算冇天帝嘅幫忙,我哋靠自己揼石仔,都可以搬走一座山。

全文 1983 字 (唔計英文、空格、標點)