3, 簡單分詞器
- 分詞器simple.py, 按照除了缩写符号(撇號"'")和连字符号"-"以外的其它标点符号以及空格嚟划分单词。 用於教學同AI訓練。
- 含有縮寫符號" ' "。 比如:“hor' mxhoryiq(可唔可以)”中嘅“hor'”代表“horyiq”嘅縮寫; “'deih”代表"keoiqdeih"嘅縮寫;
- 含有連字符"-"嘅複合詞;比如: "cungjzor-loengx(沖咗涼)", "pukj-neiq-go-gaaij(仆你個街)";
- 含有英語。比如: "I'm";
- 含有普通話。比如: "开玩笑-zor"。"开玩笑"發普通話音,"-zor"發粵語音,表示完成態。
- 含有字母同數字。比如: "AK47", "7-11"。
- 修改說明:1,而家對粵語嘅時態有咗唔同嘅認識,認爲粵語只有進行態“ganr”同完成態“zor”兩種。而且對“結婚”,“離婚”同“沖涼”等單詞作詞組處理。所以對單詞庫作出調整。
2,2.xlsx文件,係根據《關於稱呼拼寫嘅激進方案》,將資料重新整理後,再次分詞得到嘅單詞同詞頻。