作业网址:

PART 1:如何运行代码

问题4:Shell脚本:q4.sh运行大约需要20秒

给定从训练数据产生计数的代码:


count_cfg_freq.py parse_train.dat >; cfg.counts

生成计数文件,使用稀有替换单词并用稀有生成新的训练数据:


add_rare.py cfg.counts parse_train.dat >; parse_train_rare.dat

将带有稀有的新源文件输出到parse_train_rare.dat,生成稀有训练数据的计数:


count_cfg_freq.py parse_train_rare.dat >; cfg_rare.counts

生成新的计数文件。

问题5:Shell脚本:q5.sh,耗时不到2分钟,应用cky_a