ML_for_SLA:训练神经网络以将可理解的输入与非结构化文本隔离以帮助词汇习得 源码
通过机器学习优化二语词汇习得 “ i + 1”和掩蔽语言模型相遇的地方 抽象的 订阅“句子挖掘”->间隔重复系统(SRS)抽认卡范例的许多人遇到的瓶颈是寻找高质量抽认卡材料所涉及的手动工作。 这项工作概述了一种从非结构化文本大规模无监督地生产高质量抽认卡材料的方法。 该方法涉及训练轻量级的掩蔽语言模型,并且已在日本社交媒体和英语ArXiv论文上进行了小规模(20,000个单词)的应用。 可以免费下载超过一百万个日语抽认卡,它们显示了11,000个单词(每个单词100个示例)。 它将在将来的版本中扩大规模。 简介/概述 问题定义 作为高级语言学习者并坚持使用“句子挖掘”->间隔重复系统(SRS)
文件列表
ML_for_SLA-master.zip
(预估有个36文件)
ML_for_SLA-master
README.md
47KB
LICENSE
34KB
src
dev.py
779B
statics
DictionaryBuilder.py
1KB
DocumentResampler.py
745B
ByteNetEncoder.py
2KB
DatasetEncoder.py
2KB
暂无评论