马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa维基百科的一些随机文本。 我们请一些语言学家来监督。