基于MapReduce的三元N gram算法的并行化研究

a35424 23 0 PDF 2020-10-27 22:10:08

大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapRed

用户评论

暂无评论

音节匕首使用n gram标记器的音素音节化源码

INASYLLG2P n- gram标记器untuk silabifikasi dan konversi字素到音素(G2P)印度尼西亚语。弹跳模式 Untuk memilih mode antara

3 2021-04-19
基于容量衰减速率的三元锂电池健康状态预测方法研究

基于容量衰减速率的三元锂电池健康状态预测方法研究，寇志华，潘旭海，实现锂电池健康状态预测，可以延长电池的使用寿命，提高电池安全使用性能，对锂电池的研究与发展具有重要意义。针对电动车在实际

12 2020-07-19
hadoop并行化和非并行化的kmeans算法.zip

包含两种平台上运行的kmeans算法：一种是在Hadoop系统上的并行化kmeans算法，支持读文件，执行聚类算法，输出质心文件，将每个数据的聚类信息输出到控制台上；另一种是串行的聚类算法，支持读文件

30 2019-09-09
基于MPI和OpenMP的三维FDTD并行算法的研究

基于MPI和OpenMP的三维FDTD并行算法的研究

31 2019-06-05
一种基于N_gram模型和机器学习的汉语分词算法

A Chinese word segmentation algorithm based on N-gram model and machine learning

20 2019-06-26
论文研究基于矩阵的并行化频繁项集挖掘算法.pdf

基于矩阵的并行化频繁项集挖掘算法，陈晓云，赵娟，在分析并行频繁项集挖掘算法的基础上，提出了一种新的基于矩阵的并行化频繁项集挖掘算法，该并行算法采用主从节点处理模式，利用

23 2020-05-22
基于N gram语言模型的哈萨克文机构名识别

针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首

7 2021-03-14
论文研究基于MapReduce的模体发现算法.pdf

基于MapReduce的模体发现算法，霍红卫，林帅，模体发现对于基因发现和理解基因调控关系有着重要的意义，它是生物信息学中最具挑战性的问题之一。提出了针对PMSP算法的三种数据��

21 2020-03-18
论文研究基于MapReduce的序列模式挖掘算法.pdf

针对传统GSP算法需要多次扫描数据库、I/O开销巨大的缺点，提出了一种基于MapReduce编程框架的序列模式挖掘算法MR-GSP（GSPalgorithmbasedonMapReduce）。MR-G

47 2019-07-29
云环境下的数据挖掘算法的并行化研究

云环境下的数据挖掘算法的并行化研究

24 2019-06-05

基于MapReduce的三元N gram算法的并行化研究

用户评论

推荐下载