TinySegmenter TinySegmenter.jl是TinySegmenter的Julia版本, 是一种非常紧凑的日语令牌生成器,最初由Taku Kudo先生用JavaScript编写。 用法 using TinySegmenter join ( tokenize ( "私の名前は中野です" ), " | " ) # "私 | の | 名前 | は | 中野 | です" tokenize的返回值是字符串输入的子字符串数组,给出了令牌在文本中的位置。 (子字符串由SubString Julia类型表示。) 基准测试 以下是使用不同语言对大(243kB)日语文本进行标记的TinySe