汉字频率 通过处理来自各种来源的文本数据来收集汉字使用频率的统计数据。 您可以在目录中找到以下文件: 文件 汉字总数 描述 日期 〜51.5百万 小说和非小说书籍 2015年5月 〜1030万 来自各种来源的在线新闻文章 2015年6月 〜1000万 收集的Twitter消息 2015年6月 约784.6M 日语 2015年5月 请参阅下面的详细说明。 格式 每个文件包含一个数组数组(行)。 每行包含三个字段: (字符串)汉字本身。 第一行中的"all"是特例。 (整数)在分析的数据集中发现多少次。 对于"all"它是包括重复在内的汉字总数。 (浮点数)此字符表示的数据总量的