ChineseLyrics中文歌词数据库【NLP自然语义处理数据集】汇聚了超过10万首歌曲的大规模数据,为NLP和数据分析领域的研究者提供了丰富的资源。这一数据库由网络采集整理而成,囊括了2019年之前绝大多数华语歌手的作品,涉及4019位歌手,其中有1086位歌手的作品数量达到20首以上,233位歌手的作品数量超过100首,总计102,197首歌曲。每位歌手的平均贡献歌曲数量为25.4首。数据库以5个json文件的形式存储,根据歌手进行了聚类,并按照作品数量降序排列。文件包括歌名、歌手名和歌词等信息,为研究者提供了便捷的多维度分析途径。此外,数据库还提供了词频统计,包括所有歌词的词频排序、用作句子开头的词语按词频排序以及根据拼音押韵表得到的拼音押韵信息。这一数据集的建立为深入研究歌词语义、歌手创作风格以及音乐文化提供了有力的支持。