JAVA读取HDFS的文件数据出现乱码的解决方案
想写一个读取HFDS上的部分文件数据做预览的接口,根据网上的博客实现后,发现有时读取信息会出现乱码,例如读取一个csv时,字符串之间被逗号分割。因为HDFS支持6种字符集编码,每个本地文件编码方式又是极可能不一样的,我们上传本地文件的时候其实就是把文件编码成字节流上传到文件系统存储。那么在GET文件数据时,面对不同文件、不同字符集编码的字节流,肯定不是一种固定字符集解码就能正确解码的吧。参考下面的内容,获得了解决方案需求:某文件或者某字节流要检测他的编码格式。那么方案就很明了了,先读一些文件字节流,用工具检测编码方式,再对应进行解码即可。