Window下DataX写入HDFS严重BUG
DataX
是阿里巴巴开源的数据同步工具
github地址https://github.com/alibaba/DataX
最近使用的时候发现一个严重的BUG, 在Window下用DataX
写入HDFS时会直接删除目标目录
原因是DataX
在数据同步结束时会删除临时文件, 但是HDFS没有正确解析Window下的分隔符, 而DataX
又在代码中插入的是系统分隔符而不是用统一的Linux分隔符
解决方法是在HdfsWriter.java
中的buildFilePath
和buildTmpFilePath
方法中统一使用Linux分隔符即可, 配置路径的时候也统一用'/'