Shell|Mac OS批量文件编码转换工具
目录
前言
本来想查看 win 电脑上的一些源码,奈何在 Mac 上都乱码了,于是网上搜集了一些解决办法,网上多数都是针对单文件的,而我的源码文件是比较多的,因此写了个脚本进行批量处理,我先介绍单文件编码转换方法,最后放上批量转换的脚本。
单文件编码转换
第一种,直接使用 vi 编辑器调整编码方法。输入以下命令。
:set fileencoding=utf-8
「推荐」第二种,使用iconv
命令(Mac 有,未测其他系统)。
# 格式
iconv -f 原始文件格式 -t 转换格式 文件 > 转换后的文件
# 例子
iconv -f GBK -t UTF-8 ./util.cpp > ./util.cpp.utf8
第三种,这种方法属于部分编码转换,可忽略,转换 dos 系统文件到 unix 系统文件,将换行符CR+LF
转换为LF
。命令可能需要安装。
# dos格式转unix格式
dos2unix filename
# 反过来
unix2dos filename
批量转换
命令只能对单个文件转换,此脚本对多个文件进行编码转换,默认进行递归扫描,默认 GBK 转 UTF-8(不符合需修改脚本)。
测试系统:mac os
测试效果图:
#!/bin/sh
# 获取文件
# 可以将ls替换为find精确查找文件
files=`find ${PWD} -type f`
# 当前脚本文件
current_file=${PWD}/re_encode.sh
echo "current file: ${current_file}"
echo "re-encode file list:"
for f in ${files}
do
if [ ${f} != ${current_file} ]
then
echo "${f}"
# iconv -f 原始文件格式 -t 转换格式 <文件>
iconv -f GBK -t UTF-8 "${f}" > "$f.utf8encode"
rm -f "${f}"
fi
done
# 已编码文件
encode_files=`find $PWD -type f -name "*.utf8encode"`
for f in ${encode_files}
do
new_name=`echo $f | sed "s/.utf8encode//g"`
mv "${f}" "${new_name}"
done
echo "re-encode OK :-)"
食用步骤:
第一步,复制脚本到编码转换的文件夹,命名re_encode.sh
。
注意:
- 默认进行递归扫描,对文件夹本文件外所有文件进行编码转换,建议将要转换的放在一个文件夹内。
- 默认是 GBK 转 UTF-8,其他类型需要修改脚本
- 在执行脚本前应该将原文件备份一份,以免出现意外,命令:
cp -r source target_bak
第二步,执行脚本,命令如下:
sh re_encode.sh
总结
-
在这个过程中我们用了很多命令,或者说很多程序,在日常编程中也会遇到编解码,尤其是网络通信,例如:对入栈协议的解析(http、websocket);
-
编码转换的原理是对源文件按照原先的编码读出,然后按照目标编码写出,Java 字符串有 api 可以完成这个过程,感兴趣的可以尝试尝试。
-
编码的转换后通常会改变文件的大小,例如 GBK 的转换为 UTF-8 变大。
(over)