1.
data_dir = './DATA/rawdata'
dataset_name = 'ted2020'
prefix = Path(data_dir).absolute() / dataset_name
prefix.mkdir(parents=True, exist_ok=True)
prefix是data_dir作为绝对路径,dataset_name是该路径下的一个文件名
mkdir()的参数:(2条消息) Python3创建目录mkdir(parents=True, exist_ok=True)_沉醉,于风中的博客-CSDN博客_exist_ok
parents:如果父目录不存在,是否创建父目录。
exist_ok:只有在目录不存在时创建目录,目录已存在时不会抛出异常。
2. 功能同python中的head()函数一样,显示内容
!head {data_prefix+'.'+src_lang} -n 5
head [参数] [文件]
- -q 隐藏文件名
- -v 显示文件名
- -c<数目> 显示的字节数。
- -n<行数> 显示的行数。
3. import re 正则表达式包 Python标准库01 正则表达式 (re包) - Vamei - 博客园 (cnblogs.com)
re.search(参数1,参数2) #参数1:正则表达式 参数2:字符串
如:
import re
m = re.search('[0-9]','abcd4ef')
print(m.group(0))
m = re.search(pattern, string)
re.sub(pattern, replacement, string)
re.split()
re.findall()
re.compile()
m.group(0) #group(0)是整个正则表达的搜索结果,group(1)是第一个群