文本预处理
数据集预处理
本节主要是认识怎么处理文本数据,需要注意的是本节说明为了方便起见,本章后续所有的文本预测都以字符为基本单位。
文字经过预处理,将所有的字符以外的符号都变为了空格
def tokenize(lines, token='word'): #@save
"""将文本行拆分为单词或字符词元"""
if token == 'word':
return [line.split() for line in lines]
elif token == 'char':
return [list(line) for line in lines]
else:
print('错误:未知词元类型:' + token)
tokens = tokenize(lines,"char")
for i in range(11):
print(tokens[i])
注
list(str) 会将str转变为单个字符。
也很合理,因为遍历字符就是一个一个遍历的。