文本预处理
# 数据集预处理
本节主要是认识怎么处理文本数据,需要注意的是本节说明为了方便起见,本章后续所有的文本预测都以字符为基本单位。
文字经过预处理,将所有的字符以外的符号都变为了空格
def tokenize(lines, token='word'): #@save
"""将文本行拆分为单词或字符词元"""
if token == 'word':
return [line.split() for line in lines]
elif token == 'char':
return [list(line) for line in lines]
else:
print('错误:未知词元类型:' + token)
tokens = tokenize(lines,"char")
for i in range(11):
print(tokens[i])
1
2
3
4
5
6
7
8
9
10
11
12
2
3
4
5
6
7
8
9
10
11
12
笔记
list(str) 会将str转变为单个字符。
也很合理,因为遍历字符就是一个一个遍历的。
更新时间: 4/26/2024, 1:15:25 PM