文本预处理

约 209 字小于 1 分钟

2024-04-26

数据集预处理

本节主要是认识怎么处理文本数据，需要注意的是本节说明为了方便起见，本章后续所有的文本预测都以字符为基本单位。

文字经过预处理，将所有的字符以外的符号都变为了空格

def tokenize(lines, token='word'):  #@save
    """将文本行拆分为单词或字符词元"""
    if token == 'word':
        return [line.split() for line in lines]
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错误：未知词元类型：' + token)

tokens = tokenize(lines,"char")
for i in range(11):
    print(tokens[i])

注

list(str) 会将str转变为单个字符。

也很合理，因为遍历字符就是一个一个遍历的。