朴素贝叶斯垃圾邮件分类 读邮件数据集文件,提取邮件本身与标签。 2.邮件预处理 2.1传统方法 2.1 nltk库 分词nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word_tokenize(sent) #对句子进行分词 2.2 punkt 停用词from ...
分类:
其他好文 时间:
2020-05-17 22:04:44
阅读次数:
104
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" import cs ...
分类:
其他好文 时间:
2020-05-17 21:58:56
阅读次数:
91
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 21:54:58
阅读次数:
73
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 21:52:11
阅读次数:
73
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:23:35
阅读次数:
80
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:19:44
阅读次数:
70
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:
其他好文 时间:
2020-05-17 19:18:45
阅读次数:
75
1 前言 延迟队列的使用场景:1.未按时支付的订单,30分钟过期之后取消订单;2.给活跃度比较低的用户间隔N天之后推送消息,提高活跃度;3.过1分钟给新注册会员的用户,发送注册邮件等。 实现延迟队列的方式有两种: 1)通过消息过期后进入死信交换器,再由交换器转发到延迟消费队列,实现延迟功能; 2)使 ...
分类:
编程语言 时间:
2020-05-17 17:32:52
阅读次数:
71
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv filepath = r"C:\Users\25186\PycharmProjects\task1\data\SMSSpamCollection" sms = open(filepath, 'r', encod ...
分类:
其他好文 时间:
2020-05-17 15:58:21
阅读次数:
61
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 import csv file_path = r"SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') data = csv.reader(sms, deli ...
分类:
其他好文 时间:
2020-05-17 13:29:03
阅读次数:
57