NLP——新闻文本分类:TASK3 深度学习Fasttext Fasttext是一种深度学习词向量的表示方法,它是一种三层神经网络,包含输入层,隐含层和输出层。 模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特 ...
分类:
其他好文 时间:
2020-07-28 00:21:27
阅读次数:
93
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理(NLP)有很多有趣的应用,文本生成就是其中一个有趣的应用。 当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时,它们可以生成输入文本的下一个序列。 PyTo ...
分类:
其他好文 时间:
2020-07-26 19:20:18
阅读次数:
68
1.页面访问出现502: 解决: (1)原因8080端口是否被占用 [root@VM_0_5_centos ~]# netstat -tnlp tcp 0 0 127.0.0.1:8080 0.0.0.0:* LISTEN 6130/unicorn 没被占用 (2)gitlab占用内存太多,导致服务 ...
分类:
其他好文 时间:
2020-07-26 01:53:04
阅读次数:
62
1. 例子 import numpy as np import torch from torch import nn, optim from torchtext import data, datasets import numpy as np import torch from torch impo ...
分类:
其他好文 时间:
2020-07-25 09:23:34
阅读次数:
111
一、简要 卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram. 卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。 二、textCNN 具体描述: 1、 第一层是输入层,输入层是一个n*d矩阵,其中 ...
分类:
其他好文 时间:
2020-07-23 23:22:17
阅读次数:
130
Task2 数据读取与数据分析 一、数据读取 1 import pandas as pd 2 train_df = pd.read_csv('./train_set.csv', sep='\t') 首先对read_csv的函数有个清晰的认识,具体的参数的情况如下: filepath_or_buffe ...
分类:
其他好文 时间:
2020-07-23 16:48:28
阅读次数:
119
自然语言处理(Natural Language Processing, NLP)是指计算机通过分析文本,建立计算框架实现语言表示及应用的模型,从而使其获得对语言的理解及应用的能力。从1950年Turing提出著名的“图灵测试”以来,让机器学会“听”和“说”,实现与人类间的无障碍交流成为人机交互领域的 ...
分类:
其他好文 时间:
2020-07-23 16:46:37
阅读次数:
81
##Task2 数据读取与数据分析 ####1.学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 ####2.数据读取 代码示例: import pandas as pd file_dir = "nlp_data_list" train_df = pd.read_csv("./{} ...
分类:
其他好文 时间:
2020-07-23 01:45:01
阅读次数:
80
今天想解决下面几个问题。 1.lightgbm cpu太慢了,我装了gpu的版本,对比了之后发现训练速度从10min缩短到8min。感觉很少,不知道是不是我姿势错误。 过程如下。 安装软件依赖sudo apt-get install --no-install-recommends git cmake ...
分类:
其他好文 时间:
2020-07-22 23:32:39
阅读次数:
92
##Task1 赛题理解 ####1.赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:入门自然语言处理,接触NLP的预处理、模型构建和模型训练等知识点 赛题任务:对新闻文本进行分类 ####2.学习目标 理解赛题背景与赛题数据 ####3.赛题数据 报名比赛后即可下载相应数据: 以匿名 ...
分类:
其他好文 时间:
2020-07-22 01:55:01
阅读次数:
81