1、pyltp简介 pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。 2、pyltp安装方法 安装环境:windows10,python3.6 2.1.安装pyltp库 安装方法一:使 ...
分类:
其他好文 时间:
2020-04-27 13:10:34
阅读次数:
365
grep (Global Regular Expression Print)是一个强大的文本搜索工具,能使用正则表达式搜索文本,并把匹配的行打印出来。 grep的工作方式是在一个或多个文件中搜索字符串模板。 (1) 命令格式 或者作为管道符号 (2)命令参数 a : 不要忽略二进制的数据。 d 或 ...
分类:
系统相关 时间:
2020-04-26 16:50:11
阅读次数:
85
grep,egrep,fgrep:文本过滤工具(模式:pattern)工具; grep:基本正则表达式,-E,-F egrep:扩展正则表达式,-G,-F fgrep:不支持正则表达式 egrep: 支持扩展的正则表达式实现类似于grep文本过滤功能:grep -E grep[OPTIONS]PAT ...
分类:
其他好文 时间:
2020-04-20 13:51:21
阅读次数:
71
文本处理工具和正则表达式1.vi和vimvi:Visual editor,文本编辑器,是 Linux 必备工具之一,功能强大,学习曲线较陡峭,学习难度大vim:VIsual editor iMproved ,和 vi 使用方法一致,但功能更为强大,不是必备软件 vim命令格式:vim [OPTION ...
分类:
系统相关 时间:
2020-04-18 22:33:18
阅读次数:
73
众所周知, 斯坦福大学自然语言处理组 出品了一系列NLP工具包,但是大多数都是用Java写得,对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口: Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 ,不过用起来也不是很方便。深度学习 ...
分类:
编程语言 时间:
2020-04-15 13:47:31
阅读次数:
191
一、正则表达式的意义 处理大量的字符串 处理文本 通过特殊符号的辅助,让Linux管理员快速过滤、替换、处理所需要的字符串、文本,让工作高效。 二、Linux三剑客 文本处理工具,均支持正则表达式引擎 grep:文本过滤工具(模式:pattern) sed :stream editor,流编辑器,文 ...
分类:
系统相关 时间:
2020-04-10 22:25:32
阅读次数:
101
1、数据库中即时保存数据:Dataset; 2、从网页抓取数据:Beautiful Soup 3、和 HTTP 内容打交道:Requests 4、编写命令行工具:Click 5、对事物命名:Python Slugify 6、和插件打交道:Pluggy 7、把 CSV 文件转换到 API 中:Data ...
分类:
编程语言 时间:
2020-04-10 11:56:52
阅读次数:
98
在 "前面" 的学习中主要了解了Pandas如何构造序列和数据框,如何读取和写入各种格式的数据,以及如何对数据进行初步描述,本文将进一步了解Pandas如何处理字符串和日期数据,数据清洗,获取数据子集,透视表,分组聚合操作等内容。 4. Pandas处理字符串和日期数据 待处理的数据表 数据处理要求 ...
分类:
编程语言 时间:
2020-04-09 12:58:30
阅读次数:
103
Pands模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心操作对象就是序列(Series)和数据框(DataFrame)。序列可以理解为数据集中的一个字段,数据框是指含有至少两个字段(或序列)的数据集。 1. 序列 ...
分类:
编程语言 时间:
2020-04-09 12:20:02
阅读次数:
97
"CSDN同步" "原题链接" 简要题意: 给定一棵树,$d_{x,y}$ 为 $x$ 与 $y$ 距离($d_{x,x} = 0$),选出两个点 $x,y$,最小化: $$\sum_{u \in V} (w_u \times \min(dis_{x,u} , dis_{y,u}))$$ ~~这种水 ...
分类:
其他好文 时间:
2020-04-07 09:31:29
阅读次数:
67