排序 (Ranking) 包点图 (Dot Plot) 包点图表传达了项目的排名顺序,并且由于它沿水平轴对齐,因此您可以更容易地看到点彼此之间的距离。 https://datawhalechina.github.io/pms50/#/chapter17/chapter17 导入所需要的库 impor ...
分类:
其他好文 时间:
2020-05-23 20:02:37
阅读次数:
40
1.读取 2.数据预处理 import csv import nltk import re from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import pandas as pd #返回类别 def ...
分类:
其他好文 时间:
2020-05-23 20:02:00
阅读次数:
60
Python 是一门脚本语言。 脚本语言是一种介乎于 HTML 和诸如 JAVA 、 Visual Basic 、 C++ 等编程语言之间的一种特殊的语言,尽管它更接近后者,但它却不具有编程语言复杂、严谨的语法和规则。 有一些脚本语言已经发生了变化,如 Python,perl 已经可以编译成中间代码 ...
分类:
编程语言 时间:
2020-05-23 13:24:52
阅读次数:
61
1.自定义聚合函数,结合agg使用 2. 同时使用多个聚合函数 3. 指定某一列使用某些聚合函数 4.merge与transform使用 import pandas as pd import numpy as np np.random.seed(1) dict_data = { 'k1': ['a' ...
分类:
编程语言 时间:
2020-05-23 13:21:08
阅读次数:
60
import requests import pandas as pd import numpy as np from bs4 import BeautifulSoup import sqlite3 allUniv=[] def getHTMLText(url): try: r=requests.g ...
分类:
其他好文 时间:
2020-05-23 10:01:03
阅读次数:
60
1. csv文件自带列标题 import pandas as pd df_example = pd.read_csv('Pandas_example_read.csv') # 等同于: df_example = pd.read_csv('Pandas_example_read.csv', heade ...
分类:
其他好文 时间:
2020-05-23 00:28:53
阅读次数:
73
一、应用pandas # coding=utf-8 import pandas as pd from pandas import DataFrame, Series import re def rule(item_str): """ 对内容的规则 :param item_str: str :retu ...
分类:
其他好文 时间:
2020-05-22 19:17:08
阅读次数:
48
数据清洗与格式转换 探索性数据分析 特征筛选 1.数据清洗与格式转换 通过pandas来导入csv:查看一下数据的基本情况,可以看到,整个数据集有3333条数据,21个维度,最后一列是分类 基本信息以及类型 我们可以看到 1.个人信息:州名、账号长度、区号、电话号码,这些个人信息对结果意义不大,删除 ...
分类:
其他好文 时间:
2020-05-22 10:08:31
阅读次数:
80
偏差 (Deviation) 有序条形图 (Ordered Bar Chart) 有序条形图有效地传达了项目的排名顺序。 但是,在图表上方添加度量标准的值,用户可以从图表本身获取精确信息。 https://datawhalechina.github.io/pms50/#/chapter15/chap ...
分类:
其他好文 时间:
2020-05-22 00:11:26
阅读次数:
47
准备 查看磁盘的基本信息 !df -hl 1 !pwd 1 我们这里只做最基本的数据处理所以只引入了基本包 另外引入了ti的session后面通过它将数据上传到cos import os, gc import pandas as pd import numpy as np from ti impor ...
分类:
编程语言 时间:
2020-05-21 16:10:20
阅读次数:
140