基于jieba包的自动提取 关键方法:jieba.analyse.extract_tags(content,topK=n) 具体思路:通过jieba包自带的extract_tags方法,在遍历读取文件内容时,获得每篇文档前n个关键字 使用的包: 过程: 最终得到包含文件路径,文件内容,和每篇5个关键 ...
分类:
其他好文 时间:
2018-09-22 17:04:17
阅读次数:
585
用优先队列排序,优先队列是大根堆 https://www.cnblogs.com/grandyang/p/5454125.html ...
分类:
其他好文 时间:
2018-09-16 23:58:24
阅读次数:
410
网易面试挂了,有点烦。 一面面试官不是搞技术的,二面面试官搞ios,全程不问Java的知识,有点烦。 而且手撸代码硬伤 先在IDE敲一遍,在再纸上面写一遍。 ...
分类:
其他好文 时间:
2018-08-27 11:28:16
阅读次数:
170
```python3
# 不是最优解,最优解应该用topK的思路
class Solution: def maximumProduct(self, nums): """ :type nums: List[int] :rtype: int """ nums.sort() res = [nums[-..... ...
分类:
编程语言 时间:
2018-08-09 17:17:54
阅读次数:
162
无论怎么初始化,优先队列的长度不是固定的,你add一个,size就会++,满了就会扩容。 所以必须手动维护优先队列的大小,比如topK问题。 定义一个len,len<max的时候就直接add,len++ 满了就poll之后,再add 将一堆无序的元素放进优先队列中,每次调用poll,都能获得当前小顶 ...
分类:
编程语言 时间:
2018-07-07 20:36:57
阅读次数:
311
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜 ...
分类:
编程语言 时间:
2018-06-30 16:14:47
阅读次数:
319
spark 例子wordcount topk 例子描述: 【单词计算wordcount 】 【词频排序topk】 单词计算在代码方便很简单,基本大体就三个步骤 拆分字符串 以需要进行记数的单位为K,自己拼个数字1为V,组成一个映射或者元组 分组(groupByKey) 词频排序 将分组后的数据进行排 ...
分类:
其他好文 时间:
2018-06-14 11:26:14
阅读次数:
193
问题描述: Given a non-empty array of integers, return the k most frequent elements. For example,Given [1,1,1,2,2,3] and k = 2, return [1,2]. Note: You may ...
分类:
其他好文 时间:
2018-06-13 11:35:23
阅读次数:
142
用堆排序找出list中第K小的数字, 用小顶堆 python3 def min_heap_k(nums, topk): def siftdown(nums, e, begin, end): i = begin j = 2 i + 1 while j ...
分类:
编程语言 时间:
2018-05-02 21:11:28
阅读次数:
339
我今天在处理topk问题的时候需要一个堆容器,翻了半天资料没找到,最后偶然看到了这张图: 啧啧啧,这张图上居然没有堆(heap)。 好像java中真的没有听说过堆这么个容器…… 只好自己动手丰衣足食了 接口: 实现: 最大堆: 最小堆: 其实最大堆和最小堆的区别只是改了下沉和上浮里面的两个大于小于号 ...
分类:
编程语言 时间:
2018-04-02 01:05:45
阅读次数:
180