python统计频次函数,次数统计函数

如何高效地使用Python统计数据的频率

之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为了加快程序的速度，我启用了多进程。但不幸的是，程序跑了近一个星期，还没处理完。这时，我感觉到了不对，于是开始查看程序的性能瓶颈。

站在用户的角度思考问题，与客户深入沟通，找到云梦网站设计与云梦网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：网站设计制作、成都网站制作、企业官网、英文网站、手机端网站、网站推广、空间域名、虚拟空间、企业邮箱。业务覆盖云梦地区。

对于统计去重数，我是将用户的数据放到一个列表中，然后用 len(set(data)) 去统计去重数量。刚开始我以为这的数据量并不大，每个用户的数据不会过百，我并没有注意到有的用户会有上万条的数据，因此消耗了大量的时间（其实我的脚本消耗时间最大的地方是因为从远程 redis 中取大量数据时发生长时间的阻塞，甚至连接超时，最后我采用的方式分而治之，每次取少量的数据，这样大大的提高了性能）。

为了做优化，我开始寻求高效的方法。我发现，有大量的人认为采用字典效率会更高，即：

data_unique = {}.fromkeys(data).keys() len(data_unique)

于是，我做了下测试：

In [1]: import random In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)] In [3]: %timeit len(set(data)) 10 loops, best of 3: 39.7 ms per loop In [4]: %timeit len({}.fromkeys(data).keys()) 10 loops, best of 3: 43.5 ms per loop

由此可见，采用字典和采用集合的性能是差不多的，甚至可能还要慢些。

在 Python 中其实有很多高效的库，例如用 numpy、pandas 来处理数据，其性能接近于 C 语言。那么，我们就用 numpy 和 pandas 来解决这个问题，这里我还比较了获取去重数据的性能，代码如下：

import collections import random as py_random import timeit import numpy.random as np_random import pandas as pd DATA_SIZE = 10000000 def py_cal_len(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] len(set(data)) def pd_cal_len(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data_unique = data.value_counts() data_unique.size def py_count(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] collections.Counter(data) def pd_count(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data.value_counts() # Script starts from here if __name__ == "__main__": t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len") t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len") t3 = timeit.Timer("py_count()", setup="from __main__ import py_count") t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count") print t1.timeit(number=1) print t2.timeit(number=1) print t3.timeit(number=1) print t4.timeit(number=1)

运行结果：

12.438587904 0.435907125473 14.6431810856 0.258564949036

利用 pandas 统计数据的去重数和去重数据，其性能是 Python 原生函数的 10 倍以上。

python count的函数用法是什么？

以下代码的功能是统计列表中重复项的出现次数

这里面就用到了 count() 函数

mylist = ['apple', 'banana', 'grape', 'banana', 'apple', 'grape', 'grape']

myset = set(mylist)

for item in myset:

print("the %s has been found %d times" % (item, mylist.count(item)))

函数COUNT在计数时，将把数值型的数字计算进去；但是错误值、空值、逻辑值、日期、文字则被忽略。

如果参数是一个数组或引用，那么只统计数组或引用中的数字；数组中或引用的空单元格、逻辑值、文字或错误值都将忽略。如果要统计逻辑值、文字或错误值，请使用函数COUNTA（COUNTIF按EXCEL的说明也行，但常出毛病）。

排序过程

假设输入的线性表L的长度为n，L=L1,L2,..,Ln；线性表的元素属于有限偏序集S，|S|=k且k=O(n)，S={S1,S2,..Sk}；则计数排序可以描述如下：

1、扫描整个集合S，对每一个Si∈S，找到在线性表L中小于等于Si的元素的个数T(Si)；

2、扫描整个线性表L，对L中的每一个元素Li，将Li放在输出线性表的第T(Li)个位置上，并将T(Li)减1。

以上内容参考：百度百科-计数排序

python编写函数计算任意字符串出现次数

python本身就有一个count（）函数可以用来统计字符串中单个字母出现次数

def fun(s):

count = string.count('a')

return count

string = input('请输入字符串：')

a = input('请输入你要查找的字符：')

print(fun(a))

python 统计函数运行次数。

你好：

我对代码做了注释：

#last是一个列表，里面只有一个元素，就是1，说明已经运行一次

def counter(last=[1]):

#last[0]将列表里面的第一个元素取出，然后加1，赋值给next

next = last[0] + 1

#修改列表里面第一个元素的值

last[0] = next

#返回此时运行的次数

return next

python想统计数据框中指定一列的频数,要使用以下哪个函数？

Python想统计数据框中指定的一列数，那么再说函数的时候，你可以使用if函数或者是其他的函数都可以。

名称栏目：python统计频次函数,次数统计函数
本文路径：http://azwzsj.com/article/dscsiji.html