python统计重复
⑴ python 如何比较两个文件中的重复字符串并输出统计数字
这5000W 数据有点大
光读写文件 就要好长时间
有没有hadoop 平台
http://blog.csdn.net/zhaoyl03/article/details/8657031/
这个统计 很快
⑵ python如何去除重复行并分别统计重复的行数已有去除重复的代码
python的速度效率是不高的,如何对速度要求比较高的话建议可以用c来写。
我写了这个代码,python2.6+windows xp测试通过。
希望能帮到你~
===================================================
a=[] #初始化要用到的列表a,用于记录原始行信息
b=[] #初始化要用到的列表b,用于记录结果数据,由两项构成。前一项为行信息如“小明:90”,后一项为该行对应的出现次数如2
f1=file("1.txt", "r") #打开1.txt文件
for line in f1:
a.append(line) #将1.txt文件每一行作为一个元素,存入列表a
f1.close
for n in a: #遍历a中每一项(记为n),即1.txt中每一行
flag=1
for i in range(0,len(b)):
if n == b[i][0]: #n与列表b中的每一项对比,如果有相等的:
b[i][1]=b[i][1]+1 #那么对应的出现计数加1
flag=0
break
if flag==1: #如果前面的比对没有一个相等的,即该行是第一次出现:
b.append([n,1]) #那么在列表b中添加改行为新的一项
f2=file("2.txt", "w") #打开2.txt文件,用于输出
for n in b: #输出格式为:行信息 (tab) 出现次数 (回车)
f2.write(str(n[0][0:-1]) + "\t")
f2.write(str(n[1]) + "\n")
f2.close
print "Finished" #完成
⑶ 如何用python实现两个文件重复数据筛选并统计
本文实例展示了Python统计列表中的重复项出现的次数的方法,是一个很实用的功能,适合Python初学者学习借鉴。具体方法如下:
对一个列表,比如[1,2,2,2,2,3,3,3,4,4,4,4],现在我们需要统计这个列表里的重复项,并且重复了几次也要统计出来。
方法1:
?
1234
mylist = [1,2,2,2,2,3,3,3,4,4,4,4]myset = set(mylist) #myset是另外一个列表,里面的内容是mylist里面的无重复 项for item in myset: print("the %d has found %d" %(item,mylist.count(item)))
方法2:
?
123456
List=[1,2,2,2,2,3,3,3,4,4,4,4]a = {}for i in List: if List.count(i)>1: a[i] = List.count(i)print (a)
利用字典的特性来实现。
方法3:
?
123
>>> from collections import Counter>>> Counter([1,2,2,2,2,3,3,3,4,4,4,4])Counter({1: 5, 2: 3, 3: 2})
这里再增补一个只用列表实现的方法:
?
12345678910
l=[1,4,2,4,2,2,5,2,6,3,3,6,3,6,6,3,3,3,7,8,9,8,7,0,7,1,2,4,7,8,9] count_times = []for i in l : count_times.append(l.count(i)) m = max(count_times)n = l.index(m) print (l[n])
其实现原理就是把列表中的每一个数出现的次数在其对应的位置记录下来,然后用max求出出现次数最多的位置。
只用这段代码的话,有一个缺点,如果有多个结果,最后的现实的结果只是出现在最左边的那一个,不过解决方法也很简单
⑷ python二维数组中的每一组元素重复的次数怎么统计
代码如下:
#coding=utf-8
if__name__=='__main__':
a=[
[2,3,34,56],
[14,23,45,6],
[2,3,34,56]
]
map={}
foritemina:
s=str(item)
ifsinmap.keys():
map[s]=map[s]+1
else:
map[s]=1
forkeyinmap.keys():
print('%s的次数为%d'%(key,map[key]))
运行结专果:属
⑸ 如何使用python或者宏对excel中数据进行统计重复次数
把你录制的宏里面的工作表名称改成activesheet就可以了
activesheet是表示当前工作表
甚至可以一次搞定,用循环语句一次读取200多个工作表。
⑹ Python怎么计算相同数字出现的次数
l=[1,2,3,3,3,3]
t=l.count(3)#t=4
⑺ python如何统计元组中重复元素个数
#获取重复元数的个数,使用set可以将list中重复元数去掉
temp_list = [1, 3, 2, 3, 2, 4]
repeat_count = len(temp_list) - len(set(temp_list))
⑻ python怎么统计元组中重复元素个数
Python 2.7.3 (default, Apr 10 2012, 23:31:26) [MSC v.1500 32 bit (Intel)] on win32
Type "right", "credits" or "license()" for more information.
>>> rs = (('192.168.16.1',), ('192.168.41.1',), ('192.168.41.1',))
>>> d = {}
>>> for k in rs:
for v in k:
if v in d:
d[v] += 1
else:
d[v] = 1
>>> print d
{'192.168.16.1': 1, '192.168.41.1': 2}
⑼ 用python怎么实现,找出一个字符串中的重复字符子串和字符串数量
|代码如下:
⑽ 如何用python统计文本中重复行的数目
这个应该不难
先取出一行,存入字典key value=0
然后next 后面一行判断是不是在字典的key里,如果在key里,value+1
完了就结束了,这了字典就是结果
一开始想用用二维数组,好像不好理解,字典好处理一点