python 高效去重复 支持GB级别大文件的示例代码

 更新时间:2018-11-08 19:00:34   作者:佚名   我要评论(0)

如下所示:


#coding=utf-8

import sys, re, os

def getDictList(dict):
regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\&#63;

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

您可能感兴趣的文章:

  • Python实现嵌套列表及字典并按某一元素去重复功能示例
  • Python Dataframe 指定多列去重、求差集的方法
  • Python实现的txt文件去重功能示例
  • 对python中两种列表元素去重函数性能的比较方法
  • python对excel文档去重及求和的实例
  • Python对多属性的重复数据去重实例
  • Python实现嵌套列表去重方法示例
  • Python做文本按行去重的实现方法

相关文章

  • python 高效去重复 支持GB级别大文件的示例代码

    python 高效去重复 支持GB级别大文件的示例代码

    如下所示: #coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\&#63;
    2018-11-08
  • CentOS 7下安装Python3.6 及遇到的问题小结

    CentOS 7下安装Python3.6 及遇到的问题小结

    先给大家介绍下CentOS 7下安装Python3.6 的方法 安装python3.6可能使用的依赖 yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-de
    2018-11-08
  • vue-cli 构建骨架屏的方法示例

    vue-cli 构建骨架屏的方法示例

    脚手架不说了,提前搭建好 然后安装 vue-skeleton-webpack-plugin npm install vue-skeleton-webpack-plugin 创建文件 skeleton.js和skeleton.vue skeleto
    2018-11-08
  • 易语言显示与隐藏窗口的方法

    易语言显示与隐藏窗口的方法

    被显示事件 语法: 无返回值 _窗口_被显示 () 当窗口被显示时产生此事件。 被隐藏事件 当窗口被隐藏时产生此事件。 语法: 无返回值 _窗口_被隐藏 () 所
    2018-11-08
  • mysql全文模糊搜索MATCH AGAINST方法示例

    mysql全文模糊搜索MATCH AGAINST方法示例

    mysql 4.x以上提供了全文检索支持 MATCH ……AGAINST 模式(不区分大小写) 建立全文索引的表的存储引擎类型必须为MyISAM 问题是match against对中文模糊搜索
    2018-11-08
  • 易语言更改编辑框的边框样式

    易语言更改编辑框的边框样式

    边框属性 所属对象:编辑框 操作系统支持:Windows 数据类型:整数型; 可供选择的属性值: 0、无边框 1、凹入式 2、凸出式 3、浅凹入式 4、镜框
    2018-11-08
  • 浅谈在不使用ssr的情况下解决Vue单页面SEO问题(2)

    浅谈在不使用ssr的情况下解决Vue单页面SEO问题(2)

    上一篇说了vue单页面解决解决SEO的问题 只是用php预处理了meta标签 但是依然没有内容填充,所以对于内容抓取依然有些乏力,只是解决了从无到有的问题
    2018-11-08
  • python微元法计算函数曲线长度的方法

    python微元法计算函数曲线长度的方法

    计算曲线长度,根据线积分公式: ,令积分函数 f(x,y,z) 为1,即计算曲线的长度,将其微元化: 其中 根据此时便可在python编程实现,给出4个例子,代码中已
    2018-11-08
  • vue.js层叠轮播效果的实例代码

    vue.js层叠轮播效果的实例代码

    最近写公司项目有涉及到轮播banner,一般的ui框架无法满足产品需求;所以自己写了一个层叠式轮播组件;现在分享给大家; 主要技术栈是vue.js ;javascript;jqu
    2018-11-08
  • 易语言改变编辑框背景颜色的方法

    易语言改变编辑框背景颜色的方法

    背景颜色属性 所属对象:编辑框 操作系统支持:Windows 数据类型:整数型; 例程 说明 本属性用于取得和更改编辑框的背景颜色。 运行结果: 总结 以上就是
    2018-11-08

最新评论