python dict 删除元素中UserDict和dict

点击联系发帖人 时间：2015-06-01 17:03

python dict 排序

 上传我的文档
 下载
 收藏
免责声明：本人所有资料来自网络和个人所创，版权归原作者所有，请注意保护知识产权，如有需要请购买正版图书，请您下载后勿作商用，于24小时内删除，本人所提供资料仅为方便学习交流。本人如有侵犯作者权益，请作者联系官方或本人,本人将立即删除。
 下载此文档
正在努力加载中...
用Python做文本处理第一章
下载积分：600
内容提示：用Python做文本处理第一章
文档格式：DOC|
浏览次数：35|
上传日期： 06:59:57|
文档星级：
该用户还上传了这些文档
用Python做文本处理第一章.DOC
官方公共微信当前访客身份：游客 [
当前位置：
"结巴"中文分词：做最好的Python中文分词组件 "Jieba"&
支持三种分词模式：
精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
(Powered by Appfog)
Python 2.x 下的安装
全自动安装：easy_install jieba&或者&pip install jieba
半自动安装：先下载&，解压后运行python setup.py install
手动安装：将jieba目录放置于当前目录或者site-packages目录
通过import jieba 来引用（第一次import时需要构建Trie树，需要几秒时间）
Python 3.x 下的安装
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已经基本可用：&git&clone&/fxsjy/jieba.git
git&checkout&jieba3k
python&setup.py&install
基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法
功能 1)：分词
jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式
jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list
代码示例( 分词 )
#encoding=utf-8
import&jieba
seg_list&=&jieba.cut("我来到北京清华大学",cut_all=True)
print&"Full&Mode:",&"/&".join(seg_list)&#全模式
seg_list&=&jieba.cut("我来到北京清华大学",cut_all=False)
print&"Default&Mode:",&"/&".join(seg_list)&#精确模式
seg_list&=&jieba.cut("他来到了网易杭研大厦")&#默认是精确模式
print&",&".join(seg_list)
seg_list&=&jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")&#搜索引擎模式
print&",&".join(seg_list)
【全模式】:&我/&来到/&北京/&清华/&清华大学/&华大/&大学
【精确模式】:&我/&来到/&北京/&清华大学
【新词识别】：他,&来到,&了,&网易,&杭研,&大厦&&&&(此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)
【搜索引擎模式】：&小明,&硕士,&毕业,&于,&中国,&科学,&学院,&科学院,&中国科学院,&计算,&计算所,&后,&在,&日本,&京都,&大学,&日本京都大学,&深造
功能 2) ：添加自定义词典
开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开
之前：李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /
加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
自定义词典：
用法示例：
"通过用户自定义词典来增强歧义纠错能力" ---&
功能 3) ：关键词提取
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence为待提取的文本
topK为返回几个TF/IDF权重最大的关键词，默认值为20
代码示例（关键词提取）
/fxsjy/jieba/blob/master/test/extract_tags.py
功能 4) : 词性标注
标注句子分词后每个词的词性，采用和ictclas兼容的标记法
用法示例 &&&&import&jieba.posseg&as&pseg
&&&&words&=pseg.cut("我爱北京天安门")
&&&&for&w&in&words:
...&&&&print&w.word,w.flag
功能 5) : 并行分词
原理：将目标文本按行分隔后，把各行文本分配到多个python进程并行分词，然后归并结果，从而获得分词速度的可观提升
基于python自带的multiprocessing模块，目前暂不支持windows
jieba.enable_parallel(4)&# 开启并行分词模式，参数为并行进程数
jieba.disable_parallel()&# 关闭并行分词模式
实验结果：在4核3.4GHz Linux机器上，对金庸全集进行精确分词，获得了1MB/s的速度，是单进程版的3.3倍。
功能 6) : Tokenize：返回词语在原文的起始位置
注意，输入参数只接受unicode
result&=&jieba.tokenize(u'永和服装饰品有限公司')
for&tk&in&result:
&&&&print&"word&%s\t\t&start:&%d&\t\t&end:%d"&%&(tk[0],tk[1],tk[2])
word&永和&&&&&&&&&&&&&&&&start:&0&&&&&&&&&&&&&&&&end:2
word&服装&&&&&&&&&&&&&&&&start:&2&&&&&&&&&&&&&&&&end:4
word&饰品&&&&&&&&&&&&&&&&start:&4&&&&&&&&&&&&&&&&end:6
word&有限公司&&&&&&&&&&&&start:&6&&&&&&&&&&&&&&&&end:10
result&=&jieba.tokenize(u'永和服装饰品有限公司',mode='search')
for&tk&in&result:
&&&&print&"word&%s\t\t&start:&%d&\t\t&end:%d"&%&(tk[0],tk[1],tk[2])
word&永和&&&&&&&&&&&&&&&&start:&0&&&&&&&&&&&&&&&&end:2
word&服装&&&&&&&&&&&&&&&&start:&2&&&&&&&&&&&&&&&&end:4
word&饰品&&&&&&&&&&&&&&&&start:&4&&&&&&&&&&&&&&&&end:6
word&有限&&&&&&&&&&&&&&&&start:&6&&&&&&&&&&&&&&&&end:8
word&公司&&&&&&&&&&&&&&&&start:&8&&&&&&&&&&&&&&&&end:10
word&有限公司&&&&&&&&&&&&start:&6&&&&&&&&&&&&&&&&end:10
功能 7) : ChineseAnalyzer for Whoosh搜索引擎
引用：&from jieba.analyse import ChineseAnalyzer
用法示例：
占用内存较小的词典文件&
支持繁体分词更好的词典文件&
下载你所需要的词典，然后覆盖jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big')
模块初始化机制的改变:lazy load （从0.28版本开始）
jieba采用延迟加载，"import jieba"不会立即触发词典的加载，一旦有必要才开始加载词典构建trie。如果你想手工初始jieba，也可以手动初始化。
import&jieba
jieba.initialize()&#手动初始化（可选）
在0.28之前的版本是不能指定主词典的路径的，有了延迟加载机制后，你可以改变主词典的路径:
jieba.set_dictionary('data/dict.txt.big')
1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《围城》.txt
1）模型的数据是如何生成的？
2）这个库的授权是?&
更多问题请点击：
Change Log
jieba最新更新资讯，共20条&&(，)
8评/1529阅
3评/1028阅
1评/1232阅
授权协议：
开发语言：
操作系统：
收录时间：
-& 日&&（国产软件 or 国人参与）
Acemoon_ 发表于8个月前
fighting2014 发表于1年前
jhack 发表于2年前
Yemy 发表于2年前
，最后回答(2年前)：
新时代发表于2年前
，最后回答(2年前)：
Yemy 发表于2年前
，最后回答(2年前)：
朕当时就惊了发表于2年前
，最后回答(2年前)：
denisdou 发表于2年前
，最后回答(2年前)：
zrz55661 发表于2年前
，最后回答(2年前)：
GDUT-Phil 发表于2年前
吓人的鸟发表于3年前
，最后回答(2年前)：
dreamy1107 发表于2年前
，最后回答(2年前)：
wandh 发表于2年前
，最后回答(2年前)：
发表于2年前
，最后回答(2年前)：
csilc 发表于3年前
，最后回答(2年前)：
mew7wo 发表于3年前
：请问“结巴”输入数据文件的数据量大小有限制么？比如文件很大
：请教下语料库是怎么训练的？通过什么方法？
：你好。能否增加一个开关，用来关闭对“对于未登录词的处理”。这幅神奇的全景图还把远在法国境内的浮日山脉及远在德国境内的黑森林也都囊括在内。
格莱宾登地区的风干牛肉片以及提契诺的意大利特产。这两句话居然出现了新词“及远”“宾登”太难理解了
：有没有考虑jieba实现 whoosh的分词接口
：请问我要在一段文字里筛选出tag，怎么处理呢？比如我一段商品介绍，自动生成10关键字做tag
共有 45 个类似软件
IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年1...
盘古分词是一个基于 .net framework 的中英文分词组件。主要功能中文未登录词识别...
Jcseg[d??'ke's?]是使用Java开发的一个开源中文分词器，使用流行的mmseg算法实现...
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C...
更新至2.0版 1.增加规则 2.增加词性分词 3.JSON格式返回数据 http-scws(...
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的...
rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢，而且内...
中科院ICTCLAS (FreeICTCLAS)最新free开放源代码，里面有中文分词算法，大家一起共...
庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部...
1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg...
首先感谢jieba分词原作者fxsjy，没有他的无私贡献，我们也不会结识到结巴分词，更...
结巴分词插件(for elasticsearch)，目前支持0.90.*以上版本 --------------------...
共有 171 人关注 jiebaPython 类的定义 - lxgwm2008的专栏
- 博客频道 - CSDN.NET
Python 是完全面向对象的：你可以定义自已的类，从自已的或内置的类继承，然后从你定义的类创建实例。
在 Python 中定义类很简单。就像定义函数，没有单独的接口定义。只要定义类，然后就可以开始编码。Python 类以保留字 class 开始，后面跟着类名。从技术上讲，有这些就够了，因为一个类并非必须从其它类继承。
1. 最简单的& Python 类
class Loaf: (1)
(1)& 这个类的名字是 Loaf，它没有从其它类继承。类名通常是第一个字母大写，如：EachWordLikeThis，但这只是一个习惯，不是一个必要条件。
(2)& 这个类没有定义任何方法或属性，但是从语法上，需要在定义中有些东西，所以你使用 pass。这是一个 Python 保留字，仅仅表示 “向前走，不要往这看”。它是一条什么都不做的语句，当你删空函数或类时，它是一个很好的占位符。
(3)& 你可能猜到了，在类中的所有东西都要缩近，就像位于函数、if 语句，for 循环，诸如此类的代码。第一条不缩近的东西不属于这个类。
2. 定义& Fi le Info& 类
from UserDict import UserDict
class FileInfo(UserDict): (1)
(1)& 在 Python 中，类的基类只是简单地列在类名后面的小括号里。所以 FileInfo 类是从 UserDict 类 (它是从 UserDict模块导进来的 ) 继承来的。UserDict 是一个像字典一样工作的类，它允许你完全子类化字典数据类型，同时增加你自已的行为。(也存在相似的类 UserList 和 UserString ，它们允许你子类化列表和字符串。)
Python 支持多重继承。在类名后面的小括号中，你可以列出许多你想要的类名，以逗号分隔。
3. 初始化并开始类编码
本例演示了使用 __init__ 方法来进行 FileInfo 类的初始化。
class FileInfo(UserDict):
&store file metadata&
def __init__(self, filename=None): (2) (3) (4)
(1)& 类也可以 (并且应该) 有 doc strings ，就像方法和函数一样。
(2)& __init__ 在类的实例创建后被立即调用。它可能会引诱你称之为类的构造函数，但这种说法并不正确。说它引诱，是因为它看上去像 (按照习惯，__init__ 是类中第一个定义的方法)，行为也像 (在一个新创建的类实例中，它是首先被执行的代码)，并且叫起来也像 (“init”当然意味着构造的本性)。说它不正确，是因为对象在调用 __init__ 时已经被构造出来了，你已经有了一个对类的新实例的有效引用。但 __init__ 是在 Python 中你可以得到的最接近构造函数的东西，并且它也扮演着非常相似的角色。
(3)& 每个类方法的第一个参数，包括 __init__，都是指向类的当前实例的引用。按照习惯这个参数总是被称为 self。在 __init__ 方法中，self 指向新创建的对象；在其它的类方法中，它指向方法被调用的类实例。尽管当定义方法时你需要明确指定 self，但在调用方法时，你不用指定它，Python 会替你自动加上的。
(4)& __init__ 方法可以接受任意数目的参数，就像函数一样，参数可以用缺省值定义，即可以设置成对于调用者可选。在本例中，filename 有一个缺省值None，即 Python 的空值。
4. 编写& FileInfo& 类
class FileInfo(UserDict):
&store file metadata&
def __init__(self, filename=None):
UserDict.__init__(self)
self[&name&] = filename
(1)& 一些伪面向对象语言，像 Powerbuilder 有一种“扩展”构造函数和其它事件的概念，即父类的方法在子类的方法执行前被自动调用。Python 不是这样，你必须显示地调用在父类中的合适方法。
(2)& 我告诉过你，这个类像字典一样工作，那么这里就是第一个印象。我们将参数 filename 赋值给对象 name 关键字，作为它的值。
(3)& 注意 __init__ 方法从不返回一个值。
5. 了解何时去使用& self 和& __init__
当定义你自已的类方法时，你必须明确将 self 作为每个方法的第一个参数列出，包括 __init__。当从你的类中调用一个父类的一个方法时，你必须包括 self 参数。但当你从类的外部调用你的类方法时，你不必对 self 参数指定任何值；你完全将其忽略，而 Python 会自动地替你增加实例的引用。我知道刚开始这有些混乱，它并不是自相矛盾的，因为它依靠于一个你还不了解的区别 (在绑定与非绑定方法之间)，故看上去是矛盾的。
噢。我知道有很多知识需要吸收，但是你要掌握它。所有的 Python 类以相同的方式工作，所以一旦你学会了一个，就是学会了全部。如果你忘了别的任何事，也要记住这件事，因为我认定它会让你出错：
6. __init__ 方法
__init__ 方法是可选的，但是一旦你定义了，就必须记得显示调用父类的 __init__ 方法 (如果它定义了的话)。这样更是正确的：无论何时子类想扩展父类的行为，后代方法必须在适当的时机，使用适当的参数，显式调用父类方法。
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：244860次
积分：4126
积分：4126
排名：第3211名
原创：122篇
转载：260篇
评论：33条
(3)(2)(1)(8)(2)(6)(3)(1)(4)(3)(6)(1)(4)(1)(2)(5)(11)(11)(2)(30)(2)(7)(42)(35)(28)(48)(15)(7)(25)(10)(9)(4)(10)(2)(25)(7)}

51无线网