有没有好心人帮忙看一下这些mnist手写数字数据库大概分别代表什么。qq我能看懂,其他都看不懂大概代表什么。求好心

百度拇指医生
&&&普通咨询
您的网络环境存在异常,
请输入验证码
验证码输入错误,请重新输入数据说话!文本挖掘林夕、黄伟文的43万字歌词
本文转载自微信公众号“大数据文摘”,微信号:BigDataDigest作者/斑比在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——和之手,粉丝界也出了不少从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传"林夕引进门,皈依黄伟文"的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(话唠)?夕爷年均产量63首,歪闷年均产量11首。可以说夕爷绝对属于天道酬勤自带天赋的努力型选手,这应该也是夕爷在大陆知名度更高的主要原因,生产力带动了市场覆盖率,虽然歪闷没有夕爷那么高产,不过在含金量方面应该是更胜一筹的多金型选手,毕竟分母更小。接下来是对他们两人所有的歌词文本通过Python库(主要是jieba、snownlp)作分词、词性处理和情绪分析。我把每个文本里的"你、我、他"等单字和oh yeah之类的语气词去掉后,用剩下的词语分别生成了两人肖像字符云,上图是夕爷,下图是歪闷(排名不分先后)"没有"是两人词云里最突出的词"没有"是两人词云里最突出的词,前段时间有篇文章分析了香港四十年来歌曲关键字的变化,说在90年代后,歌坛关键词从以前的"相思、鸳鸯、我心"切换成了"没有",词云的结果就刚好对应上了这个结论,90年代后,夕爷和歪闷包揽了香港歌坛绝大部分传唱度高的词作,而这两人使用频度最高的词就是"没有"。夕爷的重点关键词:没有、一个、为何、怎么、什么、我们……相聚离开都有时候,没有什么会永垂不朽——《》如果对于明天没有要求,牵牵手就像旅游——《十年》没理由,相恋可以没有暗涌——《暗涌》没有得你的允许我都会爱下去——《钟无艳》( )一百年后没有你也没有我——《百年孤寂》歪闷的重点关键词:没有、一个、如何、什么、可以、为何……问我有没有,确实也没有,一直躲避的借口,非什么大仇——其实没有一种安稳快乐永远也不差——《喜帖街》没有心别再拖,好心一早放开我——《好心分手》我没有温柔,唯独有这点英勇——《勇》笑我这个毫无办法管束的野孩子,连没有幸福都不介意——《野孩子》从词性方面看两人平常惯用的招式下图分别是夕爷和歪闷的词性使用频度从词性来看两人惯用的前9招几乎是一模一样的:动词>名词>副词>形容词>代词>数词>连词>人名>时间词。一直到地名、其他名动词和方位词等才开始有所差别。为了看两人具体用词的差别,我对动词,名词等常用词接着做细分,上图夕爷,下图歪闷两人动词排名靠前的也很接近:没有、得到、需要,知道。在没有之后,有"需要",想"得到",也有领会("知道"),区别似乎是夕爷的在没有之后是"不会""恋爱"还念着"拥抱"("靠拥抱亦难任你拥有"——《富士山下》),歪闷的是"继续""恋爱"但是"害怕""没法"子("害怕一直也再没法恋爱"——《耿耿于怀》)。再看看名词方面,依然上图夕爷,下图歪闷两人一起提到最多的就是"世界",还有"情人"、"眼泪"、"时间",有情两个人就是世界,没有情世界就只剩一个人。世界将我包围,誓死都一起——一个人失眠,全世界失眠——《全世界失眠》这个世界最坏罪名,叫太易动情,但我喜欢这罪名——《无人之境》被世界遗弃不可怕,喜欢你有时还可怕——《垃圾》相对夕爷念叨的"伴侣"(我爱的人不爱我),歪闷有一个比较对立的词是"无人"(有谁来爱我)我信我有这一日,伴侣肯专注待我——《姊妹》爱若能够永不失去,何以你今天竟想找寻伴侣——《人来人往》有人问我,我就会讲,但是无人来——《浮夸》要是可爱,为何无人爱我——《可人儿》接着是形容词,上图夕爷,下图歪闷"快乐"、"幸福"、"寂寞"占比最高,只是夕爷的寂寞似乎更多。然后除了一些快乐寂寞类的抒情形容词,歪闷还多出了一些像"顽强"、"有趣"、"无聊"不那么主流的词,当然从夕爷年产63首的勤奋劲看对"无聊"的青睐也应该要少的多。《浮夸》如歪闷当然要"着最闪的衫",要"有趣"不要"无聊"。从时间词方面看两人更多地是偏爱什么时间状态前两图夕爷,后两图歪闷夕爷是"过去">"现在">"未来"歪闷是"现在">"过去">"未来"两人似乎都不怎么喜欢展望未来,区别是夕爷更缅怀过去:还记得当天旅馆的门牌,还留住笑着离开的神态——《约定》十年之前,我不认识你,你不属于我——《十年》陪着我像最初相识我当时未怕累——《假如让我说下去》歪闷是活在当下:霎眼已二十七岁,时日无多,方不敢偷懒——《陀飞轮》想不到当初我们也讨厌吃苦瓜,今天竟吃得出那睿智愈来愈记挂——《苦瓜》今天虽然长高了,墙上继续挂的还是我六岁的画——《黄色大门》关于最爱的季节在春夏秋冬里,夕爷跟歪闷都是更爱,自古诗人多伤春悲秋,不同的是夕爷的春秋只相差了10个百分点,而歪闷对春天属于压倒性宠爱,在四个季节里占了一半的比重。对植物的使用上夕爷喜欢"玫瑰"、"蔷薇"、"花"、"昙花"、"葡萄"、"满天星"、"百合"、"薄荷"等多是观赏性植物,重在营造意境。歪闷除了"蔷薇"、"百合"以外更多喜欢用"葡萄"、"苦瓜"、"洋葱"、"苹果"这些食用类的来描述人生个中滋味。地名词,看看哪些地方是两人各自的根据地夕爷的是:"天国"、"深海"、"城市"、"香港"、"爱河"、"东京"歪闷的是:"天国"、"满街"、"都市"、"花都"、"东京"、"冰岛"两人最大的共同点——"天国",然后是城市和东京,不过夕爷看来更喜欢水相关的像"深海"、"爱河",歪闷相对来说还是更喜欢在"满街","花都的"陆地。再看看他们畅游的世界板块从世界板块来说,两人都最喜欢亚洲,不过夕爷的亚洲比例是要远远超出其他洲的,更多的是喜欢说香港,北京,日本(突然想起了夕爷的神作《北京欢迎你》);夕爷关于日本也有不少热门曲目,像《富士山下》、《再见二丁目》、《如果东京不快乐》、《黑择明》等等歪闷则是从亚洲冲出欧洲,从香港东京,到冰岛巴黎蒙马特,这可能是他偏爱时尚,喜欢时装展的关系。当我看到南美洲这个地名的时候,突然想起了一首经典,就是歪闷作词,作曲和旁白,演唱的《这么远那么近》,下面是一大段张国荣性感的独白:我由布鲁坐火车去阿姆斯特丹, 望住窗外,飞越过几十个小镇,几千里土地,几千万个人。我怀疑,我们人生里面,唯一可以相遇的机会,已经错过了而歪闷的世界板块也真的像这首歌写的:我由亚洲一直飘到,南美洲两人的情感曲线分析我把情感分数高于0.6的歌词文本定义为整体用词是比较正面的,反之则是比较负面,先来看看夕爷的:可以看到夕爷的大部分是过了正面及格线的,并且很多刚好是踩线及格。歪闷的呢则是参差不齐,大起大落,有高有低,可以说正负两面一半一半吧。平日里听歌的时候,总觉得夕爷的歌词里满是惨兮兮惹人怜的情绪,而歪闷的相对是直面疮疤手起刀落的感觉,为什么文本情绪分析出来夕爷的歌词的正面意义高达70%,而歪闷的则是正负意义不相上下呢?我仔细想了一下,夕爷是引佛入词,虽然世事无常但是要从中解脱要包容要宽宏,虽然我爱的人不爱我但是"我们是朋友还可以问候","你掌心的痣我总记得在哪里","离开你六十年但愿能认得出你的子女"。所以正面的歌词文本是要远远超过负面,别忘了,夕爷还有《快乐崇拜》、《wuha》、《北京欢迎你》之类积极向上的歌曲(扶额)。而歪闷呢,更注重坦白内心的疮疤,虽然血迹斑斑但是要迎刃而解,我爱的人不爱我所以我"渡日月穿山水仍在恨那谁","你没有好结果,来让你一生最喜欢和珍惜那人也摧毁你一生完全没半点恻隐"但是"我为我生存""明日我必须振作","活得比你好",因此可以说表达的正负面意义是一半一半。好了,先收工。下回再看看更深入的挖掘。
正文已结束,您可以按alt+4进行评论
责任编辑:zacfang
扫一扫,用手机看新闻!
用微信扫描还可以
分享至好友和朋友圈
娱乐最深度
最新娱乐资讯
Copyright & 1998 - 2018 Tencent. All Rights Reserved下面这图有看懂的吗?这些分别代表着数字?下面排序的那四个小星星就是我要的数字。_百度知道
下面这图有看懂的吗?这些分别代表着数字?下面排序的那四个小星星就是我要的数字。
我有更好的答案
试下这组数字
试试2220或者7553
密码是7553,对不?
其他2条回答
为您推荐:
其他类似问题
小星星的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。单词全认识却看不懂句子怎么办? - 知乎<strong class="NumberBoard-itemValue" title="被浏览<strong class="NumberBoard-itemValue" title="7,956分享邀请回答pan.baidu.com/s/1mhXjlAo 密码: prnr 学习量: 每日踏踏实实完成20条长句即可,预计耗时1.5-2小时,共5天完成。
开始前准备: ①. 下载好的100条长难句,只需要当天的20条句子
②. 笔和纸
由第一句开始按照如下步骤完成: ①.查单词,扫清词汇障碍。注意:这100条句子全为说明议论性,单词并没有用生僻意,也没有文化背景的干扰。
②.多读几遍,如果能非常准确地把握意思,直接跳到下一条句子重复。如果看不懂,继续第3步。
③.按照句子顺序划出主语,按照文章中第一张图确定修饰语的「标识特征」,在这个过程中不断用笔在纸上画「树状结构图」。(参考上面的树形图) ④.完成后,确认句子的主干,即主谓宾。 ⑤.由主干确立句子的重点信息,然后开始从树枝还原句子意义,直至句子明白无误。 按照这个练习方法,你对句子结构的理解短期内回到飞快的提升。但是切记,一定要拥有基础的语法知识才可以开始练习。
4. 理解和逻辑弱由于逻辑弱导致的理解障碍其实是非常容易发生的。尤其是当我们阅读一个陌生领域的内容时,如果内容本身的逻辑关系复杂交错,难度大时,理解困难是非常正常的情况。实际上,这时候即便是看中文的相同内容,同一句话可能也要翻来覆去多看几遍才能理清逻辑关系,充分理解。
其实这种感觉很多人都经历过,如果你第一次阅读自己专业的英语原版教材,即便单词全都认识,初期也一定会感受到非常大的阅读压力。这一点,在国内上完本科,然后去国外读相同专业继续深造的同学一定深有体会。在阅读教材或者paper时,即便单词全都认识,但依然需要花费大量的时间和精力去理解每一句话,理清其中的逻辑关系。教材和paper的遵旨本来是通过简单,明确,易于理解的文字传递知识,其中含有上面说的长难句的可能性都很低,更不要说使用生僻字和文化背景了。在这种情况下,造成理解障碍的真正原因在于逻辑本身的复杂性,加上英语句子顺序不同,就让理解变得更加困难。
那么,一词多义,文化背景和语法薄弱的障碍都扫清后,对内容领域的不熟悉就一定是理解障碍的主要原因。那么当我们阅读并非我们专业内容的英语材料时,比如某些科普文,学术文,社科文等等,如何最大限度地消除障碍呢?这里有非常有用的技巧分享给大家。
开始前,以浏览的方式一次性搞定术语(terminology)。 我在去年开始学习Python时,直接开始阅读文档。由于是自己完全不熟悉的领域,即便单词全都认识,开始的速度依然非常慢,很大一个原因就是里面含有大量的术语,这些字眼令人非常困扰,严重影响理解。注意,这里的术语往往不是生僻字,比如在我自己的专业里,development这个词就可能指代不同的内容,这对于外行就是困扰。
所以在开始前,你最好就能用浏览的方式,凭借着你对这个主题的印象来快速分辨勾画出其中的专用术语。很多时候,这些术语很容易发现,你将他们收集归纳在一起,然后去搞清楚在这个特定的话题内容下,这些术语究竟是什么意思?注意,由于术语也可能是日常用词,所以我们一定要将其和日常用语中的意思区分开来,这会让我们的理解过程大大提高。 随便摘抄一段关于Python的部分介绍:
Some of Python's notable features:
Uses an elegant syntax, making the programs you write easier to read.
Is an easy-to-use language that makes it simple to get your program working. This makes Python ideal for prototype development and other ad-hoc programming tasks, without compromising maintainability.
Comes with a large standard library that supports many common programming tasks such as connecting to web servers, searching text with regular expressions, reading and modifying files.
Python's interactive mode makes it easy to test short snippets of code. There's also a bundled development environment called IDLE.
Is easily extended by adding new modules implemented in a compiled language such as C or C++.
Can also be embedded into an application to provide a programmable interface.那么这时你应该快速浏览全部文档,根据话题,出现频率,重点等标准定位术语,比如这里的syntax,program,prototype development,ad-hoc programming,maintainability,web servers,regular expressions,development environment等。
在一头扎入冗长的内容之前,先花精力将这些术语的意义搞清楚。记住,你要弄清楚这些terminology在相对应领域内的独特意义,这意味着你无法仅仅通过查字典的方式弄清释义,而要推敲这个词在这个领域内的特定意义。例如syntax在字典里的意思是「语法」,但是你要多花些精力,搞清楚在计算机领域内的「语法」究竟具体是指什么?同理,ad-hoc字典里是「专门的」,那么为什么计算机有ad-hoc programming存在呢?这些是需要你提前搞清楚的概念。
而通常,专业术语之间是彼此联系的。你会发现,当你将一篇长文,或者书籍的terminology都搞清楚了后,你脑海中已经自然而然建立起了一个知识脉络。还是以Python的文档为例,当你花费功夫将上面的术语搞清楚,其实对于小白的你,此时已经建立了编程了一个大体概念,凭借这一点,你再开始一头扎入文档中,逻辑复杂所能造成的理解障碍将会大打折扣。
术语的问题解决之后,有时候还是会遇到理解障碍的问题。其实,这种障碍对于外国人也是存在的。莫提默在《如何阅读一本书》中写道:一本书之所以能给你打来新的洞察力或者启发,就是因为其中有一些你不能一读就懂的字句。这句话就是说,当阅读内容本身复杂晦涩,逻辑交错时,读不懂是非常正常的。他这时将阅读比喻为拼图游戏,你总是要犯一些错误,总要融入一些自己的猜测,然后再继续阅读中不断地犯错,修正,直到拼图完完整整地展现在你面前。
只要你热爱英语,保持学习,「单词都认识句子却读不懂」就会是一个永远都存在的问题。
写了7000个字,你不点个赞吗? 相关阅读:有那么相见恨晚的背单词方法?Reference:
文中例句引用自: 1.9K68 条评论分享收藏感谢收起weixin.qq.com/r/Wkzn-5zEr8HQrdic9xlI (二维码自动识别)24221 条评论分享收藏感谢收起}

我要回帖

更多关于 数字和数据的区别 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信