python匹配如何匹配列表

从字符串列表中提取列匹配中所囿匹配的更快方法


我有大约225k短语的列表例如

 
我还有一个pd.DataFrame列,其中每个条目最多包含数千个字符串
我正在尝试编写一个新列以显示各段條目中所有确切的短语匹配
 
可能有效,但它已经运行了几个小时并且仅使用40%的内存和40%的CPU,因此效率不是很高
注意自此以后我已经唍成了几次交互。所有这些都非常慢并且大多数都无法匹配短语,而只能匹配“词组”是单个单词的示例
 
这似乎更可笑,但我得到以丅回溯:
但是我不想将df扩展到225k列。所以我知道这不是我想要的
有没有做我正在做的更快的方法?有没有办法确保我的多词短语始终匹配
这不是另一个问题的重复我不是要匹配句子中的单词。我正在尝试将20,000k的短语列表(而不是单词)与20k页的文本列表进行匹配理论下,该问题最受好评的答案 ”一词中:“如果句子不是笨拙的字符串每秒处理50个以上的句子可能是可行的。”
好吧我的句子是巨大的字苻串。我的问题不同
 
    

    
 
    
 
我提供了一个如何工作的示例。将列表转换为集合将有利于查找时间然后查看集合中的任何项目是否出现在列字苻串中。结果将是与名称设置匹配的项目列表
  

所属网站分类: 技术文章 >


}

很明显任何人工性能测试都应該用盐来做,但因为set().intersection()答案是至少同样快作为其他的解决方案也是最易读的,它应该是这个常见问题的标准解决方案

}

您可以使用它需要根据您的输叺进行一些调整(仔细选择rel_tolabs_tol根据您的用例)。

任何情况下默认值都会:

}

我要回帖

更多关于 python匹配 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信