如何分组/比较类似的新闻文章

作者：勤奋的瞌睡猪_715 | 2023-07-04 14:25

如何解决《如何分组/比较类似的新闻文章》经验，为你挑选了1个好方法。

在我正在创建的应用程序中,我想添加将新闻故事组合在一起的功能.我想将来自不同来源的同一主题的新闻报道分组到同一组中.例如,来自CNN和MSNBC的关于XYZ的文章将在同一组中.我猜它是某种模糊的逻辑比较.从技术角度来看,我该如何做到这一点？我有什么选择？我们还没有启动应用程序,因此我们不限制我们可以使用的技术.

在此先感谢您的帮助!

1> Donald Miner..：

从机器学习的角度来看,这个问题分解为几个子问题.

首先,您将要了解要基于的新闻报道的哪些属性.一种常见的技巧是使用"单词包":只是出现在故事正文或标题中的单词列表.您可以执行一些其他处理,例如删除不提供任何含义的常用英语" 停用词 ",例如"the","because".你甚至可以做搬运工词干与复数词与词结尾,如" -离子"消除冗余.该单词列表是每个文档的特征向量,将用于度量相似性.您可能必须执行一些预处理以删除html标记.

其次,您必须定义相似性度量:类似的故事在相似性方面得分高.与字方针袋一起去,两个故事都是相似的,如果他们对他们有类似的话(我含糊其辞在这里,因为有吨的东西,你可以试试,你必须看看哪个效果最好).

最后,您可以使用经典的聚类算法,例如k-means聚类,它根据相似性度量将故事组合在一起.

总结:将新闻故事转换为特征向量 - >基于此特征向量定义相似性度量 - >无监督聚类.

看看谷歌学者,在最近的文献中可能有一些关于这一特定主题的论文.我刚才讨论的很多这些东西都是在大多数主要语言的自然语言处理和机器学习模块中实现的.

推荐阅读

程序员
为什么在Metal中不允许的片段着色器中写入缓冲区？

如何解决《为什么在Metal中不允许的片段着色器中写入缓冲区？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Visual Studio Code中自动添加NuGet依赖项和使用语句？

如何解决《在VisualStudioCode中自动添加NuGet依赖项和使用语句？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以使materialize.css模式更大并删除垂直滚动条？

如何解决《是否可以使materialize.css模式更大并删除垂直滚动条？》经验，为你挑选了1个好方法。 ... [详细]
程序员
.NET 2.0运行时的LINQ

如何解决《.NET2.0运行时的LINQ》经验，为你挑选了6个好方法。 ... [详细]
程序员
在没有Visual Studio的情况下为ASP.NET-MVC开发

如何解决《在没有VisualStudio的情况下为ASP.NET-MVC开发》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Java中创建自定义JButton

如何解决《在Java中创建自定义JButton》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何定义具有潜在子元素和属性属性的自定义web.config节？

如何解决《如何定义具有潜在子元素和属性属性的自定义web.config节？》经验，为你挑选了3个好方法。 ... [详细]
程序员
简单的AJAX WebControls方式

如何解决《简单的AJAXWebControls方式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从内容页面后面的代码更改母版页的背景？

如何解决《如何从内容页面后面的代码更改母版页的背景？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在.NET 2.0中实现BDD/TDD的最佳方法是什么？

如何解决《在.NET2.0中实现BDD/TDD的最佳方法是什么？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在IDE或构建脚本中对Flex应用程序进行单元测试？

如何解决《如何在IDE或构建脚本中对Flex应用程序进行单元测试？》经验，为你挑选了1个好方法。 ... [详细]
程序员
数据集与数据集

如何解决《数据集与数据集》经验，为你挑选了4个好方法。 ... [详细]
程序员
在Eclipse中,为什么"自动构建"会被神秘地禁用？

如何解决《在Eclipse中,为什么"自动构建"会被神秘地禁用？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用CherryPy配置IP地址？

如何解决《如何使用CherryPy配置IP地址？》经验，为你挑选了3个好方法。 ... [详细]
程序员
为快速搜索DB2索引空值

如何解决《为快速搜索DB2索引空值》经验，为你挑选了1个好方法。 ... [详细]
程序员
什么时候(和错误的时间)使用反引号？

如何解决《什么时候(和错误的时间)使用反引号？》经验，为你挑选了5个好方法。 ... [详细]
程序员
如何在Windows上静态编译SDL游戏

如何解决《如何在Windows上静态编译SDL游戏》经验，为你挑选了1个好方法。 ... [详细]
程序员
小网站图片的格式是什么？GIF还是PNG？

如何解决《小网站图片的格式是什么？GIF还是PNG？》经验，为你挑选了4个好方法。 ... [详细]
程序员
轻量级X窗口管理器/环境

如何解决《轻量级X窗口管理器/环境》经验，为你挑选了3个好方法。 ... [详细]
程序员
从实时视频设备捕获图像以供基于Java的应用程序使用的最佳方法是什么？

如何解决《从实时视频设备捕获图像以供基于Java的应用程序使用的最佳方法是什么？》经验，为你挑选了1个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章