预测分析和政治——第 1 部分

大多数阅读国际新闻的人或多或少都知道希腊的最新动态。情况很困难,公民在各种博客和论坛中的声音可以让我们了解希腊网络用户的看法。例如 : 哪些词出现频率最高? 哪些是最常出现的想法? 希腊政客必须改变的事情有哪些? 为了回答这些问题,我已经开始收集在前 120 个希腊博客、OpenGov 网站(希腊公民表达意见的国营网站)和其他几个希腊网站上找到的信息…… 数据/文本挖掘和信息提取最有趣的应用之一是政治。我开始从各种博客、网站和论坛收集信息,并应用信息提取和数据/文本挖掘技术来提取该领域潜在有用的知识。通过结合不同的信息片段,我们可以得出趋势,告诉我们未来会发生什么。 大多数阅读国际新闻的人或多或少都知道希腊的最新动态。

公民在各种博客和论坛

声音可以让我们了解希腊网络用户的看法。例如 : 哪些词出现频率最高? 哪些是最常出现的想法? 希腊政客必须改变的事情有哪些? 为了回答这些问题,我已经开始收集在排名前 120 位的希腊博客、OpenGov 网站(希腊公民发表意见的国营网站)和其他几个希腊经济内容网站上找到的信息。对于博客 whatsapp 手机号码列表 和论坛,Java 程序每 20 分钟扫描一次新信息: 然后将此信息发送到分析文本内容的注释引擎。一旦对文本进行分析,我们就可以 – 例如 – 生成一个关键字向量,我们稍后可以使用它来了解公民在 Web 上所说的内容。然后我们可以找到许多有趣问题的答案,例如: 乔治帕潘德里欧先生(希腊总理)与哪些词有关? 当有一些非常消极的词(例如咒骂)时,在同一文本中还发现了哪些其他词? 关键字趋势告诉我们什么。

whatsapp 手机号码列表

我们在公民帖子中发现越

来越多的脏话) 首先让我们看一些关于 OpenGov 网站的例子,数以千计的公民在该网站上表达了他们对希腊国家税收政策的意见。下图向我们展示了这些评论中书面文字之间的一些成对相关性: 在红色矩形下方出现两个词 ,在希腊语中分别表示“律师”和“医生”。这实质上告诉我们,这两个专业在公民讨论中经常一起使用。通过仔细查看 BSB 目录 这些消息,可以发现这两个行业的专业人士据说通过不开具收据来避税。 接下来我们可以使用关联规则学习来寻找一些更有趣的规则: 突出显示的规则虽然支持率低,但可能会很有趣:一部分公民要求对自由职业者和个体经营者进行更密切的税务欺诈监控。 除了规则学习之外,确定每个规则适用的总数据集的比例也很有趣。这也让我们有一种秩序感,不同的想法和思想在公民的脑海中存在。


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *