2023-2024山东大学软件学院web数据管理期末

作者 : admin 本文共394个字,预计阅读时间需要1分钟 发布时间: 2024-06-16 共1人阅读

一、填空(30*1′ = 30’)

都是PPT上的,这里列几个复习可能忽略掉的地方:

word2vec是用来计算____和___(king-man+woman)

爬虫模型使用___判重

fastText是一个_____和_____工具,使用_____方法/概念。

PLSA的全称是______。它通过文档-词项信息  p (w | d)  进行训练,得到______和________。

csv文件是_____结构化文件

其余的题都比较基础,一眼能知道答案(只要好好看PPT了的话…..)

 

二、名词解释(5*8′ = 40’)

1. 正则表达式

2. web数据抽取

3. HMM模型

4. Bag of words model

5. 忘了(但不难)—统计语言模型

三、简答题(3*10’=30’)

1. 简述包装器,比较两种抽取方法

2. CBOW的结构、思想、训练过程及应用

3. 常用的图像局部特征,以及它们的思想

 

 

还是那句话,做好事积德……

 

本站无任何商业行为
个人在线分享 » 2023-2024山东大学软件学院web数据管理期末
E-->