首页 > 都市娱乐 > 穿越：2014 > 第129章步步紧逼的追赶者(中)

第129章步步紧逼的追赶者(中)（1 / 2）

好书推荐：我能把梦中的一切带入现实重生六零年代，从中医开始女总裁的天命小天师网游之命轮之主家兄李世民创造互联天道时代第一氏族驭房之术这个锦衣卫明明超强却过分划水漫威：从忍界开始交易

哈雷·普来斯接着道：“总之，我觉得那个LH文本摘要准确度衡量模型对于我们来说非常不利。

或许我们可以参照LIN HUI的思路搞一个自己的衡量标准……”

埃克来尔·基尔卡加：“你说的这个问题我倒是也设想过。

可是参照LIN HUI的构建标准的过程进行模型构建并不容易。

按照LIN HUI的思路构建类似的标准的话。

首先我们需要运用语言模型来评估算法生成语言的流畅度，然后…

如果我们按照同样的步骤进行模型构建的话。

很可能会直接卡死在语言模型的构建上。

毕竟我们的语料库实在是太逊了……

我们以前合作的麻省理工学院NLP那边给出的报告

也证实了按LIN HUI的思路构建语言模型不可行。”

哈雷·普来斯：“麻省理工学院那帮人认为不可行，未必就真的不可行。

他们很有可能是他们在逃避责任而已。

反正我觉得完全可以试着借鉴LIN HUI的思路搞一个新的衡量标准。”

埃克来尔·基尔卡加：“你确定我们能够按照LIN HUI的思路弄出一个新模型么？

你怎么保证我们弄出的模型不会跟他搞得那个一模一样？”

哈雷·普来斯：“不管怎么说，我们也需要走这条路。

如果我们连他衡量准确度的模型都不能复现出来。

我们怎么知道他在这套模型究竟有没有猫腻？”

哈雷·普来斯接着道：“以前我们的语料库或许很low。

但现在我们采用的语料库没什么问题。

现在是加州大学伯克利分校的自然语言中心在和我们合作。

我们测试X1验证算法时可是由10万个文本–摘要序列所组成的语料库作训练集的……”

埃克来尔·基尔卡加反驳道：“不不不，这远远不够！

想要达到LIN HUI算法处理文本那种水平，我们起码需要百万级别文本-摘要序列组成的语料库做训练集。

而这还只是冰山一角。

我们还需要构建一个10^4级别带人工打分标签的文本–摘要序列作为验证集。

以及一个10^3级别的个人工交叉打分一致的文本–摘要序列作为测试集。

否则我们的衡量模型很可能达不到LIN HUI搞得那个模型那种置信度。”

哈雷·普来斯：“你的话确实有道理！

为了缩小边际误差最实际的方法就是增加样本数量。

百万级别文本-摘要序列组成的语料库倒是好说。

这个相比于十万级别的语料库。

构建难度只是线性增加而已。

但是你确定我们要构建你说的那般庞大的带人工标记的验证集和测试集吗？

仅仅是带人工打分标签的文本–摘要序列验证集保守估计就需要我们花费近一个月的时间去搭建。

这还得是我们还其他语言学专业通力合作不产生嫌隙的情况下。

而涉及到10^3级别人工交叉打分一致的文本–摘要序列测试集更是难上加难。

以前我们只构建过10^2级别的。

测试集的搭建每上涨一个数量级相应的构建难度可是指数级的往上增长。

先前我们为测试提取式摘要算法构建的那个150条文本交叉打分一致的测试集就用了将近两个月的时间。”

而且为什么我们还要引入人工因素？

新书推荐：农门春娇德云：从大师兄开始崛起直播：长得太凶，开局吓哭女主播花好田园清宫之香沁紫禁城食医小店天才中单少女竟退圈去了娱乐圈三生有幸的缘分路人甲穿越记鲜妻好甜蜜：老公，别太坏

第129章 步步紧逼的追赶者(中)（1 / 2）