基于深度学习的自然语言处理:PaddleNLP作业

https://exmachinelearning.github.io/PaddleNLP_Homework/

View the Project on GitHub

千言数据集:阅读理解之DuReader-yesno

1 介绍

本项目参考自官方的example,在此基础上增加了注释和实验。 DuReader-yesno数据集是一个以观点极性判断为目标任务的数据集,通过引入该数据集,可以弥补抽取类数据集的不足,从而更好地评价模型的自然语言理解能力,该数据集的任务定义如下: 对于一个给定的问题q、一系列相关文档D=d1, d2, …, dn,以及人工抽取答案段落摘要a,要求参评系统自动对问题q、候选文档D以及答案段落摘要a进行分析,输出每个答案段落摘要所表述的是非观点极性。其中,极性分为三类 {Yes, No, Depends}。其中:

2 准备和修改相关代码

2.1 准备相关代码

# 更新paddlenlp
!pip install --upgrade paddlenlp > /dev/null
# 新建文件夹code
!mkdir ~/code/ > /dev/null
# 下载example文件并将相关示例代码copy到code目录下
!git clone https://gitee.com/paddlepaddle/PaddleNLP.git ~/data 
!cp -r -n ~/data/examples/machine_reading_comprehension/DuReader-yesno/. ~/code/
# 进入code目录
%cd ~/code

2.2 修改相关代码进行训练

#训练开始
%cd ~/code
!bash train.sh

2.3 增加代码进行测试

# 进入code目录
%cd ~/code
#测试开始
!bash test.sh