博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
将文本按行标识符进行分割
阅读量:6079 次
发布时间:2019-06-20

本文共 669 字,大约阅读时间需要 2 分钟。

def split_docs(lines, separator):    """    :note: The English sentence is in the front,        the Chinese sentence is in the back,        and the two are separated by a separator.    """    if not lines:        return [], []    eng_lines = []    chn_lines = []    chn_begin_condition = False    for line in lines:        if chn_begin_condition:            chn_lines.append(line)        else:            chn_begin_condition = line.lstrip().startswith(separator)            if not chn_begin_condition:                eng_lines.append(line)    return eng_lines, chn_lines

 

posted on
2019-04-12 11:29 阅读(
...) 评论(
...)

转载于:https://www.cnblogs.com/wenlin-gk/p/10694977.html

你可能感兴趣的文章
京东商城CEO徐雷年会演讲:我们抗住风霜 业务基本面良好
查看>>
德国飞往意大利民航客机机翼撕裂 途中乘客发现裂痕
查看>>
菜鸟保税仓成全球商家进中国首选 秒级通关领先全球
查看>>
退休延迟致新老职员共事 澳大利亚管理者面临挑战
查看>>
适当时公布?新西兰会否重启父母团聚移民引关注
查看>>
春运中的“洋导游”
查看>>
探访高铁“火花侠”驾驶火龙专列 脚下钢花飞溅
查看>>
2019年美联储加息若放缓有何影响?外汇局回应
查看>>
2018年访日外国游客消费创新高 中国大陆居首
查看>>
瓜子二手车保障消费新举措 首家12315维权服务站于呼市成立
查看>>
2019CBA全明星周末举行正赛 南方明星队获胜
查看>>
韩国最大比特币交易所Bithumb被黑客攻击,损失超过350亿韩元
查看>>
如何在 Scala 中利用 ADT 良好地组织业务
查看>>
几种常见的CSS布局
查看>>
Netflix最新视频优化实践:用更少的带宽打造完美画质
查看>>
基于Spring Boot实现图片上传/加水印一把梭操作
查看>>
关于js、jq零碎知识点
查看>>
有赞跨平台长连接组件设计及可插拔改造
查看>>
高德,腾讯地图 --> 逆地址解析(坐标位置描述)
查看>>
nodejs流之行读取器例子
查看>>