2022-09-13

Paddlepaddle Applications

tips

you can find solutions from kaggle notebooks or aistudio notebooks. you may consider to query them conveniently in one api.

repo location (all source code can be found there)

archive zip

git repo

🎉全新发布

3月31日晚8:30，飞桨产业实践范例直播课程继续开讲！！！

国内众多行业都在基于人工智能技术推进行业变革与创新，积极探寻有效、有价值的应用场景进行商业化落地。百度飞桨结合实际经验，选取了几个经典的场景，提供了从数据准备、模型训练优化，到模型部署的全流程可复用方案，降低产业落地门槛,让大家在真实数据环境下深入地了解这些案例，获取产业实现方案。

3月31日晚8:30，飞桨官方将推出火灾烟雾检测产业实践范例直播：

火灾烟雾检测

此外，还有交通、能源、金融、通信、互联网、零售及教育等等各个行业的精彩范例，大家拭目以待～

欢迎报名直播课加入交流群，如需更多技术交流与合作可扫描下面二维码：

往期案例直播回放：

案例	直播回放
花样滑冰	https://aistudio.baidu.com/aistudio/education/lessonvideo/2251581
多模态视频打标签	https://aistudio.baidu.com/aistudio/education/lessonvideo/2251583
视频精彩时刻剪辑	https://aistudio.baidu.com/aistudio/education/lessonvideo/2257667
电瓶车进电梯检测	https://aistudio.baidu.com/aistudio/education/lessonvideo/2273969
异常行为识别	https://aistudio.baidu.com/aistudio/education/lessonvideo/2273989
多类别车辆跟踪	https://aistudio.baidu.com/aistudio/education/lessonvideo/2274692
多类别电表读数识别落地方案	https://aistudio.baidu.com/aistudio/education/lessonvideo/2309177
多类别通信塔识别	https://aistudio.baidu.com/aistudio/education/lessonvideo/2377623
基于车载影像的驾驶环境感知	https://aistudio.baidu.com/aistudio/education/lessonvideo/2376819

一、项目简介

本项目是飞桨官方出品的一站式深度学习在线百科，飞桨致力于让深度学习技术的创新与应用更简单，更多飞桨内容欢迎访问飞桨官网。本项目内容涵盖：

📒课程类：零基础实践深度学习、产业实践深度学习、**特色课程、飞桨套件课程汇总资料**

📒书籍类：《动手学深度学习》paddle版

📒宝典类：深度学习百问、面试宝典

📒案例类：**飞桨产业实践范例库**（包含智慧城市：火灾烟雾检测、安全帽检测；智能制造：钢材缺陷检测、机械手抓取；互联网：财报识别与关键字段抽取等。

从理论到实践，从科研到产业应用，各类学习材料一应俱全，旨在帮助开发者高效地学习和掌握深度学习知识，快速成为AI跨界人才。

内容全面：无论您是深度学习初学者，还是资深用户，都可以在本项目中快速获取到需要的学习材料。
形式丰富：材料形式多样，包括可在线运行的notebook、视频、书籍、B站直播等，满足您随时随地学习的需求。
实时更新：本项目中涉及到的代码均匹配Paddle最新发布版本，开发者可以实时学习最新的深度学习任务实现方案。
前沿分享：定期分享顶会最新论文解读和代码复现，开发者可以实时掌握最新的深度学习算法。

如果本项目对您有帮助，欢迎点击网页右上方进行star❤️

👨‍🏫我是高校用户

我希望：	我可以学习：
入门深度学习	零基础实践深度学习:arrow_heading_down:、深度学习百问:arrow_heading_down:、动手学深度学习paddle版:arrow_heading_down:
进阶深度学习	产业实践深度学习、深度学习百问:arrow_heading_down:、面试宝典:arrow_heading_down:
趣味深度学习	特色课程:arrow_heading_down:、飞桨产业实践范例库

👷‍♂️我是企业用户

我希望：	我可以学习：
入门深度学习	零基础实践深度学习:arrow_heading_down:、深度学习百问:arrow_heading_down:、动手学深度学习paddle版:arrow_heading_down:
进阶深度学习	产业实践深度学习、特色课程:arrow_heading_down:、面试宝典:arrow_heading_down:
实践深度学习	飞桨产业实践范例库、飞桨各产品课程:arrow_heading_down:

二、项目内容

👉课程类

零基础实践深度学习

**AI Studio在线课程：[《零基础实践深度学习》](https://aistudio.baidu.com/aistudio/course/introduce/1297

)**：理论和代码结合、实践与平台结合，包含20小时视频课程，由百度杰出架构师、飞桨产品负责人和资深研发人员共同打造。

《零基础实践深度学习》书籍：本课程配套书籍，由清华出版社2020年底发行，京东/当当等电商均有销售。

特色课 - Transformer系列

飞桨教育官方出品的Transformer系列内容解读可以参考以下两个平台。

Transformer原理和实践系列课：https://aistudio.baidu.com/aistudio/education/group/info/24683
飞桨教育官方账号：https://aistudio.baidu.com/aistudio/personalcenter/thirdview/908086

领域	章节名称	课程简介	notebook链接
NLP	经典的预训练语言模型(上)-预训练模型发展历史	介绍预训练语言模型的发展历史，word2vec，elmo，bert，gpt，bert一些拓展。	notebook链接
NLP	经典的预训练模型(上)-ELMo	全面详细的介绍ELMo模型结构，优缺点等。	notebook链接
NLP	经典的预训练模型(上)-Transformer	讲解Transformer的基本原理，包括Embedding，self-attention，encoder，decoder，复杂度计算，共享机制等内容。	notebook链接
NLP	经典的预训练模型(下)-GPT	全面详细的介绍GPT的原理，预训练和finetune模式，GPT模型结构，优缺点等。	notebook链接
NLP	经典的预训练模型(下)-BERT	全面详细的介绍BERT的基本原理，预训练任务和fine tune的方式，BERT本身的模型结构，优缺点等。	notebook链接
NLP	预训练模型之自然语言理解-RoBERTa	讲解预训练模型在自然语言理解方面的改进–RoBERTa	notebook链接
NLP	预训练模型之自然语言理解-ERNIE	讲解预训练模型之自然语言理解的改进：ERNIE	notebook链接
NLP	预训练模型之自然语言理解-KBERT	讲解预训练模型之自然语言理解的改进：KBERT	notebook链接
NLP	预训练模型之自然语言理解-THU-ERNIE	讲解预训练模型之自然语言理解的改进：THU-ERNIE	notebook链接
NLP	预训练模型之长序列建模-Transformer-XL	讲解预训练模型之长序列建模的改进：Transformer-XL	notebook链接
NLP	预训练模型之长序列建模-XLNet	讲解自然语言理解之长序列建模的改进：XLNet	notebook链接
NLP	预训练模型之长序列建模-Longformer	讲解预训练模型之长序列建模的改进：Longformer	notebook链接
模型优化	预训练模型-高效结构	基于ELECTRA的标点符号预测	notebook链接
模型优化	预训练模型-蒸馏	预训练模型蒸馏算法：Patient-KD、DistilBERT、TinyBERT、DynaBERT模型详解，以及使用DynaBERT策略对TinyBERT进行模型蒸馏	notebook链接
CV	图像领域的Transformer-Vit,DeiT	详细讲解ViT 以及 DeiT原理	notebook链接
CV	图像领域的Transformer-Swin Transformer	详细讲解Swin Transformer原理	notebook链接
CV	CV领域的Transformer模型DETR在目标检测任务中的应用	详细讲解DETR原理及代码解析	notebook链接

返回:arrow_heading_up:

👉书籍类

《动手学深度学习》paddle版

本项目将《动手学深度学习》原书中MXNet代码实现改为PaddlePaddle实现。原书作者：阿斯顿·张、李沐、扎卡里 C. 立顿、亚历山大 J. 斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh。

本项目面向对深度学习感兴趣，尤其是想使用PaddlePaddle进行深度学习的童鞋。本项目并不要求你有任何深度学习或者机器学习的背景知识，你只需了解基础的数学和编程，如基础的线性代数、微分和概率，以及基础的Python编程。

返回:arrow_heading_up:

👉宝典类

深度学习百问

深度学习百问内容包含深度学习基础篇、深度学习进阶篇、深度学习应用篇、强化学习篇以及面试宝典，详细信息请参阅Paddle知识点文档平台。

深度学习基础篇

深度学习进阶篇

深度学习应用篇

产业实践篇

强化学习篇

强化学习

面试宝典

返回:arrow_heading_up:

👉案例类

飞桨应用案例集

领域	产业案例	来源	更多内容
智能工业	厂区传统仪表统计监测	飞桨官方	更多飞桨案例
智能工业	新能源汽车锂电池隔膜质检	飞桨官方	更多飞桨案例
智能工业	天池铝材表面缺陷检测	飞桨官方	更多飞桨案例
智能工业	安全帽检测	飞桨官方	更多飞桨案例
智慧城市	高尔夫球场遥感监测	飞桨官方	更多飞桨案例
智慧城市	积雪语义分割	飞桨官方	更多飞桨案例
智慧城市	戴口罩的人脸识别	飞桨官方	更多飞桨案例
智慧交通	车道线分割和红绿灯安全检测	飞桨官方	更多飞桨案例
智慧交通	【PaddleDetection2.0专项】PP-YOLOv2	飞桨PaddleDet	更多paddleDet案例
智慧交通	PaddleX助力无人驾驶（基于YOLOv3的车辆检测和车道线分割）	开发者BIT可达鸭	更多飞桨案例
智慧交通	eblite_标志物检测	开发者TobeWell	更多飞桨案例
智慧交通	PaddleOCR: 车牌识别	飞桨开发者寂寞你快进去	更多飞桨案例
智慧农林	耕地地块识别	飞桨官方	更多飞桨案例
智慧农林	AI识虫	飞桨官方	更多飞桨案例
智慧农林	更快更强！高效快速的PP-YOLO实战演练	飞桨PaddleDet	更多paddleDet案例
智慧农林	PaddleX快速上手-Faster RCNN目标检测	飞桨PaddleX	更多PaddleX案例
智慧农林	AI识虫检测分享	开发者aaaLKgo	更多飞桨案例
智慧农林	基于PaddleX实现森林火灾监测	飞桨官方	更多飞桨案例
智慧医疗	医学常见中草药分类	飞桨官方	更多飞桨案例
智慧医疗	眼疾识别	飞桨官方	更多飞桨案例
智慧医疗	基于Paddle的肝脏CT影像分割	开发者代码生成器	更多飞桨案例
智慧医疗	PaddleHub 肺炎CT影像分析	飞桨PaddleHub	更多PaddleHub案例
智慧医疗	基于飞桨PGL的高致病性传染病的传播趋势预测基线系统	飞桨官方	更多飞桨案例
其他	人摔倒检测	开发者Niki_173	该开发者更多案例
其他	足球比赛动作定位	飞桨官方	更多飞桨案例
其他	基于强化学习的飞行器仿真	飞桨官方	更多飞桨案例
其他	基于ERNIE-Gram实现语义匹配	飞桨官方	更多飞桨案例
其他	『NLP打卡营』实践课5：文本情感分析	飞桨PaddleNLP	更多飞桨PaddleNLP案例
其他	『NLP经典项目集』03：利用情感分析选择年夜饭	飞桨PaddleNLP	更多飞桨PaddleNLP案例
其他	分类任务：如何在客服对话中，识别客户情绪的好坏	开发者中大bbking	更多飞桨案例
其他	『NLP打卡营』实践课3：使用预训练模型实现快递单信息抽取	飞桨PaddleNLP	更多飞桨PaddleNLP案例
其他	发愁七夕文案？PaddleHub情话生成送给你 (文内含七夕抽奖)	飞桨PaddleHub	更多PaddleHub案例
其他	基于PaddleDetection的PCB瑕疵检测	飞桨官方	更多飞桨案例
其他	基于百度飞桨的单/多镜头行人追踪（非官方Baseline）	开发者BIT可达鸭	更多飞桨案例
其他	PaddleLite树莓派从0到1：安全帽检测小车部署（一）	开发者深渊上的炕	更多飞桨案例
其他	PaddleX、PP-Yolo：手把手教你训练、加密、部署目标检测模型	开发者深渊上的炕	更多飞桨案例
其他	中文语音识别	飞桨官方	更多飞桨案例
其他	PaddleHub一键OCR中文识别(超轻量8.1M模型，火爆)	飞桨官方	更多飞桨案例
其他	老北京城影像修复	飞桨PaddleGAN	更多PaddleGAN案例
其他	飞桨创意之星宋代诗人念诗的秘密——PaddleGAN实现精准唇形合成	飞桨官方	更多飞桨案例
其他	通过OCR实现验证码识别	飞桨官方	更多飞桨案例
其他	PaddleHub一键OCR中文识别（超轻量8.1M模型，火爆）	飞桨PaddleHub	更多PaddleHub案例
其他	全流程，从零搞懂基于PaddlePaddle的图像分割	开发者nanting03	更多飞桨案例
其他	负荷预测0.1	开发者gaomaosheng0	更多飞桨案例
其他	AI 实现皮影戏，传承正在消失的艺术	开发者Zohar	更多飞桨案例
其他	『深度学习7日打卡营』人脸关键点检测	开发者TC.Long	更多飞桨案例
强化学习	DDPG算法应用于股票量化交易	开发者	更多飞桨案例

飞桨学术案例集

技术方向	学术案例	来源	更多内容
机器学习	鸢尾花分类	AIStudio官方	更多飞桨案例
前馈神经网络	波士顿房价预测	开发者AIStudioHelper	更多飞桨案例
图像分类	手写数字识别	AIStudio官方	更多飞桨案例
图像分类	猫狗分类	AIStudio官方	更多飞桨案例
图像分类	图像分类网络VGG在多表情识别任务中的应用	开发者之雍Jerry	更多飞桨案例
图像分类	图像分类-ResNet	开发者笨笨	更多飞桨案例
图像分类	用PaddlePaddle实现图像分类-SE_ResNeXt	AIStudio官方	更多飞桨案例
图像分类	深入理解图像分类中的Transformer-Vit,DeiT	PaddleEdu	更多飞桨案例
图像分类	Swin Transformer	PaddleEdu	更多飞桨案例
图像分类	小样本学习(Few-Shot Learning)	开发者DeepGeGe	更多飞桨案例
图像分割	经典实例分割模型Mask RCNN	AIStudio官方	更多飞桨案例
图像分割	PaddleSeg_DeepLabv3+	飞桨PaddleSeg	更多飞桨案例
图像分割	基于PaddlePaddle的语义分割DeepLabV3+实现	AIStudio官方	更多飞桨案例
图像检测	深度学习进阶-目标检测	AIStudio官方	更多飞桨案例
图像检测	一文详解yolov3目标检测算法	开发者AIStudio96069	更多飞桨案例
图像检测	CV领域的Transformer模型DETR在目标检测任务中的应用	PaddleEdu	更多飞桨案例
视频分类	TSN视频分类	PaddleEdu	更多飞桨案例
视频分类	Paddle2.1实现视频理解经典模型 — TSM	PaddleEdu	更多飞桨案例
视频分类	基于Attention和Bi-LSTM实现视频分类	PaddleEdu	更多飞桨案例
视频分类	CV领域的Transformer模型TimeSformer实视频理解	PaddleEdu	更多飞桨案例
GAN	一文搞懂生成对抗网络之经典GAN（动态图、VisualDL2.0）	开发者FutureSI	更多飞桨案例
GAN	基于PaddlePaddle的StarGAN,AttGAN,STGAN算法	AIStudio官方	更多飞桨案例
OCR	文字识别-CRNN	开发者哦吼	更多飞桨案例
NLP	基于ERNIE实现9项GLUE任务	PaddleEdu	更多飞桨案例
NLP	NLP领域的XLNet模型在情感分析中的应用	PaddleEdu	更多飞桨案例
NLP	NLP领域中的ERNIE模型在阅读理解中的应用	PaddleEdu	更多飞桨案例
NLP	NLP领域的ELECTRA在符号预测上的应用	PaddleEdu	更多飞桨案例
NLP	NLP领域的Transformer在机器翻译上的应用	PaddleEdu	更多飞桨案例
NLP	【Paddle打比赛】讯飞赛题—中文问题相似度挑战赛0.9+Baseline	PaddleEdu	更多飞桨案例
NLP	用PaddlePaddle实现BERT	AIStudio官方	更多飞桨案例
多模态	【Paddle CLIP】你写啥他画啥，一个专属于你的小画家	PaddleFleet	更多飞桨案例
强化学习	从代码到论文理解并复现MADDPG算法(PARL)	开发者Mr.郑先生_	更多飞桨案例
推荐	[基于DeepFM 模型的点击率预估](https://github.com/PaddlePaddle/awesome-DeepLearning/tree/master/examples/DeepFM for CTR Prediction)	PaddleEdu	更多飞桨案例
推荐	基于DSSM的电影推荐	AIStudio官方	更多飞桨案例
知识蒸馏	基于CIFAR100的SSLD蒸馏实验	PaddleClas	更多飞桨案例

返回:arrow_heading_up:

👉竞赛类

领域	竞赛案例	来源	介绍
机器学习	【Paddle打比赛】个贷违约预测Baseline+ 0.607	开发者w5688414	DataFountain个贷违约预测，参考官方的baseline并用paddle进行改进
NLP	【Paddle打比赛】讯飞赛题—中文问题相似度挑战赛0.9+Baseline	PaddleEdu	中文问题相似度挑战赛paddle版本Baseline，基于paddlenlp通过预训练模型的微调完成问题相似度评定任务
NLP	基于PaddleHub的疫情期间网民情绪识别	开发者CChan	本项目为疫情期间网民情绪识别比赛的解决方案。使用了PaddleHub和ERNIE实现对疫情期间微博文本的情绪识别。
NLP	【Paddle打比赛】产品评论观点提取竞赛baseline	开发者w5688414	DataFountain基于BERT的产品评论观点提取竞赛baseline，增加了优化方法
NLP	【Paddle打比赛】剧本角色情感识别baseline-精度0.676	开发者w5688414	剧本角色情感识别baseline，使用bert模型
语音	【Paddle打比赛】语音合成	开发者XYZ_916	2021 新网银行智能语音大赛baseline。截止2021.11.17，该方案在总分榜第一，作品榜第二
CV	中文场景文字识别挑战赛baseline	小度AIStudio	中文场景文字识别挑战赛的baseline项目, 用于参赛选手借鉴参考
CV	【Paddle打比赛】手写字体OCR识别竞赛baseline	开发者Pink peach	2021世界人工智能创新大赛，手写字体OCR识别竞赛baseline
CV	2020 CCF BDCI: 遥感影像地块分割baseline	开发者lxastro	2020 CCF BDCI: 遥感影像地块分割的baseline模型库，包括baseline模型的训练方法和比赛的评测脚本。
CV	第三届中国AI+创新创业大赛：半监督学习目标定位竞赛第1名方案	开发者张牙舞爪	半监督学习目标定位竞赛第一名方案分享 A榜得分0.81425 B榜得分0.80428
数据挖掘	【Padddle打比赛】心电图智能诊断竞赛Baseline-0.6765	开发者w5688414	AIWIN 心电图智能诊断竞赛

返回:arrow_heading_up:

👉汇总

飞桨各产品学习资料汇总

产品	视频课程	学习文档
PaddleGAN	生成对抗网络七日打卡营
PaddleOCR	OCR自动标注小工具讲解、3.5M超轻量实用OCR模型解读、OCR应用与部署实战
PaddleClas	PaddleClas系列直播课
PaddleDetection	目标检测7日打卡营
PaddleX	PaddleX实例分割任务详解、PaddleX目标检测任务详解、PaddleX语义分割任务详解、PaddleX图像分类任务详解、PaddleX客户端操作指南、飞桨全流程开发工具PaddleX
PaddleHub	手把手教你转换PaddleHub模型教程
VDL	可视化分析工具助力AI算法快速开发、深度学习算法可视化调优实战演示
高层API	高层API助你快速上手深度学习
PaddleNLP	基于深度学习的自然语言处理

返回:arrow_heading_up:

三、技术交流

非常感谢您使用本项目。您在使用过程中有任何建议或意见，可以在 Issue 上反馈给我们，也可以通过扫描下方的二维码联系我们，飞桨的开发人员非常高兴能够帮助到您，并与您进行更深入的交流和技术探讨。

四、许可证书

本项目的发布受Apache 2.0 license许可认证。

五、贡献内容

本项目的不断成熟离不开各位开发者的贡献，如果您对深度学习知识分享感兴趣，非常欢迎您能贡献给我们，让更多的开发者受益。

本项目欢迎任何贡献和建议，大多数贡献都需要你同意参与者许可协议（CLA）来声明你有权并实际上授权我们可以使用你的贡献。

代码贡献规范

pip install pre-commit

pre-commit install

添加修改的代码后，对修改的文件进行代码规范，pre-commit 会自动调整代码格式，执行一次即可，后续commit不需要再执行。提交pr流程，详见：awesome-DeepLearning 提交 pull request 流程。

贡献者

以下是awesome-DeepLearning贡献者列表： yang zhou，Niki_173，Twelveeee，buriedms，AqourAreA，zhangjin12138，rerny，LiuCongNLP，LemonCherryFu, lutianhao

关于直播的思路

可以用长音频长视频替代直播源

Yukio 23:00:49

这个我还在研究这玩意

卑劣的写作者 23:01:13

[图片]

Yukio 23:01:19

尤其是怎么把别人的皮套拿来当成自己的

Yukio 23:01:44

追踪虚拟Vtuber的动作然后放到我的皮套上

Yukio 23:02:50

搞媒体不都靠抄么

Yukio 23:03:38

你们要是能把别人一个月之前的直播弄下来视频音频分别杂交处理一下弄的人看不出来是抄的

卑劣的写作者 23:03:48

那不是塞里斯特色媒体吗

Yukio 23:03:50

你就躺赚啊

gjz010 23:03:52

你偷大物皮套感觉会被版权炸弹

gjz010 23:04:13

你看即使是怪盗也不敢把自己的皮套偷过来用

gjz010 23:04:48

那你还不如用阿b的公用皮套

Yukio 23:04:49

你随便弄个b站提供的免费皮套

Yukio 23:05:00

或者原神的

Yukio 23:05:32

一天换一个啊肯定有人看的

gjz010 23:05:44

也不一定

gjz010 23:05:58

皮套有商标的意味

Yukio 23:06:03

把别人的皮套动作追踪之后绑定到免费皮套上面

gjz010 23:06:14

啥皮套动作不都是跟着你走的吗

gjz010 23:06:20

偷别人的动作有啥用

Yukio 23:06:20

把别人的中文语音截取下来随机播放

gjz010 23:06:30

你还不如找个ai念

Yukio 23:06:39

我为什么要绑我的动作

gjz010 23:06:54

就是不追踪瞎摇的

gjz010 23:07:01

动捕坏了的时候用

Yukio 23:07:08

我这个不是瞎摇晃

Yukio 23:07:18

我这个是重播

Yukio 23:07:36

把别人的动作再播送一遍

Yukio 23:07:49

所以只要你记忆力没有一个月

Yukio 23:07:59

没法把全网的直播都看一遍

Yukio 23:08:14

你不可能知道我究竟这期节目抄的谁

Yukio 23:08:41

我不仅动作和语音不是一个人画面也是另外一个人

卑劣的写作者 23:08:58

？

Yukio 23:09:12

我还会把所有和原作者有关的东西自动清除

Yukio 23:09:24

比如任何QQ号码任何联系方式

卑劣的写作者 23:09:26

这人不能处

Yukio 23:09:37

任何作者署名

Yukio 23:10:32

我会把语音变声处理

Yukio 23:11:51

只要有机会我直接下载外网twitch直播把国内的语音放上来都是同类游戏

Yukio 23:14:06

我用谷歌翻译流行的游戏名字拿到外网去搜索

Yukio 23:16:17

同时我还有一个自动读评论的插件

Yukio 23:16:36

每隔几分钟读一次让你们以为这是个真人

Yukio 23:17:03

我通过图片截图搜索得到游戏名字

Yukio 23:17:45

通过相似图片得到关键词生成标题主题标签分区

Yukio 23:20:47

皮套人的动作有自动过渡系统

Yukio 23:20:57

不会出现跳变

Yukio 23:22:47

利用智能匹配选取最适合的主题动作语音自动生成连续的内容

小晴清风揽月 23:24:01

见到皮套人就恶心

Yukio 23:24:19

皮套人是资本收割机

Yukio 23:24:38

可以把处男的jy转化为软妹币

Yukio 23:24:58

非常的节能环保非常高效

重庆人快融化啦 23:26:20

[图片]

Yukio 23:26:40

如果我算力充足完全可以跳出这个抄别人的逻辑进行完全的所谓原创直播

Yukio 23:27:10

但是就一台笔记本抄直播是最为经济有效的

Yukio 23:28:01

也为之后定制更高端的原创模型打好基础

Yukio 23:30:30

我可以用观众的弹幕数据作为搜索分类的数据可以拿来衡量情绪激烈程度

Yukio 23:30:56

语音数据也是如此

小晴清风揽月 23:30:56

你语言混乱，先去看看医生

Yukio 23:31:06

不需要

Yukio 23:31:28

觉得我混乱的你压根还不懂

Yukio 23:31:42

也就是没想清楚

小晴清风揽月 23:32:01

我开玩笑的

小晴清风揽月 23:32:08

对不起

小晴清风揽月 23:32:16

我只是在学仰山杨爱民说话

2022-05-31

Deepfake face swap

deepfacelab leading software for faceswap video generation:

https://github.com/iperov/DeepFaceLab

faceswap:

https://github.com/deepfakes/faceswap

arbitrary face swap on one single model:

https://github.com/neuralchen/SimSwap

标题生成封面生成

comparing different image caption models in which you have a bunch of models ready to use

template extraction, neural template generation

封面来源：

利用标题进行图片搜索其实只能站内搜索因为站外没有这种图片与文字的对应关系

截取视频截图

b站原图 histogram match 20% 去掉文字镜像反转加入随机噪声旋转1度

利用封面进行图片反向搜索效果其实不好并没有想要的照片只能找到原图有可能起到去水印的效果但是有限

reverse image search engine

meta image search engine

telegram reverse image search bot

neural template gen is a natural language generator based on templates from harvard nlp, can be used for title generation

根据标签生成广告同样可以根据标签生成视频标题（推荐）在千言数据集上训练过

https://huggingface.co/cocoshe/gpt2-chinese-gen-ads-by-keywords?text=My+name+is+Clara+and+I+am

title generator(from description):

https://github.com/harveyaot/DianJing/blob/master/scripts/title_generation_lm.py

https://blog.csdn.net/stay_foolish12/article/details/111661358

cover generation

rectangle packing allow overlapping

when solution is not found, decrease the size of rectangles.

youtube title generator using AI:

https://github.com/gdemos01/YoutubeVideoIdeasGeneratorAI

ai thumbnail generator using pyscenedetect:

https://github.com/yoonhero/ai-thumbnail-generator

image captioning:

https://github.com/ruotianluo/ImageCaptioning.pytorch

youzan clip product title generation:

https://huggingface.co/youzanai/clip-product-title-chinese

paper title generator without description:

https://github.com/csinva/gpt2-paper-title-generator

image captioning using cnn and rnn:

https://github.com/SCK22/image_and_video

image captioning can also be used for video captioning. but that will suffice the accuracy.

keras.io image captioning

https://keras.io/examples/vision/image_captioning/

generate image captions using CLIP and GPT(on medium, click continue reading)

https://towardsai.net/p/l/image-captioning-with-clip-and-gpt

gpt3demo.com has provided a lot of interesting tasks that gpt3 can do. including image captioning. may find video captioning, video classification.

gpt3demo.com provided image captioning libs:

https://gpt3demo.com/category/image-captioning

clipclap

gpt-3 x image captions

visualgpt: generate image captions

https://github.com/Vision-CAIR/VisualGPT

generate stories from pictures, using image transformers and gpt-2, just intro no code

https://www.dataversity.net/image-captioning-generating-stories-from-unstructured-data-using-applied-nlg/

the still image to singing face bot, lip-sync video generation

sadtalker

wombo.ai, likely to be talking head or yanderifier

https://github.com/mchong6/GANsNRoses/

https://github.com/williamyang1991/VToonify

生成高质量的艺术人像视频是计算机图形学和视觉中一项重要且理想的任务。虽然已经提出了一系列基于强大的 StyleGAN 成功的人像图像卡通化模型，但这些面向图像的方法在应用于视频时存在明显的局限性，在这项工作中，我们通过引入一种新颖的 VToonify 框架来研究具有挑战性的可控高分辨率肖像视频风格迁移。具体来说，VToonify 利用StyleGAN 的中高分辨率层基于编码器提取的多尺度内容特征来渲染高质量的艺术肖像，以更好地保留帧细节。作为输入，有助于输出具有自然运动的完整面部区域。 amework 与现有的基于 StyleGAN 的图像卡通化模型兼容，以将其扩展到视频卡通化，并继承了这些模型的吸引人的特性，可灵活地控制颜色和强度。这项工作展示了基于 Toonify 和 DualStyleGAN 的 VToonify 的两个实例，用于基于集合广泛的实验结果证明了我们提出的 VToonify 框架在生成具有灵活风格控制的高质量和时间连贯的艺术肖像视频方面优于现有方法的有效性

all in one colab text to talking face generation, also consider paddlespeech example:

https://github.com/ChintanTrivedi/ask-fake-ai-karen

avaliable from paddlegan as an example used in paddlespeech, the artificial host.

lip-sync accurate wav2lip:

https://github.com/Rudrabha/Wav2Lip

lipgan generate realistic lip-sync talking head animation(fully_pythonic branch or google colab notebook):

https://github.com/Rudrabha/LipGAN

google’s lipsync implementation, using tensorflow facemesh:

https://github.com/google/lipsync

https://lipsync.withyoutube.com/

https://github.com/tensorflow/tfjs-models/tree/master/facemesh

network reverse engineering for wombo.ai: