Process Overview
1. 사용자가 URI 를 검색 한다.
- 그러면 요청이 딱! 가서 크롤링이 실행되고, 해당 글의 본문을 찾아와서 읽어온다.
- 글의 본문 텍스트를 잘 파싱해오는게 기술력이라고 생각중 ☹️
- 제목은 h1 같은거 가져오면 얼마나 정확하게 될지?...
- 썸네일로 사용할 이미지도 읽어와야함!
- 이것도 어떻게 해야 잘 가져올까요 ㅎㅎ
- 가져오고 나서 우리 이미지 크기에 조정하는 기능도 필요함.
- 백에서 한번 저장을 한뒤 처리하여 프론트에 줄건지
- 아니면 프론트에서 이미지를 사이즈에 맞게 처리할 건지는 알아서..
2. 글을 다 읽어 왔다면?
- 제목을 보여주거나,
summarizer
를 통과한 한 문장을 제목처럼 보여주거나.
- 본문 요약은 어떤 식으로 보여줄까요?
- 앞에서부터 보여주기!
- 인공지능 모델을 거친 요약본 보여주기! (테스트가 필요함)
3. 사이트 분석
- 모델을 새로 학습해야 할 것 같다.
정치적 편향
, 악의성
, 바이럴
, 욕설
, 성차별
, 인종차별
, 선정적
이라고
라벨로 딱 나눠진 데이터셋이 있으면 정말 좋겠지만 현실적으로 힘들다.
- 이 부분 구현을 가장 많이 고민해봐야 할 것 같은데, 정 힘들다면 영어 데이터로
대체할까 고민 중인 부분이기도 하다.
References
[1] 부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석
[2] 딥러닝으로 동네생활 게시글 필터링하기