허위 정보 검사 기능 | Notion

Process Overview

1. 사용자가 URI 를 검색 한다.

그러면 요청이 딱! 가서 크롤링이 실행되고, 해당 글의 본문을 찾아와서 읽어온다.
- 글의 본문 텍스트를 잘 파싱해오는게 기술력이라고 생각중 ☹️
- 제목은 h1 같은거 가져오면 얼마나 정확하게 될지?...
썸네일로 사용할 이미지도 읽어와야함!
- 이것도 어떻게 해야 잘 가져올까요 ㅎㅎ
- 가져오고 나서 우리 이미지 크기에 조정하는 기능도 필요함.
  - 백에서 한번 저장을 한뒤 처리하여 프론트에 줄건지
  - 아니면 프론트에서 이미지를 사이즈에 맞게 처리할 건지는 알아서..

2. 글을 다 읽어 왔다면?

제목을 보여주거나, summarizer를 통과한 한 문장을 제목처럼 보여주거나.
본문 요약은 어떤 식으로 보여줄까요?
- 앞에서부터 보여주기!
- 인공지능 모델을 거친 요약본 보여주기! (테스트가 필요함)

3. 사이트 분석

모델을 새로 학습해야 할 것 같다.
- 정치적 편향, 악의성, 바이럴, 욕설, 성차별, 인종차별, 선정적 이라고 라벨로 딱 나눠진 데이터셋이 있으면 정말 좋겠지만 현실적으로 힘들다.
- 이 부분 구현을 가장 많이 고민해봐야 할 것 같은데, 정 힘들다면 영어 데이터로 대체할까 고민 중인 부분이기도 하다.

References

[1] 부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석

[2] 딥러닝으로 동네생활 게시글 필터링하기